Tabby: 33K+ Stars 자체 호스팅 AI 코딩 어시스턴트 — 2026년 프라이버시 우선 설치 가이드
Tabby는 자체 호스팅 AI 코딩 어시스턴트입니다. VS Code, JetBrains, Vim, Neovim, Ollama, DeepSeek 지원. Docker 설치, IDE 통합, 벤치마크, 프로덕션 하드닝.
- ⭐ 33530
- Apache-2.0
- 업데이트 2026-05-19
{{< resource-info >}}
GitHub Copilot은 사용자의 독점 코드를 Microsoft 클라우드로 전송합니다. 핀테크, 헬스케어, 국방, 엔터프라이즈 SaaS 등 민감한 IP를 다루는 팀에게 이는 용납할 수 없습니다. Tabby는 오픈소스 솔루션입니다: 외부 데이터 유출 없이 완전히 자신의 하드웨어에서 실행되는 자체 호스팅 AI 코딩 어시스턴트입니다. 33,530개 이상의 GitHub Stars와 활발한 릴리스 주기(v0.32.0은 2026년 1월 출시)를 바탕으로, Tabby는 실험적 프로젝트에서 프로덕션급 Copilot 대안으로 성숙했습니다. 이 가이드는 Docker 배포부터 IDE 통합, 프로덕션 하드닝까지 완전한 Tabby 설정을 다룹니다.
Tabby란? #
Tabby는 자체 호스팅 AI 코딩 어시스턴트이자 GitHub Copilot의 오픈소스 대안입니다. 실시간 코드 자동완성, 코드 질문 응답 엔진, 인라인 채팅 기능을 제공하며, 모두 사용자가 제어하는 인프라에서 실행됩니다. Rust로 작성되었고(코드베이스의 92.9%), 속도를 위해 설계되어 소비자용 GPU, Apple Silicon, 심지어 CPU 전용 서버에서도 실행할 수 있습니다.
Tabby 작동 방식 #
Tabby는 세 가지 핵심 구성 요소로 구성됩니다:
추론 서버: 코딩 LLM을 로드하고 OpenAPI 호환 엔드포인트를 통해 자동완성을 제공하는 Rust 기반 HTTP 서버입니다. 모델 추론, 프롬프트 템플릿, 스트리밍 응답을 처리합니다.
IDE 확장: VS Code, JetBrains IDE, Vim/Neovim, Emacs용 네이티브 확장으로, 편집기 컨텍스트를 캡처하고 자동완성 요청을 추론 서버로 전달합니다.
관리 대시보드: 사용자 관리, API 토큰 생성, 저장소 인덱싱, 사용량 분석을 위한 내장 웹 UI입니다. 외부 데이터베이스가 필요 없습니다 — Tabby는 내장 SQLite 저장소를 사용합니다.

데이터 흐름은 간단합니다: IDE 확장이 커서 주변의 전/후 컨텍스트를 캡처하고 로컬 Tabby 서버에 전송하면, 서버는 로드된 모델(예: StarCoder-2-3B 또는 Qwen2.5-Coder-7B)에 대해 추론을 실행하고 GPU에서 500ms 이내에 자동완성을 반환합니다.

설치 및 설정 #
사전 요구 사항 #
- Docker (권장) 또는 Docker Compose
- NVIDIA Container Toolkit (CUDA 시스템의 GPU 지원용)
- 소형 모델(1.5B 파라미터)용 4GB+ RAM, 중형 모델(7B 파라미터)용 16GB+
- 모델 가중치용 10GB+ 디스크 공간
Docker 설치 (5분) #
Tabby를 실행하는 가장 빠른 방법은 Docker입니다. 다음 명령은 세 가지 주요 컴퓨팅 백엔드를 다룹니다.
NVIDIA GPU (CUDA) #
# CUDA 가속으로 Tabby 시작
docker run -d \
--name tabby \
--gpus all \
-p 8080:8080 \
-v $HOME/.tabby:/data \
registry.tabbyml.com/tabbyml/tabby \
serve \
--model StarCoder-1B \
--chat-model Qwen2-1.5B-Instruct \
--device cuda
SELinux가 활성화된 시스템에서는 볼륨 마운트에 :Z 플래그를 추가합니다:
docker run -d \
--name tabby \
--gpus all \
-p 8080:8080 \
-v $HOME/.tabby:/data:Z \
registry.tabbyml.com/tabbyml/tabby \
serve \
--model StarCoder-1B \
--chat-model Qwen2-1.5B-Instruct \
--device cuda
Apple Silicon (Metal) #
docker run -d \
--name tabby \
-p 8080:8080 \
-v $HOME/.tabby:/data \
registry.tabbyml.com/tabbyml/tabby \
serve \
--model StarCoder-1B \
--chat-model Qwen2-1.5B-Instruct \
--device metal
AMD GPU (ROCm) #
docker run -d \
--name tabby \
--device /dev/kfd --device /dev/dri \
--group-add video \
-p 8080:8080 \
-v $HOME/.tabby:/data \
registry.tabbyml.com/tabbyml/tabby-rocm \
serve \
--model StarCoder-1B \
--device rocm
CPU 전용 (폰백) #
docker run -d \
--name tabby \
-p 8080:8080 \
-v $HOME/.tabby:/data \
registry.tabbyml.com/tabbyml/tabby \
serve \
--model Qwen2.5-Coder-0.5B \
--device cpu
설치 확인 #
# 서버 상태 확인
curl http://localhost:8080/v1/health
# 로그 보기
docker logs -f tabby
# 관리 대시보드 열기
open http://localhost:8080
첫 부팅 시 Tabby는 지정된 모델 가중치를 $HOME/.tabby에 다운로드합니다. 대역폭에 따라 2~10분이 소요될 수 있습니다. 관리 대시보드에서 관리자 계정 생성을 안내합니다.
Docker Compose (프로덕션 준비) #
영구 배포에는 Docker Compose를 사용합니다:
version: '3.8'
services:
tabby:
image: registry.tabbyml.com/tabbyml/tabby
container_name: tabby
restart: unless-stopped
ports:
- "8080:8080"
volumes:
- $HOME/.tabby:/data
environment:
- TABBY_WEBSERVER_JWT_TOKEN_SECRET=CHANGE_ME_TO_RANDOM_STRING
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
command: >
serve
--model StarCoder2-3B
--chat-model Qwen2.5-Coder-7B-Instruct
--device cuda
--parallelism 4
보안 JWT 키 생성:
openssl rand -hex 32
배포:
docker compose up -d
Homebrew (macOS 네이티브) #
macOS에서 Docker를 사용하지 않으려면:
# Homebrew로 설치
brew install tabbyml/tabby/tabby
# Metal 가속으로 실행
tabby serve \
--model StarCoder2-3B \
--chat-model Qwen2-1.5B-Instruct \
--device metal
# 확인
curl http://localhost:8080/v1/health
VS Code, JetBrains, Vim 및 Ollama 통합 #

VS Code #
- 확장 마켓플레이스를 열고 **“Tabby”**를 검색하여 TabbyML의 확장을 설치합니다.
- 설정(Ctrl+,)을 열고 **“Tabby”**를 검색하여 Server Endpoint를
http://localhost:8080으로 설정합니다. - 상태 표시줄에 Tabby 아이콘이 표시되면 연결 성공입니다. 입력을 시작하면 자동완성이 제공됩니다.
JetBrains IDE (IntelliJ, PyCharm, GoLand) #
- 설정 → 플러그인 → 마켓플레이스를 열고 **“Tabby”**를 검색하여 설치합니다.
- IDE를 재시작합니다.
- 설정 → 도구 → Tabby로 이동하여 서버 엔드포인트 URL(예:
http://localhost:8080)을 입력합니다. - Tabby 관리 대시보드에서 API 토큰을 생성하여 IDE 설정에 붙여넣습니다.
Vim / Neovim #
nvim-cmp 및 cmp-tabby를 사용하는 Neovim의 경우:
-- Neovim 설정에서 (예: init.lua)
require('cmp').setup({
sources = {
{ name = 'tabby' },
},
})
-- Tabby 서버 URL 설정
vim.g.tabby_server_url = 'http://localhost:8080'
Ollama를 백엔드로 사용 #
Tabby는 추론을 Ollama에 위임하여 동적 모델 전환과 다중 모델 관리를 가능하게 합니다:
# ~/.tabby/config.toml
[model.completion.http]
kind = "ollama/completion"
model_name = "deepseek-coder:6.7b"
api_endpoint = "http://localhost:11434"
prompt_template = "<PRE> {prefix} <SUF>{suffix} <MID>"
[model.chat.http]
kind = "openai/chat"
model_name = "qwen2.5-coder:7b"
api_endpoint = "http://localhost:11434/v1"
필요한 모델로 Ollama 시작:
ollama pull deepseek-coder:6.7b
ollama pull qwen2.5-coder:7b
ollama serve
그런 다음 --model을 지정하지 않고 Tabby를 시작합니다(config.toml에서 읽음):
tabby serve --device cuda
이 설정은 제한된 VRAM의 단일 GPU에서 여러 모델을 실행하려는 경우 이상적입니다 — Ollama가 동적으로 모델 로드 및 언로드를 처리합니다.
벤치마크 / 실제 사용 사례 #
Tabby의 성능은 모델 크기와 하드웨어에 크게 의존합니다. 다음 수치는 커뮤니티 벤치마크와 낮선 테스트에서 수집되었습니다:
| 모델 | 크기 | GPU VRAM | 평균 지연 | 채택률 | 최적 사용场景 |
|---|---|---|---|---|---|
| Qwen2.5-Coder-0.5B | 0.5B | 2 GB | ~200ms | 18% | CPU 전용 설정, 빠른 테스트 |
| StarCoder-1B | 1B | 3 GB | ~180ms | 22% | 저사원 배포 |
| StarCoder2-3B | 3B | 6 GB | ~250ms | 28% | 품질/속도 균형 |
| Qwen2.5-Coder-7B | 7B | 14 GB | ~350ms | 35% | 고품질 자동완성 |
| DeepSeekCoder-6.7B | 6.7B | 13 GB | ~380ms | 33% | Python/JS 중심 프로젝트 |
채택률은 개발자가 Tabby 제안을 수락하는 빈도를 측정합니다. 비교를 위해 GitHub Copilot의 보고된 채택률은 언어에 따라 30~40%입니다.
배포 시나리오 #
| 시나리오 | 하드웨어 | 추천 모델 | 월 비용 |
|---|---|---|---|
| 개발자, 노트북 | M2/M3 MacBook 16GB | StarCoder2-3B | $0 |
| 소규모 팀 (5–10명) | RTX 4070 Ti, 16GB VRAM | Qwen2.5-Coder-7B | ~$50 (전력) |
| 엔터프라이즈 (50+명) | 2× A100 80GB | Qwen2.5-Coder-7B + chat | ~$500 (호스팅) |
| CI/CD 배치 작업 | CPU 전용 클라우드 인스턴스 | Qwen2.5-Coder-0.5B | ~$30 |
서버 인프라 호스팅의 경우 DigitalOcean은 GPU 없는 간단한 배포에 적합하고, HTStack은 GPU 가속 클라우드 인스턴스에 적합합니다. 둘 다 위에서 설명한 Docker 설정과 잘 작동합니다.
고급 사용법 / 프로덕션 하드닝 #
저장소 컨텍스트 인덱싱 #
팀을 위한 Tabby의 킬러 기능은 저장소 수준 컨텍스트 인덱싱입니다. Git 저장소를 클론하고 인덱싱한 다음, 자동완성 중에 관련 납부 코드 스니펫을 제공하기 위해 RAG(검색 증강 생성)를 사용합니다.
관리 대시보드를 통해 저장소 추가:
# 저장소 → Git URL 추가로 이동
# GitHub, GitLab, 자체 호스팅 Git 인스턴스 지원
또는 스케줄러 CLI를 통해 구성:
docker exec tabby /opt/tabby/bin/tabby-cpu scheduler --now
보안 하드닝 #
기본 JWT 키 변경:
TABBY_WEBSERVER_JWT_TOKEN_SECRET을 암호학적으로 안전한 32바이트 16진수 문자열로 설정합니다.TLS 종료와 함께 리버스 프록시 뒤에서 실행:
# Nginx 예시
server {
listen 443 ssl;
server_name tabby.yourcompany.com;
ssl_certificate /etc/letsencrypt/live/tabby.yourcompany.com/fullchain.pem;
ssl_certificate_key /etc/letsencrypt/live/tabby.yourcompany.com/privkey.pem;
location / {
proxy_pass http://localhost:8080;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
}
}
LDAP/SSO 인증 활성화 (엔터프라이즈 기능)으로 팀 전체 접근 제어.
Docker 컨테이너에 리소스 제한 설정:
docker run -d \
--memory=24g \
--cpus=8 \
# ... 기타 플래그
성능 튜닝 #
# 팀 동시 요청을 위한 병렬 처리 증가
tabby serve \
--model StarCoder2-3B \
--device cuda \
--parallelism 4
# VRAM 사용량 감소를 위한 반정밀도(FP16) 사용
tabby serve \
--model StarCoder2-3B \
--device cuda \
--dtype float16
모니터링 #
# API 상태 확인
curl http://localhost:8080/v1/health
# Docker 통계
docker stats tabby
# 오류 로그만 보기
docker logs tabby 2>&1 | grep ERROR
대안과의 비교 #
| 기능 | Tabby | GitHub Copilot | Cursor | Codeium |
|---|---|---|---|---|
| 자체 호스팅 | 예 | 아니오 | 아니오 | 부분 (엔터프라이즈) |
| 라이선스 | Apache-2.0 | 독점 | 독점 | 독점 |
| 개인 가격 | 무��� | $10/월 | $20/월 | 묵룡 체 |
| 코드 로컬 유지 | 예 | 아니오 | 아니오 | 아니오 |
| 모델 유연성 | OpenAI 호환 모델 | GPT-4만 | Claude/GPT만 | Codeium 모델만 |
| 저장소 컨텍스트 인덱싱 | 예 (내장 RAG) | 제한적 | 예 | 예 |
| 팀 관리 | 예 (관리 대시보드) | 예 (엔터프라이즈) | 예 (팀) | 예 (Teams) |
| IDE 지원 | VS Code, JetBrains, Vim, Emacs, Eclipse | VS Code, JetBrains, Vim, Neovim | VS Code만 | VS Code, JetBrains, Vim |
| 설정 복잡도 | Docker / 1명령 | 확장 설치 | 앱 설치 | 확장 설치 |
| 오프라인 가능 | 예 | 아니오 | 아니오 | 아니오 |
| GitHub Stars | 33,530+ | N/A (Microsoft) | N/A (비공개) | N/A (비공개) |
Tabby는 이 그룹에서 100% 코드를 온프레미스로 유지하는 유일한 옵션입니다. SOC 2, HIPAA, ITAR 또는 유사한 규정 프레임워크를 준수해야 하는 경우 이 차이점이 중요합니다.
한계 / 정직한 평가 #
Tabby는 모든 Copilot 사용 사례에서 즉시 대체제는 아닙니다. 다음 트레이드오프를 인식하세요:
- 소형 모델의 복잡한 추론에서 뒤처짐: 3B 파라미터 모델은 다중 파일 리팩토링이나 아키텍처 제안에서 GPT-4를 따라잡지 못합니다. 이러한 작업의 경우 여전히 클라우드 기반 채팅 도구가 필요할 수 있습니다.
- 인프라 부담: GPU 유지보수, 모델 업데이트, 서버 가동 시간을 책임져야 합니다. 서버가 다울 때 SaaS 대안이 없습니다.
- 기본 설치에 채팅 없음: 채팅/응답 엔진은 별도의 채팅 모델과 추가 VRAM이 필요합니다. GPU 크기에 맞게 계획하세요.
- 엔터프라이즈 SSO 비용: LDAP 및 고급 SSO는 Tabby의 유료 엔터프라이즈 계층에 포함됩니다.
- 모바일 지원 제한: Copilot의 모바일 코드 검토 기능에 해당하는 iOS/Android 버전이 없습니다.
자주 묻는 질문 #
Tabby를 실행하려면 어떤 하드웨어가 필요합니까? #
개인 사용의 경우 16GB RAM과 M시리즈 MacBook 또는 8GB+ VRAM의 NVIDIA GPU가 있는 노트북이 StarCoder2-3B 모델을 원활하게 처리합니다. 팀 배포의 경우 동시 사용자당 4GB VRAM을 기준으로 계획하세요. RTX 4090(24GB)의 7B 모델은 동시에 4~6명의 개발자를 지원합니다.
Tabby를 완전히 오프라인으로 사용할 수 있습니까? #
예. 초기 모델 다운로드 후 Tabby는 인터넷 없이 완전히 작동합니다. 추론 서버, IDE 확장, 관리 대시보드는 모두 로컬 네트워크에서 실행됩니다. 이것이 Tabby의 에어갭 환경의 주요 장점 중 하나입니다.
Tabby는 GitHub Copilot과 정확도 비교가 어떻습니까? #
7B 모델로 단일 파일 자동완성 시 Tabby는 Copilot과 5~10% 이내의 채택률을 달성합니다. Copilot이 앞서는 부분은 다중 파일 컨텍스트와 복잡한 리팩토링 — GPT-4 규모 모델의 이점을 받는 작업입니다. 일상적인 한 줄씩 완성의 경우 차이는 무시할 수 있습니다.
자체 파인튜닝한 모델을 사용할 수 있습니까? #
예. Tabby는 OpenAI 호환 API를 가진 Hugging Face Transformers 형식의 모든 모델을 지원합니다. 로컬 모델 경로를 가리키거나 자체 모델 서버를 호스팅할 수 있습니다. 정확한 형식 요구사항은 MODEL_SPEC.md를 참조하세요.
Tabby는 대규모 엔터프라이즈 팀에 적합합니까? #
적절한 하드웨어(다중 GPU 서버)와 --parallelism 플래그를 사용하면 Tabby는 50명 이상의 사용자로 확장됩니다. 관리 대시보드는 사용자 관리, API 토큰 교체, 사용량 분석을 지원합니다. SSO/LDAP 통합의 경우 엔터프라이즈 라이선스가 필요합니다.
Tabby를 새 버전으로 업데이트하려면? #
# 최신 이미지 가져오기
docker pull registry.tabbyml.com/tabbyml/tabby
# 컨테이너 재시작
docker compose down
docker compose up -d
# 새 버전 확인
curl http://localhost:8080/v1/health
결론 #
Tabby는 AI 코딩 어시스턴트 시장에서 핵심적인 격차를 메웁니다: 완전히 오픈소스이고 자체 호스팅되어 코드를 사용자의 경계 낶부에 유지하는 도구입니다. 33,530개 이상의 Stars, 활발한 Rust 개발, 그리고 최신 코딩 모델(Qwen2.5-Coder, DeepSeek, StarCoder2) 지원을 바탕으로, 프라이버시를 중시하는 팀의 프로덕션 사용에 준비가 되었습니다.
시작하기 위한 조치 항목:
- 4절의 Docker 명령을 실행하여 로컬 머신에서 Tabby를 시작합니다.
- 편집기용 IDE 확장을 설치하고
http://localhost:8080에 연결합니다. - 관리 대시보드에서 테스트 저장소를 인덱싱하여 RAG 기반 자동완성을 경험합니다.
- Telegram 커뮤니티에 가입하여 배포 팁과 모델 추천을 받습니다.
이 기사에는 호스팅 제공업체의 제휴 링크가 포함되어 있습니다. 이러한 추천은 자체 호스팅 AI 워크로드의 기술적 적합성을 기반으로 한 것이며 상업적 파트너십은 아닙니다.
추천 호스팅 및 인프라 #
위 도구들을 프로덕션에 배포하려면 안정적인 인프라가 필요합니다. dibi8가 직접 사용 중인 두 가지 옵션:
- DigitalOcean — 60일 $200 무료 크레딧, 14개 이상 글로벌 리전. 오픈소스 AI 도구의 기본 선택.
- HTStack — 홍콩 VPS, 중국 본토 저지연 접속. dibi8.com 호스팅 중인 검증된 IDC.
제휴 링크 — 추가 비용 없이 dibi8 운영을 지원합니다.
💬 댓글 토론