Tabby: 33K+ Stars 자체 호스팅 AI 코딩 어시스턴트 — 2026년 프라이버시 우선 설치 가이드

Tabby는 자체 호스팅 AI 코딩 어시스턴트입니다. VS Code, JetBrains, Vim, Neovim, Ollama, DeepSeek 지원. Docker 설치, IDE 통합, 벤치마크, 프로덕션 하드닝.

  • ⭐ 33530
  • Apache-2.0
  • 업데이트 2026-05-19

{{< resource-info >}}

GitHub Copilot은 사용자의 독점 코드를 Microsoft 클라우드로 전송합니다. 핀테크, 헬스케어, 국방, 엔터프라이즈 SaaS 등 민감한 IP를 다루는 팀에게 이는 용납할 수 없습니다. Tabby는 오픈소스 솔루션입니다: 외부 데이터 유출 없이 완전히 자신의 하드웨어에서 실행되는 자체 호스팅 AI 코딩 어시스턴트입니다. 33,530개 이상의 GitHub Stars와 활발한 릴리스 주기(v0.32.0은 2026년 1월 출시)를 바탕으로, Tabby는 실험적 프로젝트에서 프로덕션급 Copilot 대안으로 성숙했습니다. 이 가이드는 Docker 배포부터 IDE 통합, 프로덕션 하드닝까지 완전한 Tabby 설정을 다룹니다.

Tabby란? #

Tabby는 자체 호스팅 AI 코딩 어시스턴트이자 GitHub Copilot의 오픈소스 대안입니다. 실시간 코드 자동완성, 코드 질문 응답 엔진, 인라인 채팅 기능을 제공하며, 모두 사용자가 제어하는 인프라에서 실행됩니다. Rust로 작성되었고(코드베이스의 92.9%), 속도를 위해 설계되어 소비자용 GPU, Apple Silicon, 심지어 CPU 전용 서버에서도 실행할 수 있습니다.

Tabby 작동 방식 #

Tabby는 세 가지 핵심 구성 요소로 구성됩니다:

  1. 추론 서버: 코딩 LLM을 로드하고 OpenAPI 호환 엔드포인트를 통해 자동완성을 제공하는 Rust 기반 HTTP 서버입니다. 모델 추론, 프롬프트 템플릿, 스트리밍 응답을 처리합니다.

  2. IDE 확장: VS Code, JetBrains IDE, Vim/Neovim, Emacs용 네이티브 확장으로, 편집기 컨텍스트를 캡처하고 자동완성 요청을 추론 서버로 전달합니다.

  3. 관리 대시보드: 사용자 관리, API 토큰 생성, 저장소 인덱싱, 사용량 분석을 위한 내장 웹 UI입니다. 외부 데이터베이스가 필요 없습니다 — Tabby는 내장 SQLite 저장소를 사용합니다.

Tabby 아키텍처

데이터 흐름은 간단합니다: IDE 확장이 커서 주변의 전/후 컨텍스트를 캡처하고 로컬 Tabby 서버에 전송하면, 서버는 로드된 모델(예: StarCoder-2-3B 또는 Qwen2.5-Coder-7B)에 대해 추론을 실행하고 GPU에서 500ms 이내에 자동완성을 반환합니다.

Tabby 관리 대시보드

설치 및 설정 #

사전 요구 사항 #

  • Docker (권장) 또는 Docker Compose
  • NVIDIA Container Toolkit (CUDA 시스템의 GPU 지원용)
  • 소형 모델(1.5B 파라미터)용 4GB+ RAM, 중형 모델(7B 파라미터)용 16GB+
  • 모델 가중치용 10GB+ 디스크 공간

Docker 설치 (5분) #

Tabby를 실행하는 가장 빠른 방법은 Docker입니다. 다음 명령은 세 가지 주요 컴퓨팅 백엔드를 다룹니다.

NVIDIA GPU (CUDA) #

# CUDA 가속으로 Tabby 시작
docker run -d \
  --name tabby \
  --gpus all \
  -p 8080:8080 \
  -v $HOME/.tabby:/data \
  registry.tabbyml.com/tabbyml/tabby \
  serve \
  --model StarCoder-1B \
  --chat-model Qwen2-1.5B-Instruct \
  --device cuda

SELinux가 활성화된 시스템에서는 볼륨 마운트에 :Z 플래그를 추가합니다:

docker run -d \
  --name tabby \
  --gpus all \
  -p 8080:8080 \
  -v $HOME/.tabby:/data:Z \
  registry.tabbyml.com/tabbyml/tabby \
  serve \
  --model StarCoder-1B \
  --chat-model Qwen2-1.5B-Instruct \
  --device cuda

Apple Silicon (Metal) #

docker run -d \
  --name tabby \
  -p 8080:8080 \
  -v $HOME/.tabby:/data \
  registry.tabbyml.com/tabbyml/tabby \
  serve \
  --model StarCoder-1B \
  --chat-model Qwen2-1.5B-Instruct \
  --device metal

AMD GPU (ROCm) #

docker run -d \
  --name tabby \
  --device /dev/kfd --device /dev/dri \
  --group-add video \
  -p 8080:8080 \
  -v $HOME/.tabby:/data \
  registry.tabbyml.com/tabbyml/tabby-rocm \
  serve \
  --model StarCoder-1B \
  --device rocm

CPU 전용 (폰백) #

docker run -d \
  --name tabby \
  -p 8080:8080 \
  -v $HOME/.tabby:/data \
  registry.tabbyml.com/tabbyml/tabby \
  serve \
  --model Qwen2.5-Coder-0.5B \
  --device cpu

설치 확인 #

# 서버 상태 확인
curl http://localhost:8080/v1/health

# 로그 보기
docker logs -f tabby

# 관리 대시보드 열기
open http://localhost:8080

첫 부팅 시 Tabby는 지정된 모델 가중치를 $HOME/.tabby에 다운로드합니다. 대역폭에 따라 2~10분이 소요될 수 있습니다. 관리 대시보드에서 관리자 계정 생성을 안내합니다.

Docker Compose (프로덕션 준비) #

영구 배포에는 Docker Compose를 사용합니다:

version: '3.8'
services:
  tabby:
    image: registry.tabbyml.com/tabbyml/tabby
    container_name: tabby
    restart: unless-stopped
    ports:
      - "8080:8080"
    volumes:
      - $HOME/.tabby:/data
    environment:
      - TABBY_WEBSERVER_JWT_TOKEN_SECRET=CHANGE_ME_TO_RANDOM_STRING
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    command: >
      serve
      --model StarCoder2-3B
      --chat-model Qwen2.5-Coder-7B-Instruct
      --device cuda
      --parallelism 4

보안 JWT 키 생성:

openssl rand -hex 32

배포:

docker compose up -d

Homebrew (macOS 네이티브) #

macOS에서 Docker를 사용하지 않으려면:

# Homebrew로 설치
brew install tabbyml/tabby/tabby

# Metal 가속으로 실행
tabby serve \
  --model StarCoder2-3B \
  --chat-model Qwen2-1.5B-Instruct \
  --device metal

# 확인
curl http://localhost:8080/v1/health

VS Code, JetBrains, Vim 및 Ollama 통합 #

Tabby IDE 연동

VS Code #

  1. 확장 마켓플레이스를 열고 **“Tabby”**를 검색하여 TabbyML의 확장을 설치합니다.
  2. 설정(Ctrl+,)을 열고 **“Tabby”**를 검색하여 Server Endpoint를 http://localhost:8080으로 설정합니다.
  3. 상태 표시줄에 Tabby 아이콘이 표시되면 연결 성공입니다. 입력을 시작하면 자동완성이 제공됩니다.

JetBrains IDE (IntelliJ, PyCharm, GoLand) #

  1. 설정 → 플러그인 → 마켓플레이스를 열고 **“Tabby”**를 검색하여 설치합니다.
  2. IDE를 재시작합니다.
  3. 설정 → 도구 → Tabby로 이동하여 서버 엔드포인트 URL(예: http://localhost:8080)을 입력합니다.
  4. Tabby 관리 대시보드에서 API 토큰을 생성하여 IDE 설정에 붙여넣습니다.

Vim / Neovim #

nvim-cmpcmp-tabby를 사용하는 Neovim의 경우:

-- Neovim 설정에서 (예: init.lua)
require('cmp').setup({
  sources = {
    { name = 'tabby' },
  },
})

-- Tabby 서버 URL 설정
vim.g.tabby_server_url = 'http://localhost:8080'

Ollama를 백엔드로 사용 #

Tabby는 추론을 Ollama에 위임하여 동적 모델 전환과 다중 모델 관리를 가능하게 합니다:

# ~/.tabby/config.toml
[model.completion.http]
kind = "ollama/completion"
model_name = "deepseek-coder:6.7b"
api_endpoint = "http://localhost:11434"
prompt_template = "<PRE> {prefix} <SUF>{suffix} <MID>"

[model.chat.http]
kind = "openai/chat"
model_name = "qwen2.5-coder:7b"
api_endpoint = "http://localhost:11434/v1"

필요한 모델로 Ollama 시작:

ollama pull deepseek-coder:6.7b
ollama pull qwen2.5-coder:7b
ollama serve

그런 다음 --model을 지정하지 않고 Tabby를 시작합니다(config.toml에서 읽음):

tabby serve --device cuda

이 설정은 제한된 VRAM의 단일 GPU에서 여러 모델을 실행하려는 경우 이상적입니다 — Ollama가 동적으로 모델 로드 및 언로드를 처리합니다.

벤치마크 / 실제 사용 사례 #

Tabby의 성능은 모델 크기와 하드웨어에 크게 의존합니다. 다음 수치는 커뮤니티 벤치마크와 낮선 테스트에서 수집되었습니다:

모델크기GPU VRAM평균 지연채택률최적 사용场景
Qwen2.5-Coder-0.5B0.5B2 GB~200ms18%CPU 전용 설정, 빠른 테스트
StarCoder-1B1B3 GB~180ms22%저사원 배포
StarCoder2-3B3B6 GB~250ms28%품질/속도 균형
Qwen2.5-Coder-7B7B14 GB~350ms35%고품질 자동완성
DeepSeekCoder-6.7B6.7B13 GB~380ms33%Python/JS 중심 프로젝트

채택률은 개발자가 Tabby 제안을 수락하는 빈도를 측정합니다. 비교를 위해 GitHub Copilot의 보고된 채택률은 언어에 따라 30~40%입니다.

배포 시나리오 #

시나리오하드웨어추천 모델월 비용
개발자, 노트북M2/M3 MacBook 16GBStarCoder2-3B$0
소규모 팀 (5–10명)RTX 4070 Ti, 16GB VRAMQwen2.5-Coder-7B~$50 (전력)
엔터프라이즈 (50+명)2× A100 80GBQwen2.5-Coder-7B + chat~$500 (호스팅)
CI/CD 배치 작업CPU 전용 클라우드 인스턴스Qwen2.5-Coder-0.5B~$30

서버 인프라 호스팅의 경우 DigitalOcean은 GPU 없는 간단한 배포에 적합하고, HTStack은 GPU 가속 클라우드 인스턴스에 적합합니다. 둘 다 위에서 설명한 Docker 설정과 잘 작동합니다.

고급 사용법 / 프로덕션 하드닝 #

저장소 컨텍스트 인덱싱 #

팀을 위한 Tabby의 킬러 기능은 저장소 수준 컨텍스트 인덱싱입니다. Git 저장소를 클론하고 인덱싱한 다음, 자동완성 중에 관련 납부 코드 스니펫을 제공하기 위해 RAG(검색 증강 생성)를 사용합니다.

관리 대시보드를 통해 저장소 추가:

# 저장소 → Git URL 추가로 이동
# GitHub, GitLab, 자체 호스팅 Git 인스턴스 지원

또는 스케줄러 CLI를 통해 구성:

docker exec tabby /opt/tabby/bin/tabby-cpu scheduler --now

보안 하드닝 #

  1. 기본 JWT 키 변경: TABBY_WEBSERVER_JWT_TOKEN_SECRET을 암호학적으로 안전한 32바이트 16진수 문자열로 설정합니다.

  2. TLS 종료와 함께 리버스 프록시 뒤에서 실행:

# Nginx 예시
server {
    listen 443 ssl;
    server_name tabby.yourcompany.com;

    ssl_certificate /etc/letsencrypt/live/tabby.yourcompany.com/fullchain.pem;
    ssl_certificate_key /etc/letsencrypt/live/tabby.yourcompany.com/privkey.pem;

    location / {
        proxy_pass http://localhost:8080;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}
  1. LDAP/SSO 인증 활성화 (엔터프라이즈 기능)으로 팀 전체 접근 제어.

  2. Docker 컨테이너에 리소스 제한 설정:

docker run -d \
  --memory=24g \
  --cpus=8 \
  # ... 기타 플래그

성능 튜닝 #

# 팀 동시 요청을 위한 병렬 처리 증가
tabby serve \
  --model StarCoder2-3B \
  --device cuda \
  --parallelism 4

# VRAM 사용량 감소를 위한 반정밀도(FP16) 사용
tabby serve \
  --model StarCoder2-3B \
  --device cuda \
  --dtype float16

모니터링 #

# API 상태 확인
curl http://localhost:8080/v1/health

# Docker 통계
docker stats tabby

# 오류 로그만 보기
docker logs tabby 2>&1 | grep ERROR

대안과의 비교 #

기능TabbyGitHub CopilotCursorCodeium
자체 호스팅아니오아니오부분 (엔터프라이즈)
라이선스Apache-2.0독점독점독점
개인 가격무���$10/월$20/월묵룡 체
코드 로컬 유지아니오아니오아니오
모델 유연성OpenAI 호환 모델GPT-4만Claude/GPT만Codeium 모델만
저장소 컨텍스트 인덱싱예 (내장 RAG)제한적
팀 관리예 (관리 대시보드)예 (엔터프라이즈)예 (팀)예 (Teams)
IDE 지원VS Code, JetBrains, Vim, Emacs, EclipseVS Code, JetBrains, Vim, NeovimVS Code만VS Code, JetBrains, Vim
설정 복잡도Docker / 1명령확장 설치앱 설치확장 설치
오프라인 가능아니오아니오아니오
GitHub Stars33,530+N/A (Microsoft)N/A (비공개)N/A (비공개)

Tabby는 이 그룹에서 100% 코드를 온프레미스로 유지하는 유일한 옵션입니다. SOC 2, HIPAA, ITAR 또는 유사한 규정 프레임워크를 준수해야 하는 경우 이 차이점이 중요합니다.

한계 / 정직한 평가 #

Tabby는 모든 Copilot 사용 사례에서 즉시 대체제는 아닙니다. 다음 트레이드오프를 인식하세요:

  • 소형 모델의 복잡한 추론에서 뒤처짐: 3B 파라미터 모델은 다중 파일 리팩토링이나 아키텍처 제안에서 GPT-4를 따라잡지 못합니다. 이러한 작업의 경우 여전히 클라우드 기반 채팅 도구가 필요할 수 있습니다.
  • 인프라 부담: GPU 유지보수, 모델 업데이트, 서버 가동 시간을 책임져야 합니다. 서버가 다울 때 SaaS 대안이 없습니다.
  • 기본 설치에 채팅 없음: 채팅/응답 엔진은 별도의 채팅 모델과 추가 VRAM이 필요합니다. GPU 크기에 맞게 계획하세요.
  • 엔터프라이즈 SSO 비용: LDAP 및 고급 SSO는 Tabby의 유료 엔터프라이즈 계층에 포함됩니다.
  • 모바일 지원 제한: Copilot의 모바일 코드 검토 기능에 해당하는 iOS/Android 버전이 없습니다.

자주 묻는 질문 #

Tabby를 실행하려면 어떤 하드웨어가 필요합니까? #

개인 사용의 경우 16GB RAM과 M시리즈 MacBook 또는 8GB+ VRAM의 NVIDIA GPU가 있는 노트북이 StarCoder2-3B 모델을 원활하게 처리합니다. 팀 배포의 경우 동시 사용자당 4GB VRAM을 기준으로 계획하세요. RTX 4090(24GB)의 7B 모델은 동시에 4~6명의 개발자를 지원합니다.

Tabby를 완전히 오프라인으로 사용할 수 있습니까? #

예. 초기 모델 다운로드 후 Tabby는 인터넷 없이 완전히 작동합니다. 추론 서버, IDE 확장, 관리 대시보드는 모두 로컬 네트워크에서 실행됩니다. 이것이 Tabby의 에어갭 환경의 주요 장점 중 하나입니다.

Tabby는 GitHub Copilot과 정확도 비교가 어떻습니까? #

7B 모델로 단일 파일 자동완성 시 Tabby는 Copilot과 5~10% 이내의 채택률을 달성합니다. Copilot이 앞서는 부분은 다중 파일 컨텍스트와 복잡한 리팩토링 — GPT-4 규모 모델의 이점을 받는 작업입니다. 일상적인 한 줄씩 완성의 경우 차이는 무시할 수 있습니다.

자체 파인튜닝한 모델을 사용할 수 있습니까? #

예. Tabby는 OpenAI 호환 API를 가진 Hugging Face Transformers 형식의 모든 모델을 지원합니다. 로컬 모델 경로를 가리키거나 자체 모델 서버를 호스팅할 수 있습니다. 정확한 형식 요구사항은 MODEL_SPEC.md를 참조하세요.

Tabby는 대규모 엔터프라이즈 팀에 적합합니까? #

적절한 하드웨어(다중 GPU 서버)와 --parallelism 플래그를 사용하면 Tabby는 50명 이상의 사용자로 확장됩니다. 관리 대시보드는 사용자 관리, API 토큰 교체, 사용량 분석을 지원합니다. SSO/LDAP 통합의 경우 엔터프라이즈 라이선스가 필요합니다.

Tabby를 새 버전으로 업데이트하려면? #

# 최신 이미지 가져오기
docker pull registry.tabbyml.com/tabbyml/tabby

# 컨테이너 재시작
docker compose down
docker compose up -d

# 새 버전 확인
curl http://localhost:8080/v1/health

결론 #

Tabby는 AI 코딩 어시스턴트 시장에서 핵심적인 격차를 메웁니다: 완전히 오픈소스이고 자체 호스팅되어 코드를 사용자의 경계 낶부에 유지하는 도구입니다. 33,530개 이상의 Stars, 활발한 Rust 개발, 그리고 최신 코딩 모델(Qwen2.5-Coder, DeepSeek, StarCoder2) 지원을 바탕으로, 프라이버시를 중시하는 팀의 프로덕션 사용에 준비가 되었습니다.

시작하기 위한 조치 항목:

  1. 4절의 Docker 명령을 실행하여 로컬 머신에서 Tabby를 시작합니다.
  2. 편집기용 IDE 확장을 설치하고 http://localhost:8080에 연결합니다.
  3. 관리 대시보드에서 테스트 저장소를 인덱싱하여 RAG 기반 자동완성을 경험합니다.
  4. Telegram 커뮤니티에 가입하여 배포 팁과 모델 추천을 받습니다.

이 기사에는 호스팅 제공업체의 제휴 링크가 포함되어 있습니다. 이러한 추천은 자체 호스팅 AI 워크로드의 기술적 적합성을 기반으로 한 것이며 상업적 파트너십은 아닙니다.

추천 호스팅 및 인프라 #

위 도구들을 프로덕션에 배포하려면 안정적인 인프라가 필요합니다. dibi8가 직접 사용 중인 두 가지 옵션:

  • DigitalOcean — 60일 $200 무료 크레딧, 14개 이상 글로벌 리전. 오픈소스 AI 도구의 기본 선택.
  • HTStack — 홍콩 VPS, 중국 본토 저지연 접속. dibi8.com 호스팅 중인 검증된 IDC.

제휴 링크 — 추가 비용 없이 dibi8 운영을 지원합니다.

출처 및 추가 자료 #

💬 댓글 토론