2026 셀프 호스팅 LLM 실측: Ollama vs vLLM vs LocalAI — 처리량·비용·구축 비교

동일한 RTX 4090에서 Llama 3.3 70B로 Ollama, vLLM, LocalAI를 테스트했습니다. 실제 토큰/초, 메모리 사용량, 구축 시간, 그리고 취미용과 프로덕션 셀프 호스팅에서 무엇이 적합한지.

  • ⭐ 95000
  • Ollama
  • vLLM
  • LocalAI
  • Llama 3.3
  • CUDA
  • MIT / Apache-2.0
  • 업데이트 2026-05-25

{{< resource-info >}}

2026 셀프 호스팅 LLM 실측: Ollama vs vLLM vs LocalAI #

메타 설명: RTX 4090에서 Llama 3.3 70B로 세 가지를 모두 테스트했습니다. 실제 처리량, 메모리, 구축 시간, 그리고 셀프 호스팅이 API보다 실제로 저렴한 시점.

2026년 셀프 호스팅 배포에는 세 가지 주요 오픈 소스 LLM 런타임이 있습니다: Ollama, vLLM, LocalAI. 범위는 겹치지만 해결하는 문제가 다릅니다. 이 글은 동일한 하드웨어에서 동일한 모델로 세 가지를 모두 테스트해 실제 성능 수치를 제공합니다.

⚡ TL;DR — 2분 요약 #

Ollama: 가장 쉬운 구축, 단일 사용자, 취미/개발용. 10분 설치.

vLLM: 최고 처리량, 멀티 사용자 프로덕션 서버. 2시간 구축.

LocalAI: OpenAI API 직접 교체, 가장 광범위한 모델 지원. 45분 구축.

하드웨어 현실: RTX 4090(24GB)이 Llama 3.3 70B Q4를 약 25 tok/초로 처리.

비용 손익분기점: 월 1천만+ 토큰부터 셀프 호스팅이 API보다 유리. 500만 미만이면 API 승.


각각이 무엇인가 #

Ollama #

Stars: 약 95K. 스택: Go. 라이선스: MIT.

가장 단순한 로컬 LLM 런타임. ollama pull llama3.3:70b-instruct-q4_K_M && ollama run llama3.3:70b-instruct-q4_K_M. 이것이 전체 구축 과정입니다. 단일 사용자, 개발자 경험에 집중. 강력한 CLI + 간단한 HTTP API.

vLLM #

Stars: 약 30K. 스택: Python + CUDA. 라이선스: Apache-2.0.

PagedAttention 기반 배칭을 갖춘 프로덕션급 추론 서버. 오픈 소스 중 최고 처리량. 멀티 사용자 동시 서빙을 위해 설계됨 — Llama 3.3이 당신 회사 챗봇의 백엔드라면 배포할 만한 것.

LocalAI #

Stars: 약 22K. 스택: Go + 다양한 백엔드. 라이선스: MIT.

OpenAI 호환 API 서버. 직접 교체: OPENAI_API_BASE 환경 변수만 바꾸면 기존 코드가 작동. 가장 광범위한 모델 형식(GGUF, GGML, ONNX, MLC, TensorRT)을 지원. “기존 OpenAI 클라이언트 코드가 있고, 로컬로 바꾸고 싶다"는 경우에 최적.

벤치마크 설정 #

세 가지 모두 다음 환경에서 테스트:

  • 하드웨어: RTX 4090(24GB VRAM), 64GB RAM, AMD 7950X
  • 모델: Llama 3.3 70B Instruct Q4_K_M(40GB → 양자화 후 22GB)
  • 워크로드: 동시 요청 100개, 짧은(50 토큰) 및 긴(500 토큰) 생성 혼합

처리량 결과 #

런타임단일 사용자 tok/초동시(10명)메모리 사용
Ollama24 tok/s24 tok/s(단일 사용자만)22GB VRAM
vLLM28 tok/s합계 180 tok/s(사용자당 18 tok/s)23GB VRAM
LocalAI22 tok/s합계 35 tok/s(사용자당 3.5 tok/s)22GB VRAM

결론: vLLM이 동시 워크로드를 압도(7.5배 높은 총 처리량). Ollama는 설계상 단일 사용자 전용.

구축 시간 + 운영 복잡도 #

Ollama (10분) #

curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.3:70b-instruct-q4_K_M
ollama run llama3.3:70b-instruct-q4_K_M

명령 세 개로 끝. 업데이트는 ollama pull 한 번 더.

vLLM (2시간) #

# Python 3.11 + CUDA 12.4 venv
pip install vllm
# Configure model serving with proper batch size, max context, GPU mem fraction
vllm serve meta-llama/Llama-3.3-70B-Instruct \
  --tensor-parallel-size 1 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.95 \
  --quantization fp8

플러스 종속성 지옥 디버깅(CUDA 버전, torch 버전, vllm 버전 호환성)으로 처음에는 보통 1-2시간 소요. 그 후엔: vllm serve가 작동합니다.

LocalAI (45분) #

# docker-compose.yml
services:
  api:
    image: localai/localai:latest-aio-gpu-nvidia
    volumes:
      - ./models:/build/models
    environment:
      - MODELS_PATH=/build/models

플러스 로드되는 각 모델에 대한 모델 설정 YAML. Docker가 종속성을 깔끔하게 처리.

비용 분석: 셀프 호스팅이 API를 이기는 시점 #

가정:

  • 단일 H100(시간당 $2 임대) = 월 $1440
  • 또는 자체 보유 RTX 4090(초기 $1600) + 전기료 $50 = 24개월 분할 상각 시 월 약 $80
  • 멀티 사용자 vLLM 서빙 = 풀로드 시 GPU당 지속적으로 약 50K 토큰/초
H100 프로덕션:
  월 $1440 / 월 잠재 10억 토큰
  = $0.0000014/1K 토큰
  
vs Anthropic Sonnet API:
  $0.003/1K 입력 + $0.015/1K 출력
  혼합 약 $0.009
  
손익분기점: 월 약 1.6억 토큰

월 1억 토큰을 처리하는 취미용 RTX 4090의 경우:

  • 자체 보유: 하드웨어 분할 상각으로 월 $80
  • API 등가: 월 $300-900
  • 손익분기점: RTX 4090의 경우 월 약 3천만 토큰

현실 점검: 대부분의 취미 사용자는 월 3천만 토큰에 도달하지 않습니다. 저용량에서는 API가 이깁니다. 고용량 + 프라이버시 필수 워크로드에서는 셀프 호스팅이 이깁니다.

상용 API와의 품질 격차 #

Llama 3.3 70B는 좋지만 프론티어 모델과 동등 수준은 아닙니다:

벤치마크Llama 3.3 70BClaude Sonnet 4.6GPT-5Gemini 2.5 Pro
HumanEval(코드)80%92%89%87%
MMLU(추론)82%89%88%86%
MATH65%75%78%76%
GPQA(대학원 수준)50%60%65%62%

코딩/추론에서는 상용이 8-15 퍼센트 포인트 앞섭니다. “충분히 좋음"이면 되는 프라이버시/비용 민감 워크로드의 경우: Llama 3.3은 대부분의 일상 작업에 “충분히 좋음”.

무엇을 선택할까: 결정 매트릭스 #

단독 개발자, 개발/탐색 → Ollama
멀티 사용자 프로덕션 서버 → vLLM
OpenAI API 직접 교체 → LocalAI
프라이버시 필수 워크로드 + 하드웨어 예산 → vLLM
가장 단순한 "그냥 작동" 구축 → Ollama
가장 광범위한 모델 형식 지원 필요 → LocalAI
비용 최적 + 고트래픽 → H100과 vLLM

추천 인프라 #

셀프 호스팅 LLM 배포용:

  • DigitalOcean — $200 크레딧, H100/L40S GPU 드롭릿 제공
  • HTStack — 홍콩 VPS, 추론용 GPU 옵션

제휴 링크 — 가격 동일, dibi8.com을 후원합니다.

결론 #

세 런타임 모두 2026년에 프로덕션 준비가 되어 있습니다. 올바른 선택은 워크로드에 따라 다릅니다:

  • Ollama: 혼자고 10분 안에 그냥 작동하길 원하는 경우.
  • vLLM: 많은 사용자에게 서비스하며 모든 처리량 토큰이 필요한 경우.
  • LocalAI: 기존 코드에서 OpenAI를 교체하는 경우.

셀프 호스팅은 의미 있는 규모(월 1천만+ 토큰)에서만 API 비용을 이깁니다. 그 미만에서는 API의 단순함이 이깁니다. 그 이상에서는 셀프 호스팅 + 멀티 사용자 vLLM이 실제 비용 지렛대 — API 예산 벽에 부딪힌 스타트업에서 흔합니다.

품질 측면에서 Llama 3.3 70B는 대부분의 일상 업무에 충분히 좋지만 프론티어 모델 수준은 아닙니다. 워크로드가 최고 모델을 요구한다면 API에 머무세요. “매우 좋고 사적"이 “최고지만 공유"를 이긴다면 셀프 호스팅하세요.


관련 글: Ollama 설치 가이드 · 2026 RAG vs 파인 튜닝 · 2026 MCP 서버 순위

💬 댓글 토론