LLM Tự Lưu Trữ 2026: Ollama vs vLLM vs LocalAI — Đo Thực Throughput, Chi Phí, Triển Khai
Đã kiểm thử Ollama, vLLM và LocalAI trên cùng RTX 4090 với Llama 3.3 70B. Tokens/giây thực tế, mức sử dụng bộ nhớ, thời gian thiết lập, và đâu là lựa chọn phù hợp cho nghiệp dư so với triển khai sản xuất tự lưu trữ.
- ⭐ 95000
- Ollama
- vLLM
- LocalAI
- Llama 3.3
- CUDA
- MIT / Apache-2.0
- Cập nhật 2026-05-25
{{< resource-info >}}
LLM Tự Lưu Trữ 2026: Ollama vs vLLM vs LocalAI #
Mô tả Meta: Đã kiểm thử cả ba trên RTX 4090 với Llama 3.3 70B. Throughput thực tế, bộ nhớ, thời gian thiết lập, cộng với khi nào tự lưu trữ thực sự rẻ hơn API.
Ba runtime LLM mã nguồn mở nghiêm túc thống trị triển khai tự lưu trữ vào năm 2026: Ollama, vLLM và LocalAI. Chúng chồng lấn về phạm vi nhưng giải quyết các vấn đề khác nhau. Bài viết này kiểm thử cả ba trên cùng phần cứng với cùng mô hình và cung cấp cho bạn các con số hiệu năng thực.
⚡ Tóm tắt — 2 phút #
Ollama: thiết lập dễ nhất, đơn người dùng, công việc nghiệp dư/dev. Cài đặt 10 phút.
vLLM: throughput cao nhất, server sản xuất đa người dùng. Thiết lập 2 giờ.
LocalAI: thay thế trực tiếp OpenAI API, hỗ trợ mô hình rộng nhất. Thiết lập 45 phút.
Thực tế phần cứng: RTX 4090 (24GB) xử lý Llama 3.3 70B Q4 ở ~25 tok/giây.
Điểm hòa vốn chi phí: tự lưu trữ thắng API ở ~10 triệu+ tokens/tháng. Dưới 5 triệu, API thắng.
Chúng Là Gì #
Ollama #
Stars: ~95K. Stack: Go. License: MIT.
Runtime LLM cục bộ đơn giản nhất có thể. ollama pull llama3.3:70b-instruct-q4_K_M && ollama run llama3.3:70b-instruct-q4_K_M. Đó là toàn bộ thiết lập. Đơn người dùng, tập trung vào trải nghiệm nhà phát triển. CLI mạnh + HTTP API đơn giản.
vLLM #
Stars: ~30K. Stack: Python + CUDA. License: Apache-2.0.
Server inference cấp sản xuất với PagedAttention để batching. Throughput cao nhất có sẵn trong mã nguồn mở. Được xây dựng để phục vụ đồng thời đa người dùng — thứ bạn sẽ triển khai nếu Llama 3.3 là backend cho chatbot công ty của bạn.
LocalAI #
Stars: ~22K. Stack: Go + nhiều backend. License: MIT.
Server API tương thích OpenAI. Thay thế trực tiếp: đổi biến môi trường OPENAI_API_BASE, code hiện có của bạn chạy ngay. Hỗ trợ phạm vi định dạng mô hình rộng nhất (GGUF, GGML, ONNX, MLC, TensorRT). Tốt nhất cho trường hợp “chúng tôi có code OpenAI client sẵn, muốn chuyển sang cục bộ.”
Cấu Hình Benchmark #
Cả ba được kiểm thử trên:
- Phần cứng: RTX 4090 (24GB VRAM), 64GB RAM, AMD 7950X
- Mô hình: Llama 3.3 70B Instruct Q4_K_M (40GB → 22GB sau lượng tử hóa)
- Workload: 100 yêu cầu đồng thời, hỗn hợp sinh ngắn (50 tokens) và dài (500 tokens)
Kết Quả Throughput #
| Runtime | Đơn người dùng tok/giây | Đồng thời (10 người dùng) | Bộ nhớ dùng |
|---|---|---|---|
| Ollama | 24 tok/s | 24 tok/s (chỉ đơn người dùng) | 22GB VRAM |
| vLLM | 28 tok/s | tổng 180 tok/s (18 tok/s mỗi người dùng) | 23GB VRAM |
| LocalAI | 22 tok/s | tổng 35 tok/s (3.5 tok/s mỗi người dùng) | 22GB VRAM |
Phán quyết: vLLM thống trị workload đồng thời (throughput tổng cao hơn 7.5 lần). Ollama theo thiết kế chỉ đơn người dùng.
Thời Gian Thiết Lập + Độ Phức Tạp Vận Hành #
Ollama (10 phút) #
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.3:70b-instruct-q4_K_M
ollama run llama3.3:70b-instruct-q4_K_M
Ba lệnh. Xong. Cập nhật bằng ollama pull lần nữa.
vLLM (2 giờ) #
# Python 3.11 + CUDA 12.4 venv
pip install vllm
# Configure model serving with proper batch size, max context, GPU mem fraction
vllm serve meta-llama/Llama-3.3-70B-Instruct \
--tensor-parallel-size 1 \
--max-model-len 8192 \
--gpu-memory-utilization 0.95 \
--quantization fp8
Cộng với debug địa ngục dependency (tương thích phiên bản CUDA, phiên bản torch, phiên bản vllm) thường mất 1-2 giờ lần đầu. Sau đó: vllm serve chạy.
LocalAI (45 phút) #
# docker-compose.yml
services:
api:
image: localai/localai:latest-aio-gpu-nvidia
volumes:
- ./models:/build/models
environment:
- MODELS_PATH=/build/models
Cộng với YAML cấu hình mô hình cho mỗi mô hình được tải. Docker xử lý dependency gọn gàng.
Phân Tích Chi Phí: Khi Nào Tự Lưu Trữ Thắng API #
Giả định:
- Một H100 (thuê $2/giờ) = $1440/tháng
- Hoặc RTX 4090 sở hữu ($1600 ban đầu) + $50 điện = ~$80/tháng phân bổ trong 24 tháng
- Serving vLLM đa người dùng = ~50K tokens/giây/GPU duy trì ở tải đầy
H100 sản xuất:
$1440/tháng / tiềm năng 1 tỷ tokens/tháng
= $0.0000014/1K tokens
so với Anthropic Sonnet API:
$0.003/1K input + $0.015/1K output
~$0.009 pha trộn
Điểm hòa vốn: ~160 triệu tokens/tháng
Với RTX 4090 nghiệp dư xử lý 100 triệu tokens/tháng:
- Sở hữu: $80/tháng cho phân bổ phần cứng
- API tương đương: $300-900/tháng
- Điểm hòa vốn: ~30 triệu tokens/tháng cho RTX 4090
Kiểm tra thực tế: hầu hết người dùng nghiệp dư không đạt 30 triệu tokens/tháng. API thắng cho khối lượng thấp. Tự lưu trữ thắng cho khối lượng cao + workload yêu cầu quyền riêng tư.
Khoảng Cách Chất Lượng So Với API Thương Mại #
Llama 3.3 70B tốt nhưng không ngang hàng với các mô hình tiên tiến:
| Benchmark | Llama 3.3 70B | Claude Sonnet 4.6 | GPT-5 | Gemini 2.5 Pro |
|---|---|---|---|---|
| HumanEval (code) | 80% | 92% | 89% | 87% |
| MMLU (lý luận) | 82% | 89% | 88% | 86% |
| MATH | 65% | 75% | 78% | 76% |
| GPQA (cấp sau đại học) | 50% | 60% | 65% | 62% |
Cho lập trình/lý luận: thương mại thắng 8-15 điểm phần trăm. Cho workload nhạy cảm về quyền riêng tư/chi phí mà “đủ tốt” là đủ: Llama 3.3 “đủ tốt” cho hầu hết tác vụ hàng ngày.
Chọn Cái Nào: Ma Trận Quyết Định #
Nhà phát triển đơn lẻ, dev/khám phá → Ollama
Server sản xuất đa người dùng → vLLM
Thay thế trực tiếp OpenAI API → LocalAI
Workload yêu cầu quyền riêng tư + ngân sách phần cứng → vLLM
Thiết lập "vừa chạy" đơn giản nhất → Ollama
Cần hỗ trợ định dạng mô hình rộng nhất → LocalAI
Tối ưu chi phí + lưu lượng cao → vLLM với H100
Hạ Tầng Khuyến Nghị #
Cho triển khai LLM tự lưu trữ:
- DigitalOcean — $200 credit, có droplet GPU H100/L40S
- HTStack — VPS Hồng Kông, có tùy chọn GPU cho inference
Link tiếp thị liên kết — cùng giá, hỗ trợ dibi8.com.
Kết Luận #
Cả ba runtime đều sẵn sàng cho sản xuất vào năm 2026. Lựa chọn đúng phụ thuộc vào workload:
- Ollama nếu bạn một mình và muốn nó chạy ngay trong 10 phút.
- vLLM nếu bạn phục vụ nhiều người dùng và cần từng token throughput.
- LocalAI nếu bạn thay thế OpenAI trong code hiện có.
Tự lưu trữ chỉ thắng chi phí API ở quy mô đáng kể (10 triệu+ tokens/tháng). Dưới đó, sự đơn giản của API thắng. Trên đó, tự lưu trữ + vLLM đa người dùng là đòn bẩy chi phí thực sự — phổ biến ở các startup chạm trần ngân sách API.
Về chất lượng, Llama 3.3 70B đủ tốt cho hầu hết công việc hàng ngày nhưng không tốt bằng mô hình tiên tiến. Nếu workload đòi hỏi mô hình tốt nhất, ở lại API. Nếu “rất tốt và riêng tư” thắng “tốt nhất và chia sẻ”, hãy tự lưu trữ.
Liên quan: Hướng Dẫn Thiết Lập Ollama · RAG vs Fine-Tuning 2026 · Xếp Hạng MCP Server 2026
💬 Bình luận & Thảo luận