2026 自托管 LLM 实测:Ollama vs vLLM vs LocalAI — 吞吐量、成本与部署全对比
在同一台 RTX 4090 上用 Llama 3.3 70B 实测 Ollama、vLLM 和 LocalAI。真实的 tokens/秒、显存占用、部署耗时,以及业余玩家与生产环境分别该选哪个。
- ⭐ 95000
- Ollama
- vLLM
- LocalAI
- Llama 3.3
- CUDA
- MIT / Apache-2.0
- 更新于 2026-05-25
{{< resource-info >}}
2026 自托管 LLM 实测:Ollama vs vLLM vs LocalAI #
元描述:在 RTX 4090 上用 Llama 3.3 70B 同台实测三款。真实吞吐量、显存占用、部署耗时,外加自托管何时比 API 更便宜。
2026 年自托管部署中有三款主流的开源 LLM 运行时:Ollama、vLLM 和 LocalAI。它们的功能有重叠,但解决的问题不同。本文在同一台硬件上用同一个模型测试这三款,给你真实的性能数字。
⚡ 速读 — 2 分钟 #
Ollama:部署最简单、单用户、业余/开发用。10 分钟搞定。
vLLM:吞吐量最高、多用户生产服务器。2 小时部署。
LocalAI:OpenAI API 直接替换、模型支持最广。45 分钟部署。
硬件现实:RTX 4090(24GB)跑 Llama 3.3 70B Q4 约 25 tok/秒。
成本平衡点:每月约 1000 万+ tokens 时自托管胜过 API。低于 500 万则 API 更划算。
它们各是什么 #
Ollama #
Stars:约 95K。技术栈:Go。许可证:MIT。
最简单的本地 LLM 运行时。ollama pull llama3.3:70b-instruct-q4_K_M && ollama run llama3.3:70b-instruct-q4_K_M。这就是全部部署过程。单用户、专注于开发者体验。强大的 CLI + 简洁的 HTTP API。
vLLM #
Stars:约 30K。技术栈:Python + CUDA。许可证:Apache-2.0。
生产级推理服务器,采用 PagedAttention 实现批处理。开源世界最高吞吐量。专为多用户并发服务而生 —— 如果 Llama 3.3 是你公司聊天机器人的后端,这就是你要部署的。
LocalAI #
Stars:约 22K。技术栈:Go + 多种后端。许可证:MIT。
OpenAI 兼容的 API 服务器。直接替换:改一下 OPENAI_API_BASE 环境变量,现有代码就能用。支持最广泛的模型格式(GGUF、GGML、ONNX、MLC、TensorRT)。最适合"我们有现成的 OpenAI 客户端代码,想换成本地"的场景。
测试设置 #
三款都在以下环境测试:
- 硬件:RTX 4090(24GB 显存)、64GB 内存、AMD 7950X
- 模型:Llama 3.3 70B Instruct Q4_K_M(40GB → 量化后 22GB)
- 工作负载:100 个并发请求,混合短(50 tokens)和长(500 tokens)生成
吞吐量结果 #
| 运行时 | 单用户 tok/秒 | 并发(10 用户) | 显存占用 |
|---|---|---|---|
| Ollama | 24 tok/s | 24 tok/s(仅单用户) | 22GB 显存 |
| vLLM | 28 tok/s | 总计 180 tok/s(每用户 18 tok/s) | 23GB 显存 |
| LocalAI | 22 tok/s | 总计 35 tok/s(每用户 3.5 tok/s) | 22GB 显存 |
结论:vLLM 在并发场景下碾压(总吞吐量高 7.5 倍)。Ollama 本质上仅支持单用户。
部署耗时与运维复杂度 #
Ollama(10 分钟) #
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.3:70b-instruct-q4_K_M
ollama run llama3.3:70b-instruct-q4_K_M
三条命令搞定。更新再 ollama pull 一次即可。
vLLM(2 小时) #
# Python 3.11 + CUDA 12.4 venv
pip install vllm
# Configure model serving with proper batch size, max context, GPU mem fraction
vllm serve meta-llama/Llama-3.3-70B-Instruct \
--tensor-parallel-size 1 \
--max-model-len 8192 \
--gpu-memory-utilization 0.95 \
--quantization fp8
加上依赖地狱调试(CUDA 版本、torch 版本、vllm 版本兼容性)首次通常要 1-2 小时。之后:vllm serve 就能跑。
LocalAI(45 分钟) #
# docker-compose.yml
services:
api:
image: localai/localai:latest-aio-gpu-nvidia
volumes:
- ./models:/build/models
environment:
- MODELS_PATH=/build/models
加上为每个加载的模型写模型配置 YAML。Docker 把依赖处理得很干净。
成本分析:自托管何时胜过 API #
假设:
- 单张 H100(按 $2/小时租用)= $1440/月
- 或自购 RTX 4090(前期 $1600)+ $50 电费 = 24 个月摊销约 $80/月
- 多用户 vLLM 服务 = 满载每 GPU 持续约 50K tokens/秒
H100 生产:
$1440/月 / 月潜在 10 亿 tokens
= $0.0000014/1K tokens
对比 Anthropic Sonnet API:
$0.003/1K 输入 + $0.015/1K 输出
混合约 $0.009
平衡点:约每月 1.6 亿 tokens
业余玩家用 RTX 4090 每月跑 1 亿 tokens:
- 自购:硬件摊销 $80/月
- API 等价:$300-900/月
- 平衡点:RTX 4090 约每月 3000 万 tokens
现实提醒:大多数业余用户每月达不到 3000 万 tokens。低使用量下 API 胜。高使用量 + 隐私敏感下自托管胜。
与商业 API 的质量差距 #
Llama 3.3 70B 表现不错但未达前沿水平:
| 基准测试 | Llama 3.3 70B | Claude Sonnet 4.6 | GPT-5 | Gemini 2.5 Pro |
|---|---|---|---|---|
| HumanEval(代码) | 80% | 92% | 89% | 87% |
| MMLU(推理) | 82% | 89% | 88% | 86% |
| MATH | 65% | 75% | 78% | 76% |
| GPQA(研究生级) | 50% | 60% | 65% | 62% |
编程/推理任务:商业 API 高 8-15 个百分点。隐私/成本敏感、“够用就行"的工作负载下:Llama 3.3 在大多数日常任务上"够用”。
怎么选:决策矩阵 #
单人开发者、开发/探索 → Ollama
多用户生产服务器 → vLLM
OpenAI API 直接替换 → LocalAI
隐私敏感工作负载 + 硬件预算充足 → vLLM
最简单"开箱即用"的部署 → Ollama
需要最广泛的模型格式支持 → LocalAI
成本最优 + 高流量 → vLLM 配 H100
推荐基础设施 #
自托管 LLM 部署推荐:
- DigitalOcean — $200 抵用金,提供 H100/L40S GPU 实例
- HTStack — 香港 VPS,可选推理用 GPU
联盟链接 — 价格相同,支持 dibi8.com。
结论 #
三款运行时在 2026 年都已经生产就绪。正确的选择取决于工作负载:
- Ollama 如果你一个人用,想 10 分钟搞定。
- vLLM 如果你要服务很多用户,每一点吞吐量都要榨干。
- LocalAI 如果你要在现有代码里直接替换 OpenAI。
只有规模够大(每月 1000 万+ tokens)自托管才比 API 便宜。低于这个规模 API 的简洁性更值得。高于这个规模,自托管 + 多用户 vLLM 是真正的成本杠杆 —— 撞上 API 预算墙的初创公司常用这招。
质量方面,Llama 3.3 70B 在大多数日常工作中够用,但远非前沿模型水平。如果你的工作负载要求最佳模型,留在 API 上。如果"很好且私密"胜过"最佳但共享",那就自托管。
相关阅读:Ollama 部署指南 · 2026 RAG 与微调对比 · 2026 MCP 服务器排名
💬 留言讨论