Chi phí vận hành AI production trên cheap LLM stack là bao nhiêu?

Tổng chi phí hàng tháng dao động từ $0-3 với mức sử dụng nhẹ (100 lần gọi/ngày), $2-8 với mức trung bình (500 lần gọi/ngày), đến $5-15 với mức nặng (2000 lần gọi/ngày). Với cùng khối lượng đó, nếu dùng thuần API sẽ tốn lần lượt khoảng $40, $200 và $800 — tức là giảm chi phí từ 20-50 lần.

Gói miễn phí của Gemini CLI cho phép bao nhiêu request mỗi ngày?

Gói miễn phí của Gemini CLI cung cấp 1,000 request miễn phí mỗi ngày cho các tác vụ thông thường như hỏi đáp, tóm tắt và lập trình đơn giản, tương đương khoảng 30,000 lần gọi miễn phí mỗi tháng. Lưu ý rằng Google ghi lại các prompt ở gói miễn phí để cải thiện mô hình, vì vậy không nên gửi mã nguồn độc quyền hoặc PII (thông tin nhận dạng cá nhân).

DeepSeek API rẻ hơn Claude Sonnet bao nhiêu?

DeepSeek-V4 có giá $0.27 trên mỗi triệu token đầu vào, trong khi Claude Sonnet là $3 — tức chỉ bằng khoảng 1/10 giá, trong khi khoảng cách benchmark code so với Claude Sonnet trung bình chỉ khoảng 5%. Trong giờ thấp điểm (UTC 16:30-00:30) còn được giảm thêm 50%.

Cần phần cứng như thế nào để chạy Ollama trên máy cục bộ?

RAM 8 GB có thể chạy Llama 3.2 3B ở tốc độ 20+ token/giây, phù hợp cho gợi ý mã và viết bản nháp; RAM 16 GB có thể chạy Qwen 3 Coder 14B ở 15 token/giây, đủ dùng cho lập trình production; RAM 32 GB có thể chạy Llama 3.3 70B Q4 ở 8 token/giây, đạt chất lượng ngang Claude Sonnet. Chạy local hoàn toàn miễn phí, không giới hạn request, chỉ tốn tiền điện.

Khi nào nên nâng cấp khỏi cheap LLM stack?

Hãy nâng cấp khi bạn cần độ trễ dưới 500ms (thêm Claude hoặc GPT-5 cho hot path), khi tuân thủ yêu cầu chỉ dùng nhà cung cấp dữ liệu tại Mỹ (loại bỏ DeepSeek và Gemini), khi khối lượng xử lý hàng loạt cần SLA (thêm managed LiteLLM gateway), hoặc khi muốn có khả năng quan sát toàn diện (thêm Portkey). Stack này là điểm khởi đầu để mở rộng chi tiêu có chủ đích, không phải giới hạn trên cùng.

Stack LLM Giá Rẻ 2026: Chạy AI Production $0-15/Tháng Bằng Free Tier + Nén Token

Hầu hết lời khuyên “tối ưu chi phí LLM” chỉ là “dùng model rẻ hơn.” Bộ sưu tập này tham vọng hơn: stack 5 thành phần xử lý workload production thực tế (coding agent, sinh content, search, agent cơ bản) tổng $0-15/tháng. Không phải setup chơi. Không phải “ổn cho 100 request/ngày.” Suy luận daily-driver thực sự ở giá giết SaaS.

Bí quyết không phải công cụ đơn lẻ — mà là orchestration. Free tier cap request, không cap output. Model local cap chất lượng, không cap request. Nén token cắt chi tiêu có phí. Routing thông minh gửi mỗi task tới provider rẻ nhất đủ năng lực. Kết hợp, toán học trở nên buồn cười.

TL;DR — Stack Một Cái Nhìn #

#	Thành phần	Chi phí	Vai trò	Hướng dẫn sâu
1	Ollama (local)	$0	Workload nặng/nhạy cảm trên phần cứng bạn	Hướng dẫn Ollama
2	DeepSeek API	$2-8/tháng	Suy luận rẻ cho task khó ($0.27/M input vs Claude $3)	DeepSeek vs OpenAI
3	Gemini CLI free tier	$0	1,000 req/ngày cho task LLM chung, miễn phí	Công cụ AI Search
4	Proxy RTK	$0 (self-host)	Nén prompt 20-40% trước khi đi API có phí	Setup RTK
5	9Router	$0 (self-host)	Auto-route mỗi task tới provider rẻ nhất đủ năng lực	Hướng dẫn 9Router

Tổng chi phí tháng (nhẹ: 100 calls/ngày): $0-3 • Trung (500 calls/ngày): $2-8 • Nặng (2000 calls/ngày): $5-15

So với pure API cùng volume: $40 / $200 / $800 tương ứng. Giảm 20-50× chi phí ở quy mô production.

1. Vì Sao “Rẻ” Khả Thi Năm 2026 #

Ba điều thay đổi trong 12 tháng qua:

DeepSeek-V4 đạt chất lượng Claude Sonnet với 1/10 giá ($0.27/M vs $3/M input). Cho 80% task khoảng cách chất lượng không quan trọng
Free tier nghiêm túc: Gemini cho 1,000 request free/ngày, GLM-4.6 ra free tier, OpenRouter rotate model free tài trợ cộng đồng. Ngân sách kết hợp ~3,000 free call/ngày
RTK (Repetition-Token Compression) hoạt động: loại bỏ 20-40% token thuần dư thừa (file header, system prompt lặp 10× mỗi session)

Stack ba cái — fallback local + API rẻ + xoay free tier + nén — biên giới rẻ-chất-lượng dịch chuyển đáng kể.

2. Kiến Trúc — Pattern Smart Router #

   App bạn
       │
       ▼
   9Router (quyết mỗi call đi đâu)
       │
       ├─► Ollama Local         (nhạy cảm / offline / draft)
       │
       ├─► Proxy RTK → DeepSeek (task khó cần chất lượng, nén)
       │
       ├─► Gemini free tier     (1k req/ngày, task dễ)
       │
       └─► OpenRouter free      (model cộng đồng rotation, thử nghiệm)

Mỗi provider có “vùng chuyên môn.” 9Router (hoặc wrapper Python 10 dòng nếu không muốn thêm service) kiểm tra task rồi route.

3. Thành Phần 1 — Ollama (Local, $0) #

Vai trò: Bất cứ gì nhạy cảm, không muốn bị tính phí, chất lượng draft.

Thực tế trên phần cứng tiêu dùng (số liệu 2026):

8 GB RAM (M1 / PC tầm trung): Llama 3.2 3B ở 20+ tok/s — ổn cho autocomplete, phân loại, viết draft
16 GB RAM (M2/M3 / PC khá): Qwen 3 Coder 14B ở 15 tok/s — coding production
32 GB RAM (Mac Studio / workstation): Llama 3.3 70B Q4 ở 8 tok/s — chất lượng Claude Sonnet, cho người kiên nhẫn

Miễn phí, mãi mãi, không rate limit. Chi phí duy nhất là điện chạy máy.

Cài đặt đầy đủ + lựa model: Hướng dẫn Ollama production.

4. Thành Phần 2 — DeepSeek API ($2-8/Tháng) #

Vai trò: Khi local không đủ tốt, đây là provider trả phí mặc định.

Vì sao đánh bại mọi người về giá/chất lượng:

DeepSeek-V4 input $0.27/M token vs Claude Sonnet $3/M vs GPT-5 $2.50/M
Khoảng cách benchmark code với Claude Sonnet: ~5% trung bình
Off-peak giảm thêm 50% (UTC 16:30-00:30)

Trade-off thành thật: Ảo giác nhiều hơn chút trên chủ đề niche. Cold start chậm chút. Đáng cho tiết kiệm 11× ở suy luận bulk.

Bắt đầu nhanh — đăng ký platform.deepseek.com, $10 credit cho solo dev 2-3 tháng.

Setup đầy đủ + khi nào không dùng DeepSeek: So sánh DeepSeek-V4 vs OpenAI API.

5. Thành Phần 3 — Gemini CLI Free Tier ($0) #

Vai trò: 1,000 request/ngày miễn phí cho task chung (Q&A, tóm tắt, coding đơn giản).

Toán: 1,000 call/ngày × 30 ngày = 30,000 call/tháng miễn phí. Hết trước nửa đêm UTC, fallback DeepSeek cho phần còn lại.

Lưu ý: Google log prompt cho “cải thiện model” ở free tier — đừng gửi code độc quyền hoặc PII.

Cài nhanh:

npm install -g @google/gemini-cli
gemini auth login  # mở trình duyệt, dùng tài khoản Google
gemini "giải thích regex này: /^[a-z]+$/i"

Hoặc gọi trực tiếp endpoint Gemini REST — cùng ngân sách 1,000/ngày.

Tổng quan đi kèm về Gemini vs Perplexity vs ChatGPT free tier và mỗi cái mạnh ở đâu: So sánh công cụ AI Search.

6. Thành Phần 4 — Proxy RTK ($0, Self-Host) #

Vai trò: Ngồi giữa app và bất kỳ API trả phí nào. Nén nội dung lặp (system prompt, file header, snippet doc) trước mỗi call. Hóa đơn ít 20-40% mà không đổi code.

Cơ chế: Dedup ngữ nghĩa. Nếu bạn gửi cùng system prompt 2,000 token 50 lần hôm nay, RTK nhận biết từ call #2 và gửi pointer thay vì full text.

Cài nhanh:

docker run -d --name rtk -p 8765:8765 \
  ghcr.io/rtk-ai/rtk:latest

Sau đó đổi API base URL từ https://api.deepseek.com/v1 thành http://localhost:8765/v1/deepseek. Xong.

Đào sâu cách RTK hoạt động + benchmark: Proxy RTK Rust CLI + token saver.

7. Thành Phần 5 — 9Router ($0, Self-Host) #

Vai trò: Orchestrator. Quyết provider nào nhận mỗi call dựa trên loại task, ngân sách còn lại, sẵn có của provider.

Vì sao cần: Không có 9Router bạn phải pick provider thủ công mỗi call. Có 9Router bạn set rule một lần (“task coding → DeepSeek via RTK, Q&A đơn giản → Gemini free, fallback → Ollama”) rồi quên.

Bonus: 9Router gồm layer nén RTK riêng cho premium provider, cộng auto-fallback khi free tier đụng cap hàng ngày.

Cài nhanh:

docker run -d --name 9router -p 9999:9999 \
  -e PROVIDERS=ollama,deepseek,gemini,openrouter \
  ghcr.io/rtk-ai/9router:latest

Cấu hình đầy đủ + công thức combo coding free tier: Hướng dẫn 9Router smart proxy.

8. Bảng Routing — Ai Xử Lý Cái Gì #

Config routing mặc định khả thi cho solo dev:

Loại task	Provider	Vì sao
Inline code completion	Ollama (Qwen 3 Coder 14B local)	Latency quan trọng hơn chất lượng
Code generation (scope hàm)	DeepSeek-V4 via RTK	Chất lượng quan trọng, nén tiết kiệm
Refactor nhiều file	DeepSeek-V4 via RTK hoặc Claude fallback	Task khó, fallback premium nếu DeepSeek bí
Q&A chung / giải thích code	Gemini free tier	Free, nhanh, đủ tốt
Web search + trích dẫn	Gemini free tier (grounding built-in)	Free vs $20/tháng Perplexity Pro
Code review nhạy cảm	Ollama local	Không bao giờ rời máy bạn
Sinh content bulk (1000+ bài)	DeepSeek-V4 off-peak	Rẻ × off-peak giảm 50% = $0.135/M
Agent đơn giản (Slack bot, scheduler)	Gemini free tier	Task dễ, 1k/ngày dư

9. Toán $0-15/Tháng #

Dùng nhẹ (solo dev, trung bình 100 calls/ngày):

Gemini free phủ ~70% calls → $0
DeepSeek cho 30% còn lại (~900 calls/tháng, chủ yếu nhỏ) → $1-3
Ollama cho nhạy cảm (không API cost) → $0
Tổng: $1-3/tháng (so với pure API $40+)

Dùng trung bình (500 calls/ngày, gồm coding):

Gemini free: vẫn còn ~1000 calls/ngày
DeepSeek cho coding nghiêm túc: ~3000 calls/tháng với nén RTK → $3-8
Ollama fallback → $0
Tổng: $3-8/tháng (so với pure API $200+)

Dùng nặng (2000 calls/ngày, workflow agent):

Gemini cạn 10am, fallback kicks in
DeepSeek tải nặng, RTK giảm ~30% → $5-12
Job batch off-peak → giảm thêm 50%
Ollama xử lý phân loại bulk, nhạy cảm → $0
Tổng: $5-15/tháng (so với pure API $800+)

10. Thứ Tự Setup Day 1 (60 phút) #

Ollama (15 phút) — Cài, pull Llama 3.2 3B + Qwen 3 Coder 14B
Tài khoản DeepSeek (5 phút) — Đăng ký, nhận API key, nạp $10
Gemini CLI (5 phút) — npm i -g @google/gemini-cli, auth Google
Proxy RTK (10 phút) — Docker run, trỏ DeepSeek
9Router (10 phút) — Docker run, cấu hình 4 provider
Test routing (15 phút) — Gửi 5 loại task khác nhau, xác minh mỗi cái đi đúng provider

Sau 60 phút bạn có router LLM rẻ cấp production thực sự trên máy mình.

11. Khi Nào Upgrade (và lên gì) #

Stack $0-15 hoạt động đến khi đụng bất kỳ điều nào:

Yêu cầu latency < 500ms — Thêm Claude/GPT-5 cho hot path (vẫn giữ DeepSeek cho batch)
Tuân thủ yêu cầu provider chỉ dữ liệu Mỹ — Bỏ DeepSeek + Gemini, dùng OpenRouter với provider filtering hoặc self-host thêm
Workload bulk yêu cầu SLA — Thêm gateway LiteLLM managed với nhiều provider trả phí + logic retry (LiteLLM gateway 2026 xem)
Muốn observability đầy đủ — Thêm Portkey ($49 phí platform ở $1k chi tiêu, Portkey vs LiteLLM 2026 xem)

Điểm chính: stack này không phải trần. Là sàn — cho phép scale chi tiêu có chủ đích thay vì bị ép vào bundle SaaS $200/tháng từ ngày đầu.

TL;DR — Recipe #

5 công cụ, $0-15/tháng, setup 60 phút:

Ollama — local & nhạy cảm
DeepSeek-V4 — API rẻ cho task khó
Gemini CLI free tier — 1k req/ngày free LLM chung
Proxy RTK — tiết kiệm 20-40% token trên API có phí
9Router — orchestrator routing thông minh

Stack tự hoàn vốn nếu bạn hiện tiêu $30+/tháng cho AI SaaS bất kỳ. Chạy trên laptop được (LLM rẻ không cần VPS cụ thể — nhưng droplet DigitalOcean $6/tháng giúp nếu muốn always-on cho team).

Pair this collection with Self-Hosted AI Coding Workflow if you want the full coding stack — they share Ollama + 9Router + RTK as a foundation.

TL;DR — Stack Một Cái Nhìn #

1. Vì Sao “Rẻ” Khả Thi Năm 2026 #

2. Kiến Trúc — Pattern Smart Router #

3. Thành Phần 1 — Ollama (Local, $0) #

4. Thành Phần 2 — DeepSeek API ($2-8/Tháng) #

5. Thành Phần 3 — Gemini CLI Free Tier ($0) #

6. Thành Phần 4 — Proxy RTK ($0, Self-Host) #

7. Thành Phần 5 — 9Router ($0, Self-Host) #

8. Bảng Routing — Ai Xử Lý Cái Gì #

9. Toán $0-15/Tháng #

10. Thứ Tự Setup Day 1 (60 phút) #

11. Khi Nào Upgrade (và lên gì) #

TL;DR — Recipe #

🔗 Tài nguyên liên quan

💬 Bình luận & Thảo luận