Caveman: Giảm 65% Token Claude Code — Tiết Kiệm Chi Phí AI, Tăng Tốc Phản Hồi
Ngày đăng: 2026-05-10 | Tác giả: dibi8.com | Thời gian đọc: 8 phút
Mở đầu: Vấn đề token “ngốn” tiền mà bạn chưa biết
Mỗi ngày, hàng triệu lập trình viên trên thế giới đang đốt tiền vào output tokens dư thừa. Claude Code trả lời dài dòng, giải thích quá mức, thêm “fluff” (lời vòng vo) vào mỗi câu trả lời — và bạn trả tiền cho tất cả.
Một nghiên cứu tháng 3/2026 từ arXiv (arXiv:2604.00025) chỉ ra rằng: hạn chế độ dài phản hồi không chỉ giảm token, mà còn tăng độ chính xác lên 26 điểm phần trăm trên một số benchmark. Nói cách khác — ngắn gọn = đúng hơn.
Caveman ra đời từ chính insight này. Đây là một Claude Code skill mã nguồn mở (GitHub: JuliusBrussee/caveman, 57.003 stars) với slogan đầy hài hước nhưng chính xác:
🪨 “why use many token when few token do trick”
Caveman không làm giảm khả năng suy nghĩ của AI. Nó chỉ làm “miệng” AI nhỏ lại — bỏ filler, giữ nguyên kỹ thuật. Kết quả: giảm trung bình 65% output token, phản hồi nhanh hơn ~3x, dễ đọc hơn, và tiết kiệm tiền API thực sự.
Caveman là gì? — Bản chất của “Nói như người tiền sử”
Caveman là một prompt compression skill cho Claude Code và hơn 30 agent AI khác. Nó hoạt động bằng cách:
- Loại bỏ filler words: “I would like to suggest that…”, “It is important to note that…”, “In my humble opinion…”
- Rút gọn cấu trúc câu: Bỏ articles (a, an, the), dùng fragments, mệnh lệnh trực tiếp
- Giữ nguyên accuracy: Code, URL, path, technical terms được bảo toàn byte-by-byte
- Tối ưu theo cấp độ: Lite → Full → Ultra, tùy mức độ nén bạn cần
Ba cấp độ nén Caveman
| Cấp độ | Lệnh kích hoạt | Mô tả |
|---|---|---|
| Lite | /caveman lite | Bỏ filler, giữ ngữ pháp. Phong cách chuyên nghiệp, không dư thừa |
| Full | /caveman full | Mặc định. Bỏ articles, dùng fragments, ngôn ngữ ngắn gọn tối đa |
| Ultra | /caveman ultra | Nén tối đa. Telegraphic. Viết tắt mọi thứ có thể |
Cấp độ được chọn sẽ giữ nguyên cho đến khi bạn đổi hoặc kết thúc session.
Chế độ Văn ngôn (文言文 Wenyan)
Ngoài 3 cấp độ tiếng Anh, Caveman còn có chế độ Văn ngôn — ngôn ngữ viết cổ điển Trung Hoa, được coi là ngôn ngữ viết tiết kiệm token nhất mà con người từng phát minh:
| Cấp độ | Lệnh | Mô tả |
|---|---|---|
| Wenyan-Lite | /caveman wenyan-lite | Bán cổ điển, giữ ngữ pháp, bỏ filler |
| Wenyan-Full | /caveman wenyan | Văn ngôn đầy đủ, ngắn gọn tối đa |
| Wenyan-Ultra | /caveman wenyan-ultra | Cực đoan. Như học giả cổ đại trên ngân sách hạn hẹp |
Bằng chứng thực tế: Benchmark từ Claude API
Caveman không chỉ là lý thuyết. Dưới đây là số liệu token thực tế từ API Claude (có thể reproduce tại benchmarks/ trong repo):
| Tác vụ | Token thường | Token Caveman | Tiết kiệm |
|---|---|---|---|
| Giải thích React re-render bug | 1.180 | 159 | 87% |
| Sửa auth middleware token expiry | 704 | 121 | 83% |
| Setup PostgreSQL connection pool | 2.347 | 380 | 84% |
| Giải thích git rebase vs merge | 702 | 292 | 58% |
| Refactor callback sang async/await | 387 | 301 | 22% |
| Kiến trúc: microservices vs monolith | 446 | 310 | 30% |
| Review PR tìm lỗi bảo mật | 678 | 398 | 41% |
| Docker multi-stage build | 1.042 | 290 | 72% |
| Debug PostgreSQL race condition | 1.200 | 232 | 81% |
| Implement React error boundary | 3.454 | 456 | 87% |
| Trung bình | 1.214 | 294 | 65% |
Phạm vi tiết kiệm: 22%–87% tùy tác vụ.
⚠️ Lưu ý quan trọng: Caveman chỉ ảnh hưởng output tokens — thinking/reasoning tokens không bị đụng chạm. Caveman không làm não AI nhỏ lại. Caveman chỉ làm miệng AI nhỏ lại.
Các Caveman Skill mở rộng
Ngoài mode nén cơ bản, Caveman cung cấp nhiều skill chuyên biệt:
| Skill | Chức năng |
|---|---|
/caveman-commit | Commit message ngắn gọn. Conventional Commits, ≤50 ký tự subject. Nêu “tại sao” thay vì “cái gì” |
/caveman-review | Comment PR một dòng: L42: 🔴 bug: user null. Add guard. Không dài dòng |
/caveman-help | Thẻ tham khảo nhanh. Tất cả modes, skills, commands |
/caveman-stats | Thống kê token usage thực tế + tiết kiệm ước tính + USD. Tổng hợp lifetime, có thể chia sẻ |
/caveman:compress <file> | Viết lại file memory (ví dụ CLAUDE.md) thành caveman-speak. Giảm ~46% input tokens mỗi session |
cavecrew-investigator/builder/reviewer | Subagents Caveman cho Claude Code. Giảm ~60% token so với agent mặc định |
Statusline badge — mặc định bật. Sau lần chạy /caveman-stats đầu tiên, statusline hiển thị [CAVEMAN] ⛏ 12.4k (tổng token đã tiết kiệm) và cập nhật realtime.
Hướng dẫn cài đặt Caveman
Cài đặt một dòng lệnh
1# macOS / Linux / WSL / Git Bash
2curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash
3
4# Windows (PowerShell)
5irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1 | iex
Tự động phát hiện 30+ agent: Claude Code, Gemini CLI, Codex, Cursor, Windsurf, Cline, Copilot, Continue, Kilo, Roo, Augment, Aider Desk, Amp, Bob, Crush, Devin, Droid, ForgeCode, Goose, iFlow, JetBrains Junie, Kiro CLI, Mistral Vibe, OpenHands, opencode, Qwen Code, Qoder, Rovo Dev, Tabnine, Trae, Warp, Replit Agent, Antigravity…
Mỗi agent được cài đặt theo cách native của nó. Bỏ qua agent bạn không có. An toàn để chạy lại nhiều lần.
Các flag cài đặt
| Flag | Chức năng |
|---|---|
--all | Plugin + hooks + statusline + MCP shrink + rule files per-repo. Đầy đủ nhất |
--minimal | Chỉ plugin/extension. Không hooks, không MCP shrink |
--with-init | Thêm rule files always-on vào repo hiện tại (Cursor / Windsurf / Cline / Copilot / AGENTS.md) |
--list | In danh sách đầy đủ agent được hỗ trợ |
Caveman Shrink — MCP Middleware
Caveman cung cấp proxy MCP caveman-shrink (chạy qua npx caveman-shrink). Đây là middleware nén input tokens trước khi gửi đến model. Mặc định bật khi cài đặt.
So sánh trước và sau khi dùng Caveman
Ví dụ 1: Giải thích lỗi React
Trước Caveman (1.180 tokens):
“I would like to begin by acknowledging that this is a rather complex issue involving React’s reconciliation algorithm. It is important to understand that when state changes occur, React performs a process known as re-rendering, which can be quite expensive in terms of performance if not properly managed. In my professional opinion, I would suggest that you consider implementing React.memo or useMemo to prevent unnecessary re-renders…”
Sau Caveman (159 tokens):
“React re-render when state change. Use
React.memooruseMemostop waste. CheckshouldComponentUpdateif class. Profiler find slow spot.”
Ví dụ 2: Setup PostgreSQL connection pool
Trước Caveman (2.347 tokens):
“It is absolutely critical that you configure your PostgreSQL connection pool correctly in order to ensure optimal performance and reliability of your application. I would strongly recommend that you set the maximum pool size based on your available database connections…”
Sau Caveman (380 tokens):
“Pool size = CPU cores × 2. Max 20.
pg.Pool({ max: 20, idleTimeoutMillis: 30000 }). Close pool on app exit. MonitortotalCountandwaitingCount.”
Khoa học đằng sau Caveman: Tại sao ngắn gọn lại chính xác hơn?
Paper tháng 3/2026 — “Brevity Constraints Reverse Performance Hierarchies in Language Models” (arXiv:2604.00025) — chỉ ra:
- Hạn chế độ dài phản hồi tăng độ chính xác 26 điểm % trên một số benchmark
- Hoàn toàn đảo ngược performance hierarchy giữa các model
- Model nhỏ hơn khi bị ép ngắn gọn có thể vượt model lớn hơn viết dài dòng
Kết luận khoa học: Dài dòng không phải lúc nào cũng tốt hơn. Đôi khi ít từ = đúng hơn.
Caveman phù hợp với ai?
| Đối tượng | Lợi ích |
|---|---|
| Lập trình viên dùng Claude Code hàng ngày | Tiết kiệm 65% output token = giảm hóa đơn API hàng tháng đáng kể |
| Team làm việc với context window lớn | Output ngắn hơn = context window trống lâu hơn, session dài hơn |
| Freelancer trả tiền API tự túc | Giảm chi phí vận hành AI tools |
| Người thích phản hồi nhanh | ~3x tốc độ phản hồi vì model phát sinh ít token hơn |
| Người ghét đọc văn bản dài dòng | Dễ đọc, dễ scan, chỉ lấy thông tin cần thiết |
| Người yêu thích meme/văn hóa internet | Mỗi code review biến thành comedy |
Các công cụ và agent được hỗ trợ
Caveman không chỉ dành cho Claude Code. Nó hỗ trợ 30+ agent và IDE:
- Claude Code (chính — có hooks, statusline, stats badge)
- Cursor, Windsurf, Cline, Copilot
- Gemini CLI, Codex, Continue, Kilo, Roo
- Augment, Aider Desk, Devin, Goose
- JetBrains Junie, Kiro CLI, Mistral Vibe
- OpenHands, opencode, Qwen Code, Qoder
- Tabnine, Trae, Warp, Replit Agent
- Và nhiều hơn nữa…
Cách sử dụng Caveman hiệu quả
1. Bắt đầu với Lite mode
Nếu bạn mới dùng, bắt đầu với /caveman lite để quen phong cách ngắn gọn mà vẫn giữ tính chuyên nghiệp.
2. Chuyển Full mode cho coding
Khi đã quen, /caveman full là sweet spot — giảm token tối đa mà vẫn đọc được.
3. Dùng Ultra cho quick checks
/caveman ultra khi bạn chỉ cần yes/no, path, hoặc một dòng code.
4. Caveman-commit cho git workflow
1/caveman-commit
2→ "fix(auth): guard null user on login"
5. Theo dõi tiết kiệm
1/caveman-stats --all
2→ Lifetime saved: 45.2k tokens (~$2.30)
FAQ — Câu hỏi thường gặp
Caveman có làm giảm chất lượng câu trả lời không?
Không. Caveman chỉ loại bỏ “fluff” — lời vòng vo, filler words, cấu trúc dư thừa. Nội dung kỹ thuật, code, logic được bảo toàn 100%. Benchmark chứng minh độ chính xác không đổi, thậm chí có thể tăng.
Caveman ảnh hưởng thinking tokens không?
Không. Thinking/reasoning tokens (quá trình suy nghĩ của model) hoàn toàn không bị đụng chạm. Caveman chỉ nén output tokens — phần phản hồi cuối cùng bạn đọc.
Tôi có thể dùng Caveman với GPT/ Gemini không?
Có. Caveman hỗ trợ 30+ agent bao gồm Gemini CLI, Codex, và nhiều IDE khác. Tuy nhiên, tính năng stats badge và hooks tối ưu nhất trên Claude Code.
Caveman có miễn phí không?
Hoàn toàn miễn phí. Mã nguồn mở MIT License. Bạn chỉ tiết kiệm tiền, không tốn thêm tiền.
Làm sao gỡ Caveman?
Chạy lại installer với flag uninstall hoặc xóa skill file trong .claude/skills/.
Kết luận: Ít token, nhiều giá trị
Caveman là một trong những Claude Code skill thực tiễn nhất năm 2026. Không cần đổi model, không cần tinh chỉnh hyperparameter — chỉ cần một skill nén prompt, bạn giảm 65% token usage, tăng ~3x tốc độ phản hồi, và giữ nguyên chất lượng kỹ thuật.
Với 57.003 stars trên GitHub và cộng đồng đang phát triển mạnh, Caveman đã chứng minh: đôi khi, nói như người tiền sử là cách thông minh nhất để dùng AI hiện đại.
🪨 “Few token do trick. Many token waste money.”
Tài nguyên tham khảo
- GitHub: github.com/JuliusBrussee/caveman
- Website: getcaveman.dev
- Paper khoa học: arXiv:2604.00025 — “Brevity Constraints Reverse Performance Hierarchies in Language Models”
- Benchmark reproduce:
benchmarks/trong repo GitHub
Đăng trên dibi8.com — Blog công nghệ và AI cho lập trình viên Việt Nam.

Have questions or ideas? Feel free to leave a comment below. Sign in with GitHub to join the discussion.