Caveman: Giảm 65% Token Claude Code — Tiết Kiệm Chi Phí AI, Tăng Tốc Phản Hồi

Ngày đăng: 2026-05-10 | Tác giả: dibi8.com | Thời gian đọc: 8 phút


Mở đầu: Vấn đề token “ngốn” tiền mà bạn chưa biết

Mỗi ngày, hàng triệu lập trình viên trên thế giới đang đốt tiền vào output tokens dư thừa. Claude Code trả lời dài dòng, giải thích quá mức, thêm “fluff” (lời vòng vo) vào mỗi câu trả lời — và bạn trả tiền cho tất cả.

Một nghiên cứu tháng 3/2026 từ arXiv (arXiv:2604.00025) chỉ ra rằng: hạn chế độ dài phản hồi không chỉ giảm token, mà còn tăng độ chính xác lên 26 điểm phần trăm trên một số benchmark. Nói cách khác — ngắn gọn = đúng hơn.

Caveman ra đời từ chính insight này. Đây là một Claude Code skill mã nguồn mở (GitHub: JuliusBrussee/caveman, 57.003 stars) với slogan đầy hài hước nhưng chính xác:

🪨 “why use many token when few token do trick”

Caveman không làm giảm khả năng suy nghĩ của AI. Nó chỉ làm “miệng” AI nhỏ lại — bỏ filler, giữ nguyên kỹ thuật. Kết quả: giảm trung bình 65% output token, phản hồi nhanh hơn ~3x, dễ đọc hơn, và tiết kiệm tiền API thực sự.


Caveman là gì? — Bản chất của “Nói như người tiền sử”

Caveman là một prompt compression skill cho Claude Code và hơn 30 agent AI khác. Nó hoạt động bằng cách:

  1. Loại bỏ filler words: “I would like to suggest that…”, “It is important to note that…”, “In my humble opinion…”
  2. Rút gọn cấu trúc câu: Bỏ articles (a, an, the), dùng fragments, mệnh lệnh trực tiếp
  3. Giữ nguyên accuracy: Code, URL, path, technical terms được bảo toàn byte-by-byte
  4. Tối ưu theo cấp độ: Lite → Full → Ultra, tùy mức độ nén bạn cần

Ba cấp độ nén Caveman

Cấp độLệnh kích hoạtMô tả
Lite/caveman liteBỏ filler, giữ ngữ pháp. Phong cách chuyên nghiệp, không dư thừa
Full/caveman fullMặc định. Bỏ articles, dùng fragments, ngôn ngữ ngắn gọn tối đa
Ultra/caveman ultraNén tối đa. Telegraphic. Viết tắt mọi thứ có thể

Cấp độ được chọn sẽ giữ nguyên cho đến khi bạn đổi hoặc kết thúc session.

Chế độ Văn ngôn (文言文 Wenyan)

Ngoài 3 cấp độ tiếng Anh, Caveman còn có chế độ Văn ngôn — ngôn ngữ viết cổ điển Trung Hoa, được coi là ngôn ngữ viết tiết kiệm token nhất mà con người từng phát minh:

Cấp độLệnhMô tả
Wenyan-Lite/caveman wenyan-liteBán cổ điển, giữ ngữ pháp, bỏ filler
Wenyan-Full/caveman wenyanVăn ngôn đầy đủ, ngắn gọn tối đa
Wenyan-Ultra/caveman wenyan-ultraCực đoan. Như học giả cổ đại trên ngân sách hạn hẹp

Bằng chứng thực tế: Benchmark từ Claude API

Caveman không chỉ là lý thuyết. Dưới đây là số liệu token thực tế từ API Claude (có thể reproduce tại benchmarks/ trong repo):

Tác vụToken thườngToken CavemanTiết kiệm
Giải thích React re-render bug1.18015987%
Sửa auth middleware token expiry70412183%
Setup PostgreSQL connection pool2.34738084%
Giải thích git rebase vs merge70229258%
Refactor callback sang async/await38730122%
Kiến trúc: microservices vs monolith44631030%
Review PR tìm lỗi bảo mật67839841%
Docker multi-stage build1.04229072%
Debug PostgreSQL race condition1.20023281%
Implement React error boundary3.45445687%
Trung bình1.21429465%

Phạm vi tiết kiệm: 22%–87% tùy tác vụ.

⚠️ Lưu ý quan trọng: Caveman chỉ ảnh hưởng output tokens — thinking/reasoning tokens không bị đụng chạm. Caveman không làm não AI nhỏ lại. Caveman chỉ làm miệng AI nhỏ lại.


Các Caveman Skill mở rộng

Ngoài mode nén cơ bản, Caveman cung cấp nhiều skill chuyên biệt:

SkillChức năng
/caveman-commitCommit message ngắn gọn. Conventional Commits, ≤50 ký tự subject. Nêu “tại sao” thay vì “cái gì”
/caveman-reviewComment PR một dòng: L42: 🔴 bug: user null. Add guard. Không dài dòng
/caveman-helpThẻ tham khảo nhanh. Tất cả modes, skills, commands
/caveman-statsThống kê token usage thực tế + tiết kiệm ước tính + USD. Tổng hợp lifetime, có thể chia sẻ
/caveman:compress <file>Viết lại file memory (ví dụ CLAUDE.md) thành caveman-speak. Giảm ~46% input tokens mỗi session
cavecrew-investigator/builder/reviewerSubagents Caveman cho Claude Code. Giảm ~60% token so với agent mặc định

Statusline badge — mặc định bật. Sau lần chạy /caveman-stats đầu tiên, statusline hiển thị [CAVEMAN] ⛏ 12.4k (tổng token đã tiết kiệm) và cập nhật realtime.


Hướng dẫn cài đặt Caveman

Cài đặt một dòng lệnh

1# macOS / Linux / WSL / Git Bash
2curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash
3
4# Windows (PowerShell)
5irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1 | iex

Tự động phát hiện 30+ agent: Claude Code, Gemini CLI, Codex, Cursor, Windsurf, Cline, Copilot, Continue, Kilo, Roo, Augment, Aider Desk, Amp, Bob, Crush, Devin, Droid, ForgeCode, Goose, iFlow, JetBrains Junie, Kiro CLI, Mistral Vibe, OpenHands, opencode, Qwen Code, Qoder, Rovo Dev, Tabnine, Trae, Warp, Replit Agent, Antigravity…

Mỗi agent được cài đặt theo cách native của nó. Bỏ qua agent bạn không có. An toàn để chạy lại nhiều lần.

Các flag cài đặt

FlagChức năng
--allPlugin + hooks + statusline + MCP shrink + rule files per-repo. Đầy đủ nhất
--minimalChỉ plugin/extension. Không hooks, không MCP shrink
--with-initThêm rule files always-on vào repo hiện tại (Cursor / Windsurf / Cline / Copilot / AGENTS.md)
--listIn danh sách đầy đủ agent được hỗ trợ

Caveman Shrink — MCP Middleware

Caveman cung cấp proxy MCP caveman-shrink (chạy qua npx caveman-shrink). Đây là middleware nén input tokens trước khi gửi đến model. Mặc định bật khi cài đặt.


So sánh trước và sau khi dùng Caveman

Ví dụ 1: Giải thích lỗi React

Trước Caveman (1.180 tokens):

“I would like to begin by acknowledging that this is a rather complex issue involving React’s reconciliation algorithm. It is important to understand that when state changes occur, React performs a process known as re-rendering, which can be quite expensive in terms of performance if not properly managed. In my professional opinion, I would suggest that you consider implementing React.memo or useMemo to prevent unnecessary re-renders…”

Sau Caveman (159 tokens):

“React re-render when state change. Use React.memo or useMemo stop waste. Check shouldComponentUpdate if class. Profiler find slow spot.”

Ví dụ 2: Setup PostgreSQL connection pool

Trước Caveman (2.347 tokens):

“It is absolutely critical that you configure your PostgreSQL connection pool correctly in order to ensure optimal performance and reliability of your application. I would strongly recommend that you set the maximum pool size based on your available database connections…”

Sau Caveman (380 tokens):

“Pool size = CPU cores × 2. Max 20. pg.Pool({ max: 20, idleTimeoutMillis: 30000 }). Close pool on app exit. Monitor totalCount and waitingCount.”


Khoa học đằng sau Caveman: Tại sao ngắn gọn lại chính xác hơn?

Paper tháng 3/2026 — “Brevity Constraints Reverse Performance Hierarchies in Language Models” (arXiv:2604.00025) — chỉ ra:

  • Hạn chế độ dài phản hồi tăng độ chính xác 26 điểm % trên một số benchmark
  • Hoàn toàn đảo ngược performance hierarchy giữa các model
  • Model nhỏ hơn khi bị ép ngắn gọn có thể vượt model lớn hơn viết dài dòng

Kết luận khoa học: Dài dòng không phải lúc nào cũng tốt hơn. Đôi khi ít từ = đúng hơn.


Caveman phù hợp với ai?

Đối tượngLợi ích
Lập trình viên dùng Claude Code hàng ngàyTiết kiệm 65% output token = giảm hóa đơn API hàng tháng đáng kể
Team làm việc với context window lớnOutput ngắn hơn = context window trống lâu hơn, session dài hơn
Freelancer trả tiền API tự túcGiảm chi phí vận hành AI tools
Người thích phản hồi nhanh~3x tốc độ phản hồi vì model phát sinh ít token hơn
Người ghét đọc văn bản dài dòngDễ đọc, dễ scan, chỉ lấy thông tin cần thiết
Người yêu thích meme/văn hóa internetMỗi code review biến thành comedy

Các công cụ và agent được hỗ trợ

Caveman không chỉ dành cho Claude Code. Nó hỗ trợ 30+ agent và IDE:

  • Claude Code (chính — có hooks, statusline, stats badge)
  • Cursor, Windsurf, Cline, Copilot
  • Gemini CLI, Codex, Continue, Kilo, Roo
  • Augment, Aider Desk, Devin, Goose
  • JetBrains Junie, Kiro CLI, Mistral Vibe
  • OpenHands, opencode, Qwen Code, Qoder
  • Tabnine, Trae, Warp, Replit Agent
  • Và nhiều hơn nữa…

Cách sử dụng Caveman hiệu quả

1. Bắt đầu với Lite mode

Nếu bạn mới dùng, bắt đầu với /caveman lite để quen phong cách ngắn gọn mà vẫn giữ tính chuyên nghiệp.

2. Chuyển Full mode cho coding

Khi đã quen, /caveman full là sweet spot — giảm token tối đa mà vẫn đọc được.

3. Dùng Ultra cho quick checks

/caveman ultra khi bạn chỉ cần yes/no, path, hoặc một dòng code.

4. Caveman-commit cho git workflow

1/caveman-commit
2→ "fix(auth): guard null user on login"

5. Theo dõi tiết kiệm

1/caveman-stats --all
2→ Lifetime saved: 45.2k tokens (~$2.30)

FAQ — Câu hỏi thường gặp

Caveman có làm giảm chất lượng câu trả lời không?

Không. Caveman chỉ loại bỏ “fluff” — lời vòng vo, filler words, cấu trúc dư thừa. Nội dung kỹ thuật, code, logic được bảo toàn 100%. Benchmark chứng minh độ chính xác không đổi, thậm chí có thể tăng.

Caveman ảnh hưởng thinking tokens không?

Không. Thinking/reasoning tokens (quá trình suy nghĩ của model) hoàn toàn không bị đụng chạm. Caveman chỉ nén output tokens — phần phản hồi cuối cùng bạn đọc.

Tôi có thể dùng Caveman với GPT/ Gemini không?

Có. Caveman hỗ trợ 30+ agent bao gồm Gemini CLI, Codex, và nhiều IDE khác. Tuy nhiên, tính năng stats badge và hooks tối ưu nhất trên Claude Code.

Caveman có miễn phí không?

Hoàn toàn miễn phí. Mã nguồn mở MIT License. Bạn chỉ tiết kiệm tiền, không tốn thêm tiền.

Làm sao gỡ Caveman?

Chạy lại installer với flag uninstall hoặc xóa skill file trong .claude/skills/.


Kết luận: Ít token, nhiều giá trị

Caveman là một trong những Claude Code skill thực tiễn nhất năm 2026. Không cần đổi model, không cần tinh chỉnh hyperparameter — chỉ cần một skill nén prompt, bạn giảm 65% token usage, tăng ~3x tốc độ phản hồi, và giữ nguyên chất lượng kỹ thuật.

Với 57.003 stars trên GitHub và cộng đồng đang phát triển mạnh, Caveman đã chứng minh: đôi khi, nói như người tiền sử là cách thông minh nhất để dùng AI hiện đại.

🪨 “Few token do trick. Many token waste money.”


Tài nguyên tham khảo


Đăng trên dibi8.com — Blog công nghệ và AI cho lập trình viên Việt Nam.