저렴한 LLM 스택으로 프로덕션 AI를 운영하는 데 비용이 얼마나 드나요?

월 총 비용은 가벼운 사용량(하루 100회 호출) 기준 $0-3, 중간 사용량(하루 500회 호출) 기준 $2-8, 고사용량(하루 2000회 호출) 기준 $5-15입니다. 동일한 사용량 기준으로 순수 API 비용은 각각 약 $40, $200, $800으로, 20-50배의 비용 절감 효과가 있습니다.

Gemini CLI 무료 티어는 하루에 몇 번의 무료 요청을 제공하나요?

Gemini CLI 무료 티어는 Q&A, 요약, 간단한 코딩 등 일반 작업에 대해 하루 1,000회의 무료 요청을 제공하며, 월 기준 약 30,000회의 무료 호출이 가능합니다. 다만 Google은 모델 개선 목적으로 무료 티어의 프롬프트를 기록하므로, 독점 코드나 PII(개인 식별 정보)는 전송하지 않아야 합니다.

DeepSeek API는 Claude Sonnet보다 얼마나 저렴한가요?

DeepSeek-V4는 입력 토큰 100만 개당 $0.27인 반면, Claude Sonnet은 $3으로, 약 1/10 수준의 가격입니다. 코드 벤치마크에서 Claude Sonnet과의 차이는 평균 약 5%에 불과합니다. 비피크 시간대(UTC 16:30-00:30)에는 추가로 50% 할인이 적용됩니다.

Ollama 모델을 로컬에서 실행하려면 어떤 하드웨어가 필요한가요?

8 GB RAM이면 Llama 3.2 3B를 초당 20+ 토큰 속도로 실행하여 자동완성 및 초안 작성에 활용할 수 있고, 16 GB RAM이면 Qwen 3 Coder 14B를 초당 15 토큰 속도로 실행하여 프로덕션 코딩 작업이 가능하며, 32 GB RAM이면 Llama 3.3 70B Q4를 초당 8 토큰 속도로 실행하여 Claude Sonnet급 품질을 얻을 수 있습니다. 로컬 추론은 요청 제한 없이 무료이며 전기 요금만 발생합니다.

저렴한 LLM 스택을 언제 업그레이드해야 하나요?

다음 상황 중 하나에 해당하면 업그레이드를 고려하세요: 500ms 미만의 지연 시간이 필요한 경우(핫 패스에 Claude 또는 GPT-5 추가), 컴플라이언스 상 미국 데이터 제공업체만 허용되는 경우(DeepSeek 및 Gemini 제외), 대량 워크로드에 SLA가 필요한 경우(관리형 LiteLLM 게이트웨이 추가), 또는 완전한 관측 가능성이 필요한 경우(Portkey 추가). 이 스택은 비용 확장을 의도적으로 제어하기 위한 출발점이지 상한선이 아닙니다.

저렴한 LLM 스택 2026: 무료 티어 + 토큰 압축으로 프로덕션 AI를 $0-15/월에 돌리는 법

대부분의 “LLM 비용 최적화” 조언은 “더 싼 모델을 써라"입니다. 이 컬렉션은 더 야심찹니다: 실제 프로덕션 워크로드(코딩 에이전트, 콘텐츠 생성, 검색, 기본 에이전트)를 총 $0-15/월로 처리하는 5컴포넌트 스택. 취미 셋업이 아니고, “하루 100 요청 정도 괜찮"이 아닙니다. 진짜 매일 쓰는 추론을 SaaS-킬러 가격에.

비결은 단일 도구가 아니라 — 오케스트레이션입니다. 무료 티어는 요청을 캡하지 출력을 캡하지 않습니다. 로컬 모델은 품질을 캡하지 요청을 캡하지 않습니다. 토큰 압축은 청구 지출을 깎습니다. 스마트 라우팅은 각 작업을 가장 저렴한 능력자에 보냅니다. 조합하면, 수학이 우스워집니다.

TL;DR — 한눈에 보는 스택 #

#	컴포넌트	비용	역할	심층 가이드
1	Ollama(로컬)	$0	무거운/민감한 워크로드 본인 하드웨어	Ollama 가이드
2	DeepSeek API	$2-8/월	어려운 작업 저렴 추론 ($0.27/M input vs Claude $3)	DeepSeek vs OpenAI
3	Gemini CLI 무료층	$0	1,000 req/day, 일반 LLM, 무료	AI 검색 도구
4	RTK 프록시	$0(셀프호스트)	청구 API 들어가기 전 prompt 20-40% 압축	RTK 셋업
5	9Router	$0(셀프호스트)	작업별로 가장 저렴한 능력자에 자동 라우트	9Router 가이드

월 총 비용(가볍: 100 calls/day): $0-3 • 중(500 calls/day): $2-8 • 무겁(2000 calls/day): $5-15

같은 볼륨 순수 API 비교: 각각 $40 / $200 / $800. 프로덕션 스케일에서 20-50× 비용 절감.

1. 왜 “저렴"이 2026에 가능해졌나 #

지난 12개월에 세 가지 변화:

DeepSeek-V4가 Claude Sonnet 품질을 1/10 가격으로 달성 ($0.27/M vs $3/M input). 80% 작업에서 품질 갭은 문제 안 됨
무료 티어가 진지해짐: Gemini가 1,000 무료 req/day, GLM-4.6도 무료 티어, OpenRouter가 커뮤니티 후원 무료 모델 로테이션. 합계 예산 ~3,000 무료 콜/day
RTK(Repetition-Token Compression)가 작동: 순수 중복 토큰 20-40% 제거 (파일 헤더, 시스템 prompt 세션당 10× 반복)

세 개 스택 — 로컬 페일오버 + 저렴 API + 무료 티어 로테이션 + 압축 — 저렴-품질 프런티어가 극적으로 이동.

2. 아키텍처 — 스마트 라우터 패턴 #

   당신 앱
       │
       ▼
   9Router (각 콜이 어디 갈지 결정)
       │
       ├─► 로컬 Ollama         (민감 / 오프라인 / 드래프트)
       │
       ├─► RTK 프록시 → DeepSeek (품질 필요 어려운 작업, 압축됨)
       │
       ├─► Gemini 무료 티어     (1k req/day, 쉬운 작업)
       │
       └─► OpenRouter 무료     (로테이션 커뮤니티 모델, 실험)

각 프로바이더에 “전문 구역”. 9Router(또는 새 서비스 싫으면 10줄 Python 래퍼)가 작업 검사 후 라우팅.

3. 컴포넌트 1 — Ollama (로컬, $0) #

역할: 민감한 것, 청구 싫은 것, 드래프트 품질 — 다 여기.

소비자 하드웨어 현실 (2026 수치):

8 GB RAM (M1 / 미들 PC): Llama 3.2 3B 20+ tok/s — 자동완성, 분류, 드래프트 작성
16 GB RAM (M2/M3 / 괜찮은 PC): Qwen 3 Coder 14B 15 tok/s — 프로덕션 코딩
32 GB RAM (Mac Studio / 워크스테이션): Llama 3.3 70B Q4 8 tok/s — Claude Sonnet급 품질, 인내심 필요

무료, 영원, rate limit 없음. 유일한 비용은 머신 돌리는 전기.

전체 설치 + 모델 선택: Ollama 프로덕션 가이드.

4. 컴포넌트 2 — DeepSeek API ($2-8/월) #

역할: 로컬이 부족할 때 기본 유료 프로바이더.

가격/품질로 모두를 이기는 이유:

DeepSeek-V4 input $0.27/M token vs Claude Sonnet $3/M vs GPT-5 $2.50/M
코드 벤치마크 Claude Sonnet과 갭: 평균 ~5%
오프피크 추가 50% 할인 (UTC 16:30-00:30)

솔직한 트레이드오프: 마이너 토픽에서 약간 더 환각. 콜드 스타트 약간 느림. 벌크 추론에서 11× 비용 절감 가치 있음.

빠른 시작 — platform.deepseek.com 가입, $10 크레딧으로 솔로 dev 2-3개월.

전체 셋업 + DeepSeek 안 쓸 때: DeepSeek-V4 vs OpenAI API 비교.

5. 컴포넌트 3 — Gemini CLI 무료 티어 ($0) #

역할: 일반 작업 (Q&A, 요약, 간단 코딩) 무료 1,000 req/day.

수학: 1,000 calls/day × 30 days = 30,000 calls/month 무료. UTC 자정 전 다 쓰면 DeepSeek로 페일오버.

주의: 무료 티어에서 Google이 “모델 개선” 위해 prompt 로그 — 독점 코드 / PII 보내지 말 것.

빠른 설치:

npm install -g @google/gemini-cli
gemini auth login  # 브라우저 열림, Google 계정 사용
gemini "이 regex 설명: /^[a-z]+$/i"

또는 Gemini REST endpoint 직접 호출 — 같은 1,000/day 예산.

동반 개요: Gemini vs Perplexity vs ChatGPT 무료 티어와 각각 강점: AI 검색 도구 비교.

6. 컴포넌트 4 — RTK 프록시 ($0, 셀프호스트) #

역할: 앱과 유료 API 사이에 위치. 각 콜 전에 반복 콘텐츠 (시스템 prompt, 파일 헤더, 문서 스니펫) 압축. 코드 변경 없이 청구 20-40% 적어짐.

메커니즘: 시맨틱 dedup. 같은 2,000 토큰 시스템 prompt를 오늘 50번 보내면 RTK가 콜 #2부터 인식하고 전체 텍스트 대신 포인터를 보냄.

빠른 설치:

docker run -d --name rtk -p 8765:8765 \
  ghcr.io/rtk-ai/rtk:latest

API base URL을 https://api.deepseek.com/v1에서 http://localhost:8765/v1/deepseek로 변경. 끝.

RTK 작동 원리 + 벤치마크 전체: RTK Rust CLI 프록시 + 토큰 세이버.

7. 컴포넌트 5 — 9Router ($0, 셀프호스트) #

역할: 오케스트레이터. 작업 유형, 잔여 예산, 프로바이더 가용성 기반으로 각 콜이 누구 갈지 결정.

필요한 이유: 9Router 없으면 콜마다 수동으로 프로바이더 픽. 9Router로 규칙 한 번 설정 (“코딩 작업 → DeepSeek via RTK, 간단 Q&A → Gemini 무료, fallback → Ollama”) 후 잊으면 됨.

보너스: 9Router는 premium 프로바이더용 자체 RTK 압축 레이어 포함, 무료 티어 일일 캡 도달 시 자동 페일오버.

빠른 설치:

docker run -d --name 9router -p 9999:9999 \
  -e PROVIDERS=ollama,deepseek,gemini,openrouter \
  ghcr.io/rtk-ai/9router:latest

전체 설정 + 무료 티어 코딩 콤보 레시피: 9Router 스마트 프록시 가이드.

8. 라우팅 테이블 — 누가 뭘 처리 #

솔로 dev용 가능한 기본 라우팅 config:

작업 유형	프로바이더	이유
인라인 코드 완성	Ollama (로컬 Qwen 3 Coder 14B)	레이턴시가 품질보다 중요
코드 생성 (함수 스코프)	DeepSeek-V4 via RTK	품질 중요, 압축으로 절약
멀티 파일 리팩토링	DeepSeek-V4 via RTK 또는 Claude fallback	어려운 작업, DeepSeek 막히면 premium
일반 Q&A / 코드 설명	Gemini 무료 티어	무료, 빠름, 충분
웹 검색 + 인용	Gemini 무료 티어 (내장 grounding)	무료 vs $20/월 Perplexity Pro
민감 코드 리뷰	Ollama 로컬	머신 절대 안 떠남
벌크 콘텐츠 생성 (1000+ 글)	DeepSeek-V4 오프피크	저렴 × 50% 오프피크 = $0.135/M
간단 에이전트 (Slack 봇, 스케줄러)	Gemini 무료 티어	쉬운 작업, 1k/day 충분

9. $0-15/월 수학 #

가벼운 사용 (솔로 dev, 평균 100 calls/day):

Gemini 무료 ~70% 커버 → $0
DeepSeek 나머지 30% (~900 calls/월, 대부분 소량) → $1-3
Ollama 민감용 (API 비용 없음) → $0
합계: $1-3/월 (순수 API $40+ 대비)

중간 사용 (500 calls/day, 일부 코딩 포함):

Gemini 무료: 아직 ~1000 calls/day 남음
DeepSeek 진지한 코딩: ~3000 calls/월 + RTK 압축 → $3-8
Ollama fallback → $0
합계: $3-8/월 (순수 API $200+ 대비)

무거운 사용 (2000 calls/day, 에이전트 워크플로우):

Gemini 오전 10시 소진, fallback 가동
DeepSeek 무거운 로드, RTK 30% 절감 → $5-12
오프피크 배치 작업 → 추가 50% 절감
Ollama 벌크 분류, 민감 처리 → $0
합계: $5-15/월 (순수 API $800+ 대비)

10. Day 1 셋업 순서 (60분) #

Ollama (15분) — 설치, Llama 3.2 3B + Qwen 3 Coder 14B 풀
DeepSeek 계정 (5분) — 가입, API key 받기, $10 충전
Gemini CLI (5분) — npm i -g @google/gemini-cli, Google 인증
RTK 프록시 (10분) — Docker run, DeepSeek 가리킴
9Router (10분) — Docker run, 4 프로바이더 설정
라우팅 테스트 (15분) — 5종 다른 작업 발송, 각각 예상 프로바이더 명중 확인

60분 후 머신에 진짜 프로덕션급 저렴 LLM 라우터.

11. 업그레이드 시점 (어디로) #

$0-15 스택은 다음 중 하나 부딪힐 때까지:

레이턴시 요구 < 500ms — Claude/GPT-5 핫 패스에 추가 (DeepSeek는 배치용 유지)
컴플라이언스가 미국 데이터 프로바이더만 요구 — DeepSeek + Gemini 제거, OpenRouter + 프로바이더 필터링 사용 또는 더 셀프호스트
벌크 워크로드가 SLA 필요 — 매니지드 LiteLLM 게이트웨이 + 여러 유료 프로바이더 + 재시도 로직 (LiteLLM 게이트웨이 2026 참조)
완전 가시성 원함 — Portkey 추가 ($1k 지출 시 $49 플랫폼 비용, Portkey vs LiteLLM 2026 참조)

요점: 이 스택은 천장이 아닙니다. 바닥 — 1일차부터 $200/월 SaaS 번들에 강제되지 않고 의도적으로 지출을 늘릴 수 있는 시작점.

TL;DR — 레시피 #

5 도구, $0-15/월, 60분 셋업:

Ollama — 로컬 & 민감
DeepSeek-V4 — 어려운 작업 저렴 API
Gemini CLI 무료 티어 — 1k req/day 무료 일반 LLM
RTK 프록시 — 청구 API 토큰 20-40% 절감
9Router — 스마트 라우팅 오케스트레이터

현재 AI SaaS에 $30+/월 쓰고 있으면 이 스택이 즉시 본전. 노트북에서 돌리면 됨 (저렴 LLM은 VPS 필수 아님 — 단, 팀 항상 켜기 원하면 $6/월 DigitalOcean droplet 도움).

Pair this collection with Self-Hosted AI Coding Workflow if you want the full coding stack — they share Ollama + 9Router + RTK as a foundation.

TL;DR — 한눈에 보는 스택 #

1. 왜 “저렴"이 2026에 가능해졌나 #

2. 아키텍처 — 스마트 라우터 패턴 #

3. 컴포넌트 1 — Ollama (로컬, $0) #

4. 컴포넌트 2 — DeepSeek API ($2-8/월) #

5. 컴포넌트 3 — Gemini CLI 무료 티어 ($0) #

6. 컴포넌트 4 — RTK 프록시 ($0, 셀프호스트) #

7. 컴포넌트 5 — 9Router ($0, 셀프호스트) #

8. 라우팅 테이블 — 누가 뭘 처리 #

9. $0-15/월 수학 #

10. Day 1 셋업 순서 (60분) #

11. 업그레이드 시점 (어디로) #

TL;DR — 레시피 #

🔗 관련 리소스

💬 댓글 토론