프로젝트 디렉토리 생성

date: 2026-05-19 00:00:00+08:00 lastmod: 2026-05-19 00:00:00+08:00 tech_stack: [] application_domain: Llm Frameworks source_version: ’' licensing_model: Open Source license_type: MIT file_size: ’' file_md5: ’' download_url: ’' backup_url: ’' github_repo: ‘https://github.com/BerriAI/litellm' last_maintained: ‘2026-05-19’ draft: false categories: [’llm-frameworks’] aliases:

  • /게시물/litellm/
  • /resources/llm-frameworks/litellm-unified-api-tutorial/
  • /posts/litellm-unified-api-tutorial/ 자주 묻는 질문:
  • q: ‘LiteLLM은 무엇이며 어떤 문제를 해결하나요?’ a: ‘LiteLLM은 OpenAI, Anthropic, Azure, Google Vertex AI, AWS Bedrock, Cohere 및 Ollama와 같은 100개 이상의 LLM 공급자에 대한 요청을 프록시하기 위해 단일 OpenAI 호환 API 엔드포인트를 노출하는 오픈 소스 AI 게이트웨이 및 Python SDK입니다. 단일 config.yaml 파일을 통해 자동 폴백, 로드 밸런싱, 가상 키 및 비용 추적을 추가함으로써 별도의 SDK, 재시도 논리 및 청구 대시보드를 유지 관리하는 데 따른 운영 부담을 없애줍니다.’
  • q: ‘기존 OpenAI SDK 코드와 함께 LiteLLM을 사용할 수 있나요?’ a: ‘예, 두 줄만 변경하면 됩니다. base_url을 LiteLLM 프록시(예: http://localhost: 4000)로 설정하고 api_key를 가상 키로 설정하세요. 다른 모든 OpenAI SDK 코드는 동일하게 유지되며, 이것이 팀이 LiteLLM을 채택하는 주된 이유입니다.’
  • q: ‘LiteLLM이 프로덕션에 필요한 데이터베이스는 무엇입니까?’ a: ‘가상 키, 지출 추적, 팀 관리를 포함한 프로덕션 기능에는 PostgreSQL 14+가 필요합니다. 프록시는 기본 통과 라우팅을 위해 데이터베이스 없이 실행될 수 있지만 예산 책정, 키 관리 및 관리 UI가 손실됩니다.’
  • q: ‘LiteLLM’의 자동 폴백은 어떻게 작동하나요?’ a: ‘config.yaml에서 폴백 체인을 정의합니다. 모델이 429, 500 또는 시간 초과를 반환하는 경우 LiteLLM은 동일한 클라이언트 요청 내 체인의 다음 모델에 대해 요청을 투명하게 재시도하므로 클라이언트는 단일 응답을 확인하고 장애 조치가 자동으로 발생합니다(실제로는 500ms 미만).’
  • q: ‘LiteLLM은 OpenRouter와 어떻게 비교됩니까?’ a: ‘LiteLLM은 마크업이 없고 전체 데이터를 제어할 수 있는 자체 호스팅 오픈 소스 게이트웨이인 반면, OpenRouter는 신용 구매에 대해 5.5%를 청구하지만 인프라 작업이 필요하지 않은 관리형 다중 모델 API입니다. 월 $5,000 이상의 LLM 지출과 DevOps 용량을 갖춘 팀의 경우 LiteLLM이 장기적으로 더 저렴합니다. 신속한 프로토타이핑을 위해 OpenRouter는 더 빠르게 배포됩니다.’

—{{< 리소스 정보 >}}

LiteLLM 로고
## 소개추론을 위해 Claude를, 코딩을 위해 GPT-4o를, 저렴한 분류를 위해 Gemini Flash를 실행하고 있습니다. 각 공급자에는 자체 SDK, 자체 재시도 로직, 비율 제한 헤더 및 청구 대시보드가 ​​있습니다. Anthropic의 API가 오전 2시에 딸꾹질을 하면 귀하의 서비스가 누군가를 깨웁니다. OpenAI 비용이 매주 40% 급증하면 어느 팀이 원인인지 아무도 알 수 없습니다.이는 다중 LLM 운영 세금으로, 새로운 모델을 추가할 때마다 추가됩니다. LiteLLM은 해당 세금을 제거합니다. 이는 단일 OpenAI 호환 API 엔드포인트를 노출하고 자동 폴백, 로드 밸런싱, 가상 키 및 비용 추적 기능이 내장된 100개 이상의 LLM 공급자에 대한 요청을 프록시 처리하는 오픈 소스 AI 게이트웨이입니다.22,500명 이상의 GitHub 스타1,500명 이상의 기여자를 갖춘 LiteLLM은 공급업체 종속 없이 게이트웨이 수준 제어를 원하는 팀의 기본 선택이 되었습니다. 이 LiteLLM 튜토리얼은 LiteLLM Docker 배포부터 가상 키 관리, litellm 프로덕션 모니터링에 이르기까지 전체 llm 게이트웨이 설정을 30분 이내에 안내합니다.—

LiteLLM이란 무엇입니까?LiteLLM은 단일 OpenAI 호환 API 형식을 사용하여 OpenAI, Anthropic, Azure, Google Vertex AI, AWS Bedrock, Cohere, Ollama 등 100개 이상의 LLM API를 호출할 수 있는 통합 인터페이스를 제공하는 오픈 소스 LLM 프록시 게이트웨이 및 Python SDK입니다.두 가지 모드가 있습니다:- Python SDKimport litellm; 코드에서 완료(...), 공급자에 구애받지 않음 #

  • 프록시 서버 — 모든 OpenAI SDK 클라이언트가 가리킬 수 있는 ‘:4000’의 자체 호스팅 HTTP 게이트웨이프록시 모드는 대부분의 프로덕션 팀이 사용하는 모드입니다. 단일 config.yaml 파일을 통해 구성되는 가상 키, 팀 관리, 예산 제어, 속도 제한, 캐싱 및 관측 가능성을 추가합니다.—

LiteLLM 작동 방식
LiteLLM 아키텍처 다이어그램
**요청 흐름: **1. 애플리케이션이 http://litellm-proxy: 4000/v1/chat/completions에 OpenAI 형식의 요청을 보냅니다. #

  1. LiteLLM은 가상 키의 유효성을 검사하고 팀의 예산 및 속도 제한을 확인합니다.
  2. 라우터는 구성된 전략(대기 시간 기반, 비용 기반 또는 단순 로드 밸런싱)을 기반으로 최상의 모델 배포를 선택합니다.
  3. 기본 공급자가 429/5xx를 반환하면 밀리초 내에 자동 대체가 트리거됩니다.
  4. 어떤 공급자가 응답을 처리했는지에 관계없이 응답은 OpenAI 형식으로 다시 스트리밍됩니다.
  5. 지출, 대기 시간 및 토큰 수가 PostgreSQL에 기록됩니다. Prometheus 측정항목이 내보내집니다.**핵심 구성 요소: **| Component | Purpose | External Dependency | |———–

|———

|——————-

| | Proxy Server | HTTP API, routing, auth | None (Python/FastAPI) | | PostgreSQL | Virtual keys, spend logs, team data | Required for production | | Redis | Rate-limit coordination, caching | Recommended | | Admin UI | Web dashboard for keys/models | Built-in |—

설치 및 설정### 전제 조건- Docker 24+ 및 Docker Compose v2 #

  • PostgreSQL 14 이상(로컬 컨테이너 또는 DigitalOcean 관리형 Postgres과 같이 관리됨)
  • 프록시 컨테이너용 vCPU 2개/최소 4GB RAM### 1단계: Docker Compose 템플릿 다운로드``배쉬
프로젝트 디렉토리 생성 #

mkdir -p litellm-gateway && cd litellm-gateway

공식 docker-compose.yml 다운로드 #

컬 -O https://raw.githubusercontent.com/BerriAI/litellm/main/docker-compose.yml

환경 파일 생성 #

고양이 > .env « ‘EOF’ LITELLM_MASTER_KEY=“sk-litellm-admin-$(openssl rand -hex 16)” LITELLM_SALT_KEY=“sk-salt-$(openssl rand -hex 32)” OPENAI_API_KEY=“sk-your-openai-key” ANTHROPIC_API_KEY=“sk-your-anthropic-key” DATABASE_URL=“postgresql: //llmproxy: dbpassword9090@db: 5432/litellm” EOF ````### 2단계: config.yaml 생성``yaml

litellm_config.yaml #

모델_목록:

  • 모델_이름: gpt-4o litellm_params: 모델: openai/gpt-4o api_key: os.environ/OPENAI_API_KEY 회전수: 500 TPM: 150000- 모델_이름: 클로드 소네트 litellm_params: 모델: 인류학/claude-sonnet-4-20250514 api_key: os.environ/ANTHROPIC_API_KEY 회전수: 200 tpm: 40000- model_name: gemini-flash litellm_params: 모델: gemini/gemini-2.0-flash api_key: os.environ/GEMINI_API_KEY 회전수: 1000- ``yaml

litellm_config.yaml #

모델_목록:

  • 모델_이름: gpt-4o litellm_params: 모델: openai/gpt-4o api_key: os.environ/OPENAI_API_KEY 회전수: 500 TPM: 150000

  • 모델_이름: 클로드 소네트 litellm_params: 모델: 인류학/claude-sonnet-4-20250514 api_key: os.environ/ANTHROPIC_API_KEY 회전수: 200 tpm: 40000

  • model_name: gemini-flash litellm_params: 모델: gemini/gemini-2.0-flash api_key: os.environ/GEMINI_API_KEY 회전수: 1000

  • 모델명 : ollamama-llama litellm_params: 모델: ollama/llama3.3 api_base: http://ollama: 11434 모델_정보: 모드: 채팅

임베딩 모델 #

  • model_name: 텍스트 임베딩 litellm_params: 모델: openai/text-embedding-3-small api_key: os.environ/OPENAI_API_KEY

일반_설정: master_key: os.environ/LITELLM_MASTER_KEY 데이터베이스_URL: os.environ/DATABASE_URL max_budget: 10000.00 예산 기간: 30일 경고:

  • 여유 경고 임계값: 300 global_max_parallel_requests: 200

litellm_settings: drop_params: 참 재시도 횟수: 3 request_timeout: 120

자동 대체 #

대체: -gpt-4o:

  • 클로드 소네트
  • 쌍둥이자리 플래시
  • 클로드 소네트: -gpt-4o
  • 쌍둥이자리 플래시

Redis 캐싱 #

캐시: 사실 캐시_매개변수: 유형: 레디스 호스트: 레디스 포트: 6379 TTL: 3600

관측성 콜백 #

성공_콜백: [“프로메테우스”] failure_callback: [“프로메테우스”] ``$LITELLM_MASTER_KEY" \ -H “콘텐츠 유형: 애플리케이션/json” \ -d ‘{ “모델”: “gpt-4o”, “messages”: [{“role”: “user”, “content”: “LiteLLM이 무엇인가요?”}] }’# 임베딩 테스트 컬 http://localhost: 4000/v1/embeddings \ -H “권한 부여: 전달자 $LITELLM_MASTER_KEY” \ -H “콘텐츠 유형: 애플리케이션/json” \ -d ‘{ “model”: “텍스트 삽입”, “input”: [“LiteLLM은 AI 게이트웨이입니다.”] }’


## 널리 사용되는 도구와의 통합### OpenAI SDK(파이썬)``파이썬 
openai 가져오기 OpenAI에서클라이언트 = OpenAI( 
base_url="http://localhost: 4000", 
api_key="sk-your-litellm-virtual-key" 
)응답 = client.chat.completions.create( 
모델="gpt-4o", 
message=[{"role": "user", "content": "로드 밸런싱 설명"}] 
) 
인쇄(response.choices[0].message.content) 
````### 랭체인``파이썬 
langchain_openai에서 ChatOpenAI 가져오기llm = ChatOpenAI( 
모델="클로드-소네트", 
openai_api_key="sk-your-virtual-key", 
openai_api_base="http://localhost: 4000" 
)result = llm.invoke("LLM 게이트웨이의 유형은 무엇입니까?") 
인쇄(결과.내용) 
````### Anthropic SDK(네이티브 호환성)``파이썬 
인류학 수입에서 인류학클라이언트 = 인류애( 
base_url="http://localhost: 4000/anthropic", 
api_key="sk-your-virtual-key" 
)응답 = client.messages.create( 
모델="클로드-소네트", 
max_tokens=1024, 
message=[{"role": "user", "content": "LiteLLM과 OpenRouter 비교"}] 
) 
인쇄(response.content[0].text) 
````### Ollama (현지 모델)``yaml 
# 광고``bash 
# 모든 서비스를 끌어오고 시작합니다. 
도커 작성 -d 

# 서비스가 정상인지 확인 
도커 작성 ps 

# 프록시 로그를 확인하세요 
docker compose 로그 -f litellm 
``_정보: 
모드: 채팅 
``````배쉬
# LiteLLM을 통해 로컬 모델 테스트 
컬 http://localhost: 4000/v1/chat/completions \ 
-H "권한 부여: 전달자 $LITELLM_MASTER_KEY" \ 
-H "콘텐츠 유형: 애플리케이션/json" \ 
-d '{ 
"모델": "로컬-라마", 
"messages": [{"role": "user", "content": "Hello 로컬 모델"}] 
}' 
````### 코히어``yaml 
모델_목록: 
- model_n```배쉬
# 채팅 완료 테스트 
컬 http://localhost: 4000/v1/chat/completions \ 
-H "권한 부여: 전달자 $LITELLM_MASTER_KEY" \ 
-H "콘텐츠 유형: 애플리케이션/json" \ 
-d '{ 
"모델": "gpt-4o", 
"messages": [{"role": "user", "content": "LiteLLM이 무엇인가요?"}] 
}' 

# 임베딩 테스트 
컬 http://localhost: 4000/v1/embeddings \ 
-H "권한 부여: 전달자 $LITELLM_MASTER_KEY" \ 
-H "콘텐츠 유형: 애플리케이션/json" \ 
-d '{ 
"model": "텍스트 삽입", 
"input": ["LiteLLM은 AI 게이트웨이입니다."] 
}' 
``및 외부 API 고객: | Metric | Before LiteLLM | After LiteLLM |
|--------

|---------------

|---------------

|
| Provider SDKs maintained | 4 (OpenAI, Anthropic, Gemini, Ollama) | 1 (OpenAI-compatible) |
| API key management | Shared keys in env vars | Virtual keys per team/customer |
| Cost attribution | Manual CSV export | Per-key spend in real-time UI |
| Outage response | Human-paged, 15-min MTTR | Automatic fallback, <500ms |
| Monthly LLM spend | $8,500 (unoptimized) | $6,200 (-27% with routing) |### 성능 벤치마크(자체 호스팅, vCPU 4개/8GB RAM)``파이썬 
openai 가져오기 OpenAI에서 

클라이언트 = OpenAI( 
base_url="http://localhost: 4000", 
api_key="sk-your-litellm-virtual-key" 
) 

응답 = client.chat.completions.create( 
모델="gpt-4o", 
message=[{"role": "user", "content": "로드 밸런싱 설명"}] 
) 
인쇄(response.choices[0].message.content) 
```` — | 3ms | 8ms |**참고: ** 게이트웨이 오버헤드에는 LLM API 응답 시간이 제외됩니다. LiteLLM은 작고 예측 가능한 지연 시간 패널티를 추가합니다. 매 밀리초가 중요한 흐름의 경우 애플리케이션과 동일한 VPC에 프록시를 배포하세요.---

## 고급 활용 / 생산 강화### 가상 키 및 팀 관리가상 키는``파이썬입니다 
langchain_openai에서 ChatOpenAI 가져오기 

llm = ChatOpenAI( 
모델="클로드-소네트", 
openai_api_key="sk-your-virtual-key", 
openai_api_base="http://localhost: 4000" 
) 

result = llm.invoke("LLM 게이트웨이의 유형은 무엇입니까?") 
인쇄(결과.내용) 
``ocalhost: 4000/key/generate \ 
-H "권한 부여: 전달자 $LITELLM_MASTER_KEY" \ 
-H "콘텐츠 유형: 애플리케이션/json" \ 
-d '{ 
"key_alias": "프런트엔드-팀-키", 
"team_id": "프론트엔드 팀", 
"모델": ["gpt-4o", "gemini-flash"], 
"최대_예산": 500.00, 
"budget_duration": "30일", 
"rpm_l````파이썬
인류학 수입에서 인류학 

클라이언트 = 인류애( 
base_url="http://localhost: 4000/anthropic", 
api_key="sk-your-virtual-key" 
) 

응답 = client.messages.create( 
모델="클로드-소네트", 
max_tokens=1024, 
message=[{"role": "user", "content": "LiteLLM과 OpenRouter 비교"}] 
) 
인쇄(response.content[0].text) 
``vider_budget_config: 
공개: 
월간_예산: 5000.00 
인류의: 
월별예산: 3000.00 
쌍둥이자리: 
월별예산: 1000.00 
````### 지연 시간 기반 라우팅``yaml 
라우터_설정: 
Routing_strategy: 지연 시간 기반 라우팅 
Routing_strategy_args: 
TTL: 60 
allowed_fails: 3 
쿨타임_타임: 60 
재시도 횟수: 2 
시간 초과: 90 
retry_af```
yam
l
# litellm_config.yaml에 추가 
모델_목록: 
- model_name: local-llama 
litellm_params: 
모델: ollama/llama3.3 
api_base: http://localhost: 11434 
모델_정보: 
모드: 채팅 
`` 유도 
# TLS 종료를 사용하여 Nginx 또는 AWS ALB 뒤에서 실행# 자세한 로깅을 비활성화합니다. 
litellm_settings: 
set_verbose: 거짓# 미사용 키 암호화 
litellm_settings: 
key_generatio````
bas
h
# LiteLLM을 통해 로컬 모델 테스트 
컬 http://localhost: 4000/v1/chat/completions \ 
-H "권한 부여: 전달자 $LITELLM_MASTER_KEY" \ 
-H "콘텐츠 유형: 애플리케이션/json" \ 
-d '{ 
"모델": "로컬-라마", 
"messages": [{"role": "user", "content": "Hello 로컬 모델"}] 
}' 

–replicaCount=3 설정 \ –ingress.enabled=true 설정 \ –set ingress.hosts[0].host=litellm.yourdomain.com \ –set env.LITELLM_MASTER_KEY=“sk-$(openssl rand -hex 16)” \ –set env.DATABASE_URL=“postgresql: //user: pass@neon-host/litellm” ````### Prometheus + Grafana를 사용한 모니터링``yaml

Ad```` #

yam l 모델_목록:

  • model_name: cohere-command litellm_params: 모델: cohere/command-r-plus api_key: os.environ/COHERE_API_KEY ics`:promql

모델별 요청률 #

비율(litellm_request_total_requests[5m])# 오류율 비율(litellm_requests_total_failed[5m])# Remain파이썬 openai 가져오기 OpenAI에서 클라이언트 = OpenAI(base_url="http://localhost: 4000", api_key="sk-virtual-key") 응답 = client.chat.completions.create( 모델="cohere-명령", message=[{"role": "user", "content": "요약"}] ) na_dashboard.json) 요청/초, 토큰 사용량, 팀당 비용 및 대기 시간 백분위수를 표시하는 사전 구축된 패널용입니다.—

대안과의 비교| Feature | LiteLLM | Portkey | OpenRouter | Helicone | #

|———

|———

|———

|————

|———-

| | License | MIT (Open Source) | Closed core + Open SDK | Closed (Hosted) | Closed (Hosted + Self-host) | | Deployment | Self-hosted / Docker / K8s | Cloud + Hybrid | Hosted only | Cloud + Self-host | | Models supported | 100+ providers | 200+ | 300+ | Provider-dependent | | Self-hosting cost | $200–800/mo infra | N/A (managed) | N/A (hosted) | $0–100/mo (self-host) | | Virtual keys / budgets | Per-key + per-team | Per-key + per-user | Basic per-key | Per-org | | Automatic fallback | Configurable chains | Circuit breakers | Provider routing | Limited | | Semantic caching | Redis + Qdrant | Built-in | No | No | | Observability | Prometheus + external | Built-in deep traces | Basic usage stats | Primary focus | | Compliance | DIY (SOC2 via infra) | SOC 2, ISO 27001, HIPAA | Partial | SOC 2 | | Best for | Full control, zero lock-in | Enterprise governance | Quick model access | Observability-first |**무엇을 선택해야 하는 경우: **- LiteLLM — DevOps 역량이 있고 공급업체 종속이 없으며 라우팅, 캐싱 및 데이터 상주에 대한 완전한 제어가 필요합니다.

  • 포트키 — 엔터프라이즈 거버넌스(SOC 2, 감사 로그), 신속한 관리 UI가 필요하고 SaaS 가격을 지불할 의향이 있습니다.
  • OpenRouter — 인프라 작업 없이 300개 이상의 모델에 즉시 액세스하기를 원하며 5.5%의 신용 수수료가 허용됩니다.
  • Helicone — 관찰 가능성이 주요 관심사입니다. LLM 호출 전체에 대한 자세한 추적 및 비용 귀속이 필요합니다.—

한계 / 정직한 평가LiteLLM````배쉬 #

“프론트엔드 팀"을 위한 가상 키를 생성합니다 #

컬 -X POST http://localhost: 4000/key/generate \ -H “권한 부여: 전달자 $LITELLM_MASTER_KEY” \ -H “콘텐츠 유형: 애플리케이션/json” \ -d ‘{ “key_alias”: “프런트엔드-팀-키”, “team_id”: “프론트엔드 팀”, “모델”: [“gpt-4o”, “gemini-flash”], “최대_예산”: 500.00, “budget_duration”: “30일”, “rpm_limit”: 100, “tpm_limit”: 50000, “메타데이터”: { “서비스”: “고객-채팅-위젯”, “env”: “생산” } }’

응답: #

{ #

“키”: “sk-litellm-abc123…”, #

“만료”: null, #

“max_budget”: 500.00, #

“모델”: [“gpt-4o”, “gemini-flash”] #

} #

``DNS 또는 글로벌 로드 밸런서를 사용하여 자체 다중 지역 장애 조치를 설계하세요. LiteLLM은 기본적으로 단일 지역 프록시입니다.5. 엔터프라이즈 SSO에는 비용이 듭니다 — SAML/SSO, 감사 로그 및 고급 가드레일은 LiteLLM Enterprise의 일부입니다. OSS 버전은 가상 키와 기본 예산만 처리합니다.—

자주 묻는 질문**Q: LiteLLM은 OpenRouter와 어떻게 비교됩니까?**LiteLLM은 자체 호스팅 오픈 소스 게이트웨이입니다. OpenRouter는 관리형 다중 모델 API입니다. LiteLLM은 마크업이 전혀 없고 데이터에 대한 완전한 제어권을 제공합니다. OpenRouter는 크레딧 구매에 대해 5.5%를 청구하지만 인프라 작업은 필요하지 않습니다. 월 $5,000 이상의 LLM 지출 및 DevOps 용량을 갖춘 팀의 경우 LiteLLM은 ch```` #

yaml 입니다. 일반_설정: 공급자_예산_구성: 공개: 월간_예산: 5000.00 인류의: 월별예산: 3000.00 쌍둥이자리: 월별예산: 1000.00

o
x
y
`api_key`를 가상 키에 추가합니다. 다른 모든 것은 동일하게 유지됩니다. 이것이 팀이 LiteLLM을 채택하는 주된 이유입니다. 구성 이상의 코드 변경은 없습니다.**Q: LiteLLM에는 어떤 데이터베이스가 필요합니까?**포스``yaml 
라우터_설정: 
Routing_strategy: 지연 시간 기반 라우팅 
Routing_strategy_args: 
TTL: 60 
allowed_fails: 3 
쿨타임_타임: 60 
재시도 횟수: 2 
시간 초과: 90 
재시도_후: 5 
``관리 및 관리 UI.**Q: 대체 메커니즘은 어떻게 작동하나요?**`config.yaml`에서 대체 체인을 정의합니다. 모델이 429, 500 또는 시간 초과를 반환하면 LiteLLM은 다음 mo```
yaml
대해 요청을 다시 시도합니다. 
# 보안이 강화된 config.yaml 
일반_설정: 
master_key: os.environ/LITELLM_MASTER_KEY 
데이터베이스_URL: os.environ/DATABASE_URL 

# 프로덕션에 HTTPS를 강제 적용 
# TLS 종료를 사용하여 Nginx 또는 AWS ALB 뒤에서 실행 

# 자세한 로깅을 비활성화합니다. 
litellm_settings: 
set_verbose: 거짓 

# 미사용 키 암호화 
litellm_settings: 
key_세대_알고리즘: "rsa" 
Allow_user_auth: 거짓 
``Kubernetes에서 자동 확장을 위한 HPA.**Q: 프로덕션에서 LiteLLM을 어떻게 모니터링합니까?**`config.yaml`에서 Prometheus 콜백을 활성화하고 `/metrics` 엔드포인트를 스크랩한 후 공식 Grafana 대시보드를 가져옵니다. 'litellm_requests_total_failed'(오류율) 및 'litellm_remaining_requests'(예산 소진)에 대한 알림을 설정하세요. 요청별 추적을 위해 `success_callback`을 Langfuse에 연결합니다.---

## 결론LiteLLM은 지저분한 현실``bash를 해결합니다. 
# LiteLLM Helm 저장소 추가 
헬름 풀 oci: //docker.litellm.ai/berriai/litellm-helm 

# 사용자 정의 값으로 설치 
helm install litellm-gateway ./litellm-helm \ 
--네임스페이스 litellm \ 
--create-네임스페이스 \ 
--replicaCount=3 설정 \ 
--ingress.enabled=true 설정 \ 
--set ingress.hosts[0].host=litellm.yourdomain.com \ 
--set env.LITELLM_MASTER_KEY="sk-$(openssl rand -hex 16)" \ 
--set env.DATABASE_URL="postgresql: //user: pass@neon-host/litellm" 
``위 설정에서 Redis 캐싱을 추가한 다음 트래픽 증가에 따라 Helm을 사용하여 Kubernetes로 확장합니다.**작업 항목: **1. [LiteLLM GitHub 저장소](https://github.com/BerriAI/litellm)를 복제하고 Docker Compose 빠른 시작을 실행합니다. 
2. 팀별 가상키 생성 및 키별 예산 설정 
3. Redis 캐싱 및 Prometheus 모니터링 활성화 
4. 지원 및 기능 토론을 위해 [LiteLLM Discord 커뮤니티](https://discord.gg/wupm9ySymB)에 가입하세요.*이 기사의 일부 링크는 제휴 링크입니다. 우리는``yaml 
# config.yaml에 추가 
litellm_settings: 
성공_콜백: ["프로메테우스"] 
failure_callback: ["프로메테우스"] 
```文含联盟营销链接.통통한 链接购买主机服务我们可能获得佣金——这不会影响价格或推荐。* 
--- 







## 권장 호스팅 및 인프라위의 도구를 프로덕션에 배포하기 전에 s```
promql
필요합니다. 
# 모델별 요청률 
비율(litellm_request_total_requests[5m]) 

# 오류율 
비율(litellm_requests_total_failed[5m]) 

# 키당 남은 예산 
litellm_remaining_requests 

# 게이트웨이 오버헤드 히스토그램 
histogram_Quantile(0.95, litellm_overhead_latency_ms_bucket) 
``ck" "footer-cta-legacy" "HTStack" >}}** — 중국 본토에서 지연 시간이 짧은 홍콩 VPS입니다. 이는 dibi8.com을 호스팅하는 동일한 IDC이며 프로덕션에서 전투 테스트를 거쳤습니다.*제휴 링크 — 추가 비용이 들지 않으며 dibi8.com을 계속 운영하는 데 도움이 됩니다.*## 출처 및 추가 자료- [LiteLLM GitHub Repository](https://github.com/BerriAI/litellm) — 공식 소스 코드, 별 22,500개 이상 
- [LiteLLM 문서](https://docs.litellm.ai/docs/) — 전체 프록시 및 SDK 참조 
- [LiteLLM Docker 빠른 시작](https://docs.litellm.ai/docs/proxy/docker_quick_start) — 공식 Docker 설정 가이드 
- [LiteLLM 구성 참조](https://docs.litellm.ai/docs/proxy/configs) — 모든 config.yaml 옵션 
- [LiteLLM Helm 배포](https://docs.litellm.ai/docs/proxy/deploy)KubernetesHelm 차트 
- [LiteLLM 관리 UI 문서](https://docs.litellm.ai/docs/proxy/ui) — 가상 키 및 팀 관리 
- [LiteLLM 캐싱 가이드](https://docs.litellm.ai/docs/caching/all_caches)Redis, 의미 체계 및 디스크 캐싱 
- [Portkey vs LiteLLM 비교](https://portkey.ai/lp/portkey-vs-litellm) — 공급업체 비교 페이지 
- [OpenRouter 문서](https://openrouter.ai/docs) — 대체 게이트웨이 참조 
- [Helicone 문서](https://docs.helicone.ai) — 관찰 가능성에 초점을 맞춘 대안

💬 댓글 토론