date: 2026-05-19 00:00:00+08:00 lastmod: 2026-05-19 00:00:00+08:00 tech_stack: [] application_domain: Llm Frameworks source_version: ’' licensing_model: Open Source license_type: MIT file_size: ’' file_md5: ’' download_url: ’' backup_url: ’' github_repo: ‘https://github.com/BerriAI/litellm' last_maintained: ‘2026-05-19’ draft: false categories: [’llm-frameworks’] aliases:

/게시물/litellm/
/resources/llm-frameworks/litellm-unified-api-tutorial/
/posts/litellm-unified-api-tutorial/ 자주 묻는 질문:
q: ‘LiteLLM은 무엇이며 어떤 문제를 해결하나요?’ a: ‘LiteLLM은 OpenAI, Anthropic, Azure, Google Vertex AI, AWS Bedrock, Cohere 및 Ollama와 같은 100개 이상의 LLM 공급자에 대한 요청을 프록시하기 위해 단일 OpenAI 호환 API 엔드포인트를 노출하는 오픈 소스 AI 게이트웨이 및 Python SDK입니다. 단일 config.yaml 파일을 통해 자동 폴백, 로드 밸런싱, 가상 키 및 비용 추적을 추가함으로써 별도의 SDK, 재시도 논리 및 청구 대시보드를 유지 관리하는 데 따른 운영 부담을 없애줍니다.’
q: ‘기존 OpenAI SDK 코드와 함께 LiteLLM을 사용할 수 있나요?’ a: ‘예, 두 줄만 변경하면 됩니다. base_url을 LiteLLM 프록시(예: http://localhost: 4000)로 설정하고 api_key를 가상 키로 설정하세요. 다른 모든 OpenAI SDK 코드는 동일하게 유지되며, 이것이 팀이 LiteLLM을 채택하는 주된 이유입니다.’
q: ‘LiteLLM이 프로덕션에 필요한 데이터베이스는 무엇입니까?’ a: ‘가상 키, 지출 추적, 팀 관리를 포함한 프로덕션 기능에는 PostgreSQL 14+가 필요합니다. 프록시는 기본 통과 라우팅을 위해 데이터베이스 없이 실행될 수 있지만 예산 책정, 키 관리 및 관리 UI가 손실됩니다.’
q: ‘LiteLLM’의 자동 폴백은 어떻게 작동하나요?’ a: ‘config.yaml에서 폴백 체인을 정의합니다. 모델이 429, 500 또는 시간 초과를 반환하는 경우 LiteLLM은 동일한 클라이언트 요청 내 체인의 다음 모델에 대해 요청을 투명하게 재시도하므로 클라이언트는 단일 응답을 확인하고 장애 조치가 자동으로 발생합니다(실제로는 500ms 미만).’
q: ‘LiteLLM은 OpenRouter와 어떻게 비교됩니까?’ a: ‘LiteLLM은 마크업이 없고 전체 데이터를 제어할 수 있는 자체 호스팅 오픈 소스 게이트웨이인 반면, OpenRouter는 신용 구매에 대해 5.5%를 청구하지만 인프라 작업이 필요하지 않은 관리형 다중 모델 API입니다. 월 $5,000 이상의 LLM 지출과 DevOps 용량을 갖춘 팀의 경우 LiteLLM이 장기적으로 더 저렴합니다. 신속한 프로토타이핑을 위해 OpenRouter는 더 빠르게 배포됩니다.’

—{{< 리소스 정보 >}}

## 소개추론을 위해 Claude를, 코딩을 위해 GPT-4o를, 저렴한 분류를 위해 Gemini Flash를 실행하고 있습니다. 각 공급자에는 자체 SDK, 자체 재시도 로직, 비율 제한 헤더 및 청구 대시보드가 있습니다. Anthropic의 API가 오전 2시에 딸꾹질을 하면 귀하의 서비스가 누군가를 깨웁니다. OpenAI 비용이 매주 40% 급증하면 어느 팀이 원인인지 아무도 알 수 없습니다.이는 다중 LLM 운영 세금으로, 새로운 모델을 추가할 때마다 추가됩니다. LiteLLM은 해당 세금을 제거합니다. 이는 단일 OpenAI 호환 API 엔드포인트를 노출하고 자동 폴백, 로드 밸런싱, 가상 키 및 비용 추적 기능이 내장된 100개 이상의 LLM 공급자에 대한 요청을 프록시 처리하는 오픈 소스 AI 게이트웨이입니다.22,500명 이상의 GitHub 스타 및 1,500명 이상의 기여자를 갖춘 LiteLLM은 공급업체 종속 없이 게이트웨이 수준 제어를 원하는 팀의 기본 선택이 되었습니다. 이 LiteLLM 튜토리얼은 LiteLLM Docker 배포부터 가상 키 관리, litellm 프로덕션 모니터링에 이르기까지 전체 llm 게이트웨이 설정을 30분 이내에 안내합니다.—

LiteLLM이란 무엇입니까?LiteLLM은 단일 OpenAI 호환 API 형식을 사용하여 OpenAI, Anthropic, Azure, Google Vertex AI, AWS Bedrock, Cohere, Ollama 등 100개 이상의 LLM API를 호출할 수 있는 통합 인터페이스를 제공하는 오픈 소스 LLM 프록시 게이트웨이 및 Python SDK입니다.두 가지 모드가 있습니다:- Python SDK — `import litellm; 코드에서 완료(...)`, 공급자에 구애받지 않음 #

프록시 서버 — 모든 OpenAI SDK 클라이언트가 가리킬 수 있는 ‘:4000’의 자체 호스팅 HTTP 게이트웨이프록시 모드는 대부분의 프로덕션 팀이 사용하는 모드입니다. 단일 config.yaml 파일을 통해 구성되는 가상 키, 팀 관리, 예산 제어, 속도 제한, 캐싱 및 관측 가능성을 추가합니다.—

LiteLLM 작동 방식

요청 흐름: 1. 애플리케이션이 `http://litellm-proxy: 4000/v1/chat/completions`에 OpenAI 형식의 요청을 보냅니다. #

LiteLLM은 가상 키의 유효성을 검사하고 팀의 예산 및 속도 제한을 확인합니다.
라우터는 구성된 전략(대기 시간 기반, 비용 기반 또는 단순 로드 밸런싱)을 기반으로 최상의 모델 배포를 선택합니다.
기본 공급자가 429/5xx를 반환하면 밀리초 내에 자동 대체가 트리거됩니다.
어떤 공급자가 응답을 처리했는지에 관계없이 응답은 OpenAI 형식으로 다시 스트리밍됩니다.
지출, 대기 시간 및 토큰 수가 PostgreSQL에 기록됩니다. Prometheus 측정항목이 내보내집니다.**핵심 구성 요소: **| Component | Purpose | External Dependency | |———–

|———

|——————-

설치 및 설정### 전제 조건- Docker 24+ 및 Docker Compose v2 #

PostgreSQL 14 이상(로컬 컨테이너 또는 DigitalOcean 관리형 Postgres과 같이 관리됨)
프록시 컨테이너용 vCPU 2개/최소 4GB RAM### 1단계: Docker Compose 템플릿 다운로드``배쉬

프로젝트 디렉토리 생성 #

mkdir -p litellm-gateway && cd litellm-gateway

공식 docker-compose.yml 다운로드 #

컬 -O https://raw.githubusercontent.com/BerriAI/litellm/main/docker-compose.yml

환경 파일 생성 #

고양이 > .env « ‘EOF’ LITELLM_MASTER_KEY=“sk-litellm-admin-$(openssl rand -hex 16)” LITELLM_SALT_KEY=“sk-salt-$(openssl rand -hex 32)” OPENAI_API_KEY=“sk-your-openai-key” ANTHROPIC_API_KEY=“sk-your-anthropic-key” DATABASE_URL=“postgresql: //llmproxy: dbpassword9090@db: 5432/litellm” EOF ````### 2단계: config.yaml 생성``yaml

litellm_config.yaml #

모델_목록:

모델_이름: gpt-4o litellm_params: 모델: openai/gpt-4o api_key: os.environ/OPENAI_API_KEY 회전수: 500 TPM: 150000- 모델_이름: 클로드 소네트 litellm_params: 모델: 인류학/claude-sonnet-4-20250514 api_key: os.environ/ANTHROPIC_API_KEY 회전수: 200 tpm: 40000- model_name: gemini-flash litellm_params: 모델: gemini/gemini-2.0-flash api_key: os.environ/GEMINI_API_KEY 회전수: 1000- ``yaml

litellm_config.yaml #

모델_목록:

모델_이름: gpt-4o litellm_params: 모델: openai/gpt-4o api_key: os.environ/OPENAI_API_KEY 회전수: 500 TPM: 150000
모델_이름: 클로드 소네트 litellm_params: 모델: 인류학/claude-sonnet-4-20250514 api_key: os.environ/ANTHROPIC_API_KEY 회전수: 200 tpm: 40000
model_name: gemini-flash litellm_params: 모델: gemini/gemini-2.0-flash api_key: os.environ/GEMINI_API_KEY 회전수: 1000
모델명 : ollamama-llama litellm_params: 모델: ollama/llama3.3 api_base: http://ollama: 11434 모델_정보: 모드: 채팅

임베딩 모델 #

model_name: 텍스트 임베딩 litellm_params: 모델: openai/text-embedding-3-small api_key: os.environ/OPENAI_API_KEY

일반_설정: master_key: os.environ/LITELLM_MASTER_KEY 데이터베이스_URL: os.environ/DATABASE_URL max_budget: 10000.00 예산 기간: 30일 경고:

여유 경고 임계값: 300 global_max_parallel_requests: 200

litellm_settings: drop_params: 참 재시도 횟수: 3 request_timeout: 120

자동 대체 #

대체: -gpt-4o:

클로드 소네트
쌍둥이자리 플래시
클로드 소네트: -gpt-4o
쌍둥이자리 플래시

Redis 캐싱 #

캐시: 사실 캐시_매개변수: 유형: 레디스 호스트: 레디스 포트: 6379 TTL: 3600

관측성 콜백 #

성공_콜백: [“프로메테우스”] failure_callback: [“프로메테우스”] ``$LITELLM_MASTER_KEY" \ -H “콘텐츠 유형: 애플리케이션/json” \ -d ‘{ “모델”: “gpt-4o”, “messages”: [{“role”: “user”, “content”: “LiteLLM이 무엇인가요?”}] }’# 임베딩 테스트 컬 http://localhost: 4000/v1/embeddings \ -H “권한 부여: 전달자 $LITELLM_MASTER_KEY” \ -H “콘텐츠 유형: 애플리케이션/json” \ -d ‘{ “model”: “텍스트 삽입”, “input”: [“LiteLLM은 AI 게이트웨이입니다.”] }’


## 널리 사용되는 도구와의 통합### OpenAI SDK(파이썬)``파이썬 
openai 가져오기 OpenAI에서클라이언트 = OpenAI( 
base_url="http://localhost: 4000", 
api_key="sk-your-litellm-virtual-key" 
)응답 = client.chat.completions.create( 
모델="gpt-4o", 
message=[{"role": "user", "content": "로드 밸런싱 설명"}] 
) 
인쇄(response.choices[0].message.content) 
````### 랭체인``파이썬 
langchain_openai에서 ChatOpenAI 가져오기llm = ChatOpenAI( 
모델="클로드-소네트", 
openai_api_key="sk-your-virtual-key", 
openai_api_base="http://localhost: 4000" 
)result = llm.invoke("LLM 게이트웨이의 유형은 무엇입니까?") 
인쇄(결과.내용) 
````### Anthropic SDK(네이티브 호환성)``파이썬 
인류학 수입에서 인류학클라이언트 = 인류애( 
base_url="http://localhost: 4000/anthropic", 
api_key="sk-your-virtual-key" 
)응답 = client.messages.create( 
모델="클로드-소네트", 
max_tokens=1024, 
message=[{"role": "user", "content": "LiteLLM과 OpenRouter 비교"}] 
) 
인쇄(response.content[0].text) 
````### Ollama (현지 모델)``yaml 
# 광고``bash 
# 모든 서비스를 끌어오고 시작합니다. 
도커 작성 -d 

# 서비스가 정상인지 확인 
도커 작성 ps 

# 프록시 로그를 확인하세요 
docker compose 로그 -f litellm 
``_정보: 
모드: 채팅 
``````배쉬
# LiteLLM을 통해 로컬 모델 테스트 
컬 http://localhost: 4000/v1/chat/completions \ 
-H "권한 부여: 전달자 $LITELLM_MASTER_KEY" \ 
-H "콘텐츠 유형: 애플리케이션/json" \ 
-d '{ 
"모델": "로컬-라마", 
"messages": [{"role": "user", "content": "Hello 로컬 모델"}] 
}' 
````### 코히어``yaml 
모델_목록: 
- model_n```배쉬
# 채팅 완료 테스트 
컬 http://localhost: 4000/v1/chat/completions \ 
-H "권한 부여: 전달자 $LITELLM_MASTER_KEY" \ 
-H "콘텐츠 유형: 애플리케이션/json" \ 
-d '{ 
"모델": "gpt-4o", 
"messages": [{"role": "user", "content": "LiteLLM이 무엇인가요?"}] 
}' 

# 임베딩 테스트 
컬 http://localhost: 4000/v1/embeddings \ 
-H "권한 부여: 전달자 $LITELLM_MASTER_KEY" \ 
-H "콘텐츠 유형: 애플리케이션/json" \ 
-d '{ 
"model": "텍스트 삽입", 
"input": ["LiteLLM은 AI 게이트웨이입니다."] 
}' 
``및 외부 API 고객: | Metric | Before LiteLLM | After LiteLLM |
|--------

|---------------

|---------------

|
| Provider SDKs maintained | 4 (OpenAI, Anthropic, Gemini, Ollama) | 1 (OpenAI-compatible) |
| API key management | Shared keys in env vars | Virtual keys per team/customer |
| Cost attribution | Manual CSV export | Per-key spend in real-time UI |
| Outage response | Human-paged, 15-min MTTR | Automatic fallback, <500ms |
| Monthly LLM spend | $8,500 (unoptimized) | $6,200 (-27% with routing) |### 성능 벤치마크(자체 호스팅, vCPU 4개/8GB RAM)``파이썬 
openai 가져오기 OpenAI에서 

클라이언트 = OpenAI( 
base_url="http://localhost: 4000", 
api_key="sk-your-litellm-virtual-key" 
) 

응답 = client.chat.completions.create( 
모델="gpt-4o", 
message=[{"role": "user", "content": "로드 밸런싱 설명"}] 
) 
인쇄(response.choices[0].message.content) 
```` — | 3ms | 8ms |**참고: ** 게이트웨이 오버헤드에는 LLM API 응답 시간이 제외됩니다. LiteLLM은 작고 예측 가능한 지연 시간 패널티를 추가합니다. 매 밀리초가 중요한 흐름의 경우 애플리케이션과 동일한 VPC에 프록시를 배포하세요.---

## 고급 활용 / 생산 강화### 가상 키 및 팀 관리가상 키는``파이썬입니다 
langchain_openai에서 ChatOpenAI 가져오기 

llm = ChatOpenAI( 
모델="클로드-소네트", 
openai_api_key="sk-your-virtual-key", 
openai_api_base="http://localhost: 4000" 
) 

result = llm.invoke("LLM 게이트웨이의 유형은 무엇입니까?") 
인쇄(결과.내용) 
``ocalhost: 4000/key/generate \ 
-H "권한 부여: 전달자 $LITELLM_MASTER_KEY" \ 
-H "콘텐츠 유형: 애플리케이션/json" \ 
-d '{ 
"key_alias": "프런트엔드-팀-키", 
"team_id": "프론트엔드 팀", 
"모델": ["gpt-4o", "gemini-flash"], 
"최대_예산": 500.00, 
"budget_duration": "30일", 
"rpm_l````파이썬
인류학 수입에서 인류학 

클라이언트 = 인류애( 
base_url="http://localhost: 4000/anthropic", 
api_key="sk-your-virtual-key" 
) 

응답 = client.messages.create( 
모델="클로드-소네트", 
max_tokens=1024, 
message=[{"role": "user", "content": "LiteLLM과 OpenRouter 비교"}] 
) 
인쇄(response.content[0].text) 
``vider_budget_config: 
공개: 
월간_예산: 5000.00 
인류의: 
월별예산: 3000.00 
쌍둥이자리: 
월별예산: 1000.00 
````### 지연 시간 기반 라우팅``yaml 
라우터_설정: 
Routing_strategy: 지연 시간 기반 라우팅 
Routing_strategy_args: 
TTL: 60 
allowed_fails: 3 
쿨타임_타임: 60 
재시도 횟수: 2 
시간 초과: 90 
retry_af```
yam
l
# litellm_config.yaml에 추가 
모델_목록: 
- model_name: local-llama 
litellm_params: 
모델: ollama/llama3.3 
api_base: http://localhost: 11434 
모델_정보: 
모드: 채팅 
`` 유도 
# TLS 종료를 사용하여 Nginx 또는 AWS ALB 뒤에서 실행# 자세한 로깅을 비활성화합니다. 
litellm_settings: 
set_verbose: 거짓# 미사용 키 암호화 
litellm_settings: 
key_generatio````
bas
h
# LiteLLM을 통해 로컬 모델 테스트 
컬 http://localhost: 4000/v1/chat/completions \ 
-H "권한 부여: 전달자 $LITELLM_MASTER_KEY" \ 
-H "콘텐츠 유형: 애플리케이션/json" \ 
-d '{ 
"모델": "로컬-라마", 
"messages": [{"role": "user", "content": "Hello 로컬 모델"}] 
}'

–replicaCount=3 설정 \ –ingress.enabled=true 설정 \ –set ingress.hosts[0].host=litellm.yourdomain.com \ –set env.LITELLM_MASTER_KEY=“sk-$(openssl rand -hex 16)” \ –set env.DATABASE_URL=“postgresql: //user: pass@neon-host/litellm” ````### Prometheus + Grafana를 사용한 모니터링``yaml

Ad```` #

yam l 모델_목록:

model_name: cohere-command litellm_params: 모델: cohere/command-r-plus api_key: os.environ/COHERE_API_KEY ics`:promql

모델별 요청률 #

비율(litellm_request_total_requests[5m])# 오류율 비율(litellm_requests_total_failed[5m])# Remain파이썬 openai 가져오기 OpenAI에서 클라이언트 = OpenAI(base_url="http://localhost: 4000", api_key="sk-virtual-key") 응답 = client.chat.completions.create( 모델="cohere-명령", message=[{"role": "user", "content": "요약"}] ) na_dashboard.json) 요청/초, 토큰 사용량, 팀당 비용 및 대기 시간 백분위수를 표시하는 사전 구축된 패널용입니다.—

대안과의 비교| Feature | LiteLLM | Portkey | OpenRouter | Helicone | #

|———

|————

|———-

포트키 — 엔터프라이즈 거버넌스(SOC 2, 감사 로그), 신속한 관리 UI가 필요하고 SaaS 가격을 지불할 의향이 있습니다.
OpenRouter — 인프라 작업 없이 300개 이상의 모델에 즉시 액세스하기를 원하며 5.5%의 신용 수수료가 허용됩니다.
Helicone — 관찰 가능성이 주요 관심사입니다. LLM 호출 전체에 대한 자세한 추적 및 비용 귀속이 필요합니다.—

한계 / 정직한 평가LiteLLM````배쉬 #

“프론트엔드 팀"을 위한 가상 키를 생성합니다 #

컬 -X POST http://localhost: 4000/key/generate \ -H “권한 부여: 전달자 $LITELLM_MASTER_KEY” \ -H “콘텐츠 유형: 애플리케이션/json” \ -d ‘{ “key_alias”: “프런트엔드-팀-키”, “team_id”: “프론트엔드 팀”, “모델”: [“gpt-4o”, “gemini-flash”], “최대_예산”: 500.00, “budget_duration”: “30일”, “rpm_limit”: 100, “tpm_limit”: 50000, “메타데이터”: { “서비스”: “고객-채팅-위젯”, “env”: “생산” } }’

응답: #

{ #

“키”: “sk-litellm-abc123…”, #

“만료”: null, #

“max_budget”: 500.00, #

“모델”: [“gpt-4o”, “gemini-flash”] #

} #

``DNS 또는 글로벌 로드 밸런서를 사용하여 자체 다중 지역 장애 조치를 설계하세요. LiteLLM은 기본적으로 단일 지역 프록시입니다.5. 엔터프라이즈 SSO에는 비용이 듭니다 — SAML/SSO, 감사 로그 및 고급 가드레일은 LiteLLM Enterprise의 일부입니다. OSS 버전은 가상 키와 기본 예산만 처리합니다.—

자주 묻는 질문Q: LiteLLM은 OpenRouter와 어떻게 비교됩니까?LiteLLM은 자체 호스팅 오픈 소스 게이트웨이입니다. OpenRouter는 관리형 다중 모델 API입니다. LiteLLM은 마크업이 전혀 없고 데이터에 대한 완전한 제어권을 제공합니다. OpenRouter는 크레딧 구매에 대해 5.5%를 청구하지만 인프라 작업은 필요하지 않습니다. 월 $5,000 이상의 LLM 지출 및 DevOps 용량을 갖춘 팀의 경우 LiteLLM은 ch```` #

yaml 입니다. 일반_설정: 공급자_예산_구성: 공개: 월간_예산: 5000.00 인류의: 월별예산: 3000.00 쌍둥이자리: 월별예산: 1000.00

o
x
y
및 `api_key`를 가상 키에 추가합니다. 다른 모든 것은 동일하게 유지됩니다. 이것이 팀이 LiteLLM을 채택하는 주된 이유입니다. 구성 이상의 코드 변경은 없습니다.**Q: LiteLLM에는 어떤 데이터베이스가 필요합니까?**포스``yaml 
라우터_설정: 
Routing_strategy: 지연 시간 기반 라우팅 
Routing_strategy_args: 
TTL: 60 
allowed_fails: 3 
쿨타임_타임: 60 
재시도 횟수: 2 
시간 초과: 90 
재시도_후: 5 
``관리 및 관리 UI.**Q: 대체 메커니즘은 어떻게 작동하나요?**`config.yaml`에서 대체 체인을 정의합니다. 모델이 429, 500 또는 시간 초과를 반환하면 LiteLLM은 다음 mo```
yaml
에
대해 요청을 다시 시도합니다. 
# 보안이 강화된 config.yaml 
일반_설정: 
master_key: os.environ/LITELLM_MASTER_KEY 
데이터베이스_URL: os.environ/DATABASE_URL 

# 프로덕션에 HTTPS를 강제 적용 
# TLS 종료를 사용하여 Nginx 또는 AWS ALB 뒤에서 실행 

# 자세한 로깅을 비활성화합니다. 
litellm_settings: 
set_verbose: 거짓 

# 미사용 키 암호화 
litellm_settings: 
key_세대_알고리즘: "rsa" 
Allow_user_auth: 거짓 
``Kubernetes에서 자동 확장을 위한 HPA.**Q: 프로덕션에서 LiteLLM을 어떻게 모니터링합니까?**`config.yaml`에서 Prometheus 콜백을 활성화하고 `/metrics` 엔드포인트를 스크랩한 후 공식 Grafana 대시보드를 가져옵니다. 'litellm_requests_total_failed'(오류율) 및 'litellm_remaining_requests'(예산 소진)에 대한 알림을 설정하세요. 요청별 추적을 위해 `success_callback`을 Langfuse에 연결합니다.---

## 결론LiteLLM은 지저분한 현실``bash를 해결합니다. 
# LiteLLM Helm 저장소 추가 
헬름 풀 oci: //docker.litellm.ai/berriai/litellm-helm 

# 사용자 정의 값으로 설치 
helm install litellm-gateway ./litellm-helm \ 
--네임스페이스 litellm \ 
--create-네임스페이스 \ 
--replicaCount=3 설정 \ 
--ingress.enabled=true 설정 \ 
--set ingress.hosts[0].host=litellm.yourdomain.com \ 
--set env.LITELLM_MASTER_KEY="sk-$(openssl rand -hex 16)" \ 
--set env.DATABASE_URL="postgresql: //user: pass@neon-host/litellm" 
``위 설정에서 Redis 캐싱을 추가한 다음 트래픽 증가에 따라 Helm을 사용하여 Kubernetes로 확장합니다.**작업 항목: **1. [LiteLLM GitHub 저장소](https://github.com/BerriAI/litellm)를 복제하고 Docker Compose 빠른 시작을 실행합니다. 
2. 팀별 가상키 생성 및 키별 예산 설정 
3. Redis 캐싱 및 Prometheus 모니터링 활성화 
4. 지원 및 기능 토론을 위해 [LiteLLM Discord 커뮤니티](https://discord.gg/wupm9ySymB)에 가입하세요.*이 기사의 일부 링크는 제휴 링크입니다. 우리는``yaml 
# config.yaml에 추가 
litellm_settings: 
성공_콜백: ["프로메테우스"] 
failure_callback: ["프로메테우스"] 
```文含联盟营销链接.통통한 链接购买主机服务我们可能获得佣金——这不会影响价格或推荐。* 
--- 







## 권장 호스팅 및 인프라위의 도구를 프로덕션에 배포하기 전에 s```
promql
이
필요합니다. 
# 모델별 요청률 
비율(litellm_request_total_requests[5m]) 

# 오류율 
비율(litellm_requests_total_failed[5m]) 

# 키당 남은 예산 
litellm_remaining_requests 

# 게이트웨이 오버헤드 히스토그램 
histogram_Quantile(0.95, litellm_overhead_latency_ms_bucket) 
``ck" "footer-cta-legacy" "HTStack" >}}** — 중국 본토에서 지연 시간이 짧은 홍콩 VPS입니다. 이는 dibi8.com을 호스팅하는 동일한 IDC이며 프로덕션에서 전투 테스트를 거쳤습니다.*제휴 링크 — 추가 비용이 들지 않으며 dibi8.com을 계속 운영하는 데 도움이 됩니다.*## 출처 및 추가 자료- [LiteLLM GitHub Repository](https://github.com/BerriAI/litellm) — 공식 소스 코드, 별 22,500개 이상 
- [LiteLLM 문서](https://docs.litellm.ai/docs/) — 전체 프록시 및 SDK 참조 
- [LiteLLM Docker 빠른 시작](https://docs.litellm.ai/docs/proxy/docker_quick_start) — 공식 Docker 설정 가이드 
- [LiteLLM 구성 참조](https://docs.litellm.ai/docs/proxy/configs) — 모든 config.yaml 옵션 
- [LiteLLM Helm 배포](https://docs.litellm.ai/docs/proxy/deploy) — Kubernetes 및 Helm 차트 
- [LiteLLM 관리 UI 문서](https://docs.litellm.ai/docs/proxy/ui) — 가상 키 및 팀 관리 
- [LiteLLM 캐싱 가이드](https://docs.litellm.ai/docs/caching/all_caches) — Redis, 의미 체계 및 디스크 캐싱 
- [Portkey vs LiteLLM 비교](https://portkey.ai/lp/portkey-vs-litellm) — 공급업체 비교 페이지 
- [OpenRouter 문서](https://openrouter.ai/docs) — 대체 게이트웨이 참조 
- [Helicone 문서](https://docs.helicone.ai) — 관찰 가능성에 초점을 맞춘 대안

LiteLLM 작동 방식 **요청 흐름: **1. 애플리케이션이 http://litellm-proxy: 4000/v1/chat/completions에 OpenAI 형식의 요청을 보냅니다. #

설치 및 설정### 전제 조건- Docker 24+ 및 Docker Compose v2 #

공식 docker-compose.yml 다운로드 #

환경 파일 생성 #

litellm_config.yaml #

litellm_config.yaml #

임베딩 모델 #

자동 대체 #

Redis 캐싱 #

관측성 콜백 #

Ad```` #

모델별 요청률 #

대안과의 비교| Feature | LiteLLM | Portkey | OpenRouter | Helicone | #

한계 / 정직한 평가LiteLLM````배쉬 #

“프론트엔드 팀"을 위한 가상 키를 생성합니다 #

응답: #

{ #

“키”: “sk-litellm-abc123…”, #

“만료”: null, #

“max_budget”: 500.00, #

“모델”: [“gpt-4o”, “gemini-flash”] #

} #

🔗 관련 리소스

💬 댓글 토론

LiteLLM 작동 방식

요청 흐름: 1. 애플리케이션이 `http://litellm-proxy: 4000/v1/chat/completions`에 OpenAI 형식의 요청을 보냅니다. #