lang: vi
slug: litellm
title: ‘LiteLLM: 22.500 Sao’
description: ‘LiteLLM (litellm) là một cổng AI nguồn mở cung cấp một API duy nhất cho hơn 100 LLM. Tương thích với OpenAI, Anthropic, Ollama, Cohere, Gemini, Bedrock. Bao gồm việc triển khai Docker, khóa ảo, cân bằng tải, bộ nhớ đệm và tăng cường sản xuất.’
tags: [“open-source”]
date: 2026-05-19 00:00:00+08:00
lastmod: 2026-05-19 00:00:00+08:00
tech_stack: []
application_domain: Llm Frameworks
source_version: ’'
licensing_model: Open Source
license_type: MIT
file_size: ’'
file_md5: ’'
download_url: ’'
backup_url: ’'
github_repo: ‘https://github.com/BerriAI/litellm'
last_maintained: ‘2026-05-19’
draft: false
categories: [’llm-frameworks’]
aliases:- /posts/litellm/
/posts/litellm-unified-api-tutorial/
câu hỏi thường gặp:
q: ’ LiteLLM là gì và nó giải quyết được vấn đề gì?’
a: ‘LiteLLM là một cổng AI nguồn mở và SDK Python cung cấp một điểm cuối API tương thích với OpenAI cho các yêu cầu proxy tới hơn 100 nhà cung cấp LLM như OpenAI, Anthropic, Azure, Google Vertex AI, AWS Bedrock, Cohere và Ollama. Nó loại bỏ thuế hoạt động trong việc duy trì các SDK riêng biệt, logic thử lại và bảng thông tin thanh toán bằng cách thêm dự phòng tự động, cân bằng tải, khóa ảo và theo dõi chi phí thông qua một tệp config.yaml duy nhất.’
q: ‘Tôi có thể sử dụng LiteLLM với mã OpenAI SDK hiện tại của mình không?’
a: ‘Có, bạn chỉ thay đổi hai dòng: đặt base_url thành proxy LiteLLM của bạn (ví dụ: http://localhost:4000) và api_key thành khóa ảo. Tất cả mã SDK OpenAI khác vẫn giữ nguyên, đó là lý do chính khiến các nhóm áp dụng LiteLLM.’
q: ‘LiteLLM yêu cầu cơ sở dữ liệu gì để sản xuất?’
a: ‘PostgreSQL 14+ là cần thiết cho các tính năng sản xuất bao gồm khóa ảo, theo dõi chi tiêu và quản lý nhóm. Proxy có thể chạy mà không có cơ sở dữ liệu để định tuyến chuyển tiếp cơ bản nhưng bạn sẽ mất ngân sách, quản lý khóa và Giao diện người dùng quản trị.’
q: ‘Tính năng dự phòng tự động của LiteLLM’ hoạt động như thế nào?’
a: ‘Bạn xác định chuỗi dự phòng trong config.yaml. Nếu một mô hình trả về 429, 500 hoặc hết thời gian chờ, LiteLLM sẽ thử lại yêu cầu một cách minh bạch đối với mô hình tiếp theo trong chuỗi trong cùng một yêu cầu của khách hàng, do đó, khách hàng sẽ thấy một phản hồi duy nhất và quá trình chuyển đổi dự phòng sẽ tự động diễn ra (trong thực tế là dưới 500 mili giây).’
q: ‘LiteLLM so sánh với OpenRouter như thế nào?’
a: ‘LiteLLM là cổng nguồn mở tự lưu trữ không có đánh dấu và kiểm soát dữ liệu đầy đủ, trong khi OpenRouter là API đa mô hình được quản lý tính phí 5,5% khi mua tín dụng nhưng không yêu cầu công việc về cơ sở hạ tầng. Đối với các nhóm có mức chi tiêu LLM trên 5 nghìn đô la/tháng và năng lực DevOps, LiteLLM sẽ rẻ hơn về lâu dài; để tạo mẫu nhanh, OpenRouter triển khai nhanh hơn.’
featureImage: /images/articles/litellm-별-22500개.png
—{{< thông tin tài nguyên >}}
## Giới thiệuBạn đang chạy Claude để suy luận, GPT-4o để mã hóa và Gemini Flash để phân loại giá rẻ. Mỗi nhà cung cấp có SDK riêng, logic thử lại riêng, tiêu đề giới hạn tỷ lệ riêng và trang tổng quan thanh toán riêng. Khi API của Anthropic gặp sự cố vào lúc 2 giờ sáng, dịch vụ của bạn sẽ đánh thức ai đó. Khi hóa đơn OpenAI tăng đột biến 40% mỗi tuần, không ai biết nhóm nào đã gây ra điều đó.Đây là thuế hoạt động của nhiều LLM — và nó kết hợp với mọi mô hình mới mà bạn thêm vào. LiteLLM loại bỏ khoản thuế đó. Đây là một cổng AI nguồn mở hiển thị một điểm cuối API tương thích với OpenAI, ủy quyền các yêu cầu tới hơn 100 nhà cung cấp LLM với tính năng dự phòng tự động, cân bằng tải, khóa ảo và theo dõi chi phí được tích hợp sẵn.Với 22.500+ sao GitHub và 1.500+ cộng tác viên, LiteLLM đã trở thành lựa chọn mặc định cho các nhóm muốn kiểm soát cấp cổng mà không cần sự ràng buộc của nhà cung cấp. Hướng dẫn LiteLLM này hướng dẫn thiết lập cổng llm hoàn chỉnh — từ triển khai LiteLLM Docker đến quản lý khóa ảo đến giám sát sản xuất Litellm — trong vòng chưa đầy 30 phút.—## LiteLLM là gì?LiteLLM là cổng proxy LLM mã nguồn mở và SDK Python cung cấp giao diện hợp nhất để gọi hơn 100 API LLM — OpenAI, Anthropic, Azure, Google Vertex AI, AWS Bedrock, Cohere, Ollama, v.v. — sử dụng một định dạng API tương thích với OpenAI.Hai chế độ tồn tại:- SDK Python — nhập Litellm; hoàn thành (...) trong mã của bạn, nhà cung cấp bất khả tri
Máy chủ proxy — một cổng HTTP tự lưu trữ tại :4000 mà bất kỳ ứng dụng khách OpenAI SDK nào cũng có thể trỏ tớiChế độ proxy là chế độ mà hầu hết các nhóm sản xuất sử dụng. Nó bổ sung các khóa ảo, quản lý nhóm, kiểm soát ngân sách, giới hạn tốc độ, bộ nhớ đệm và khả năng quan sát — tất cả đều được định cấu hình thông qua một tệp config.yaml duy nhất.—## LiteLLM hoạt động như thế nào
**Luồng yêu cầu:**1. Ứng dụng của bạn gửi yêu cầu có định dạng OpenAI tới http://litellm-proxy:4000/v1/chat/completions
LiteLLM xác thực khóa ảo, kiểm tra giới hạn ngân sách và tỷ lệ của nhóm
Bộ định tuyến chọn cách triển khai mô hình tốt nhất dựa trên chiến lược đã định cấu hình (dựa trên độ trễ, dựa trên chi phí hoặc cân bằng tải đơn giản)
Nếu nhà cung cấp chính trả về 429/5xx, dự phòng sẽ tự động kích hoạt trong vòng một phần nghìn giây
Phản hồi sẽ quay trở lại định dạng OpenAI, bất kể nhà cung cấp nào xử lý nó
Chi tiêu, độ trễ và số lượng mã thông báo được ghi vào PostgreSQL; Số liệu Prometheus được phát raThành phần cốt lõi:| Component | Purpose | External Dependency |
|———–|———|——————-|
| Proxy Server | HTTP API, routing, auth | None (Python/FastAPI) |
| PostgreSQL | Virtual keys, spend logs, team data | Required for production |
| Redis | Rate-limit coordination, caching | Recommended |
| Admin UI | Web dashboard for keys/models | Built-in |—## Cài đặt & Thiết lập### Điều kiện tiên quyết- Docker 24+ và Docker Compose v2
thành công_callback: [“prometheus”]
failed_callback: [“prometheus”]
à
$LITELLM_MASTER_KEY" \
-H "Loại nội dung: ứng dụng/json" \
-d '{
"kiểu máy": "gpt-4o",
"tin nhắn": [{"vai trò": "người dùng", "nội dung": " LiteLLM là gì?"}]
}'# Thử nghiệm nhúng
cuộn tròn http://localhost:4000/v1/embeddings \
-H "Ủy quyền: Người mang $LITELLM_MASTER_KEY" \
-H "Loại nội dung: ứng dụng/json" \
-d '{
"model": "nhúng văn bản",
"input": ["LiteLLM là cổng AI"]
}'
```---## Tích hợp với các công cụ phổ biến### SDK OpenAI (Python)``` con trăn
từ openai nhập OpenAIkhách hàng = OpenAI(
base_url="http://localhost:4000",
api_key="sk-your-litellm-virtual-key"
)phản hồi = client.chat.completions.create(
mô hình="gpt-4o",
messages=[{"role": "user", "content": "Giải thích cân bằng tải"}]
)
print(response.choices[0].message.content)
```###LangChain``` con trăn
từ langchain_openai nhập ChatOpenAIllm = Trò chuyệnOpenAI(
model="claude-sonnet",
openai_api_key="sk-your-virtual-key",
openai_api_base="http://localhost:4000"
)result = llm.invoke("Các loại cổng LLM là gì?")
in (kết quả.content)
```### SDK nhân loại (Khả năng tương thích gốc)``` con trăn
từ nhập khẩu nhân loạiclient = Nhân loại(
base_url="http://localhost:4000/anthropic",
api_key="sk-your-virtual-key"
)phản hồi = client.messages.create(
model="claude-sonnet",
max_tokens=1024,
messages=[{"role": "user", "content": "So sánh LiteLLM với OpenRouter"}]
)
print(response.content[0].text)
```### Ollama (Mô hình địa phương)```
yam
l
# Ad```
bas
h
# Kéo và bắt đầu tất cả các dịch vụ
docker soạn thảo -d
# Xác minh dịch vụ hoạt động tốt
docker soạn ps
# Kiểm tra nhật ký proxy
docker soạn nhật ký -f litellm
```_thông
tin:
chế độ: trò chuyện
`````` bash
# Kiểm tra mô hình cục bộ thông qua LiteLLM
cuộn tròn http://localhost:4000/v1/chat/completions \
-H "Ủy quyền: Người mang $LITELLM_MASTER_KEY" \
-H "Loại nội dung: ứng dụng/json" \
-d '{
"model": "local-llama",
"messages": [{"role": "user", "content": "Xin chào người mẫu địa phương"}]
}'
```### Kết hợp```
yam
l
model_list:
- model_n```
bas
h
# Kiểm tra hoàn thành trò chuyện
cuộn tròn http://localhost:4000/v1/chat/completions \
-H "Ủy quyền: Người mang $LITELLM_MASTER_KEY" \
-H "Loại nội dung: ứng dụng/json" \
-d '{
"kiểu máy": "gpt-4o",
"tin nhắn": [{"vai trò": "người dùng", "nội dung": " LiteLLM là gì?"}]
}'
# Thử nghiệm nhúng
cuộn tròn http://localhost:4000/v1/embeddings \
-H "Ủy quyền: Người mang $LITELLM_MASTER_KEY" \
-H "Loại nội dung: ứng dụng/json" \
-d '{
"model": "nhúng văn bản",
"input": ["LiteLLM là cổng AI"]
}'
``` và các khách hàng API bên ngoài:| Metric | Before LiteLLM | After LiteLLM |
|--------|---------------|---------------|
| Provider SDKs maintained | 4 (OpenAI, Anthropic, Gemini, Ollama) | 1 (OpenAI-compatible) |
| API key management | Shared keys in env vars | Virtual keys per team/customer |
| Cost attribution | Manual CSV export | Per-key spend in real-time UI |
| Outage response | Human-paged, 15-min MTTR | Automatic fallback, <500ms |
| Monthly LLM spend | $8,500 (unoptimized) | $6,200 (-27% with routing) |### Điểm chuẩn hiệu suất (Tự lưu trữ, 4 vCPU / 8 GB RAM)``` con trăn
từ openai nhập OpenAI
khách hàng = OpenAI(
base_url="http://localhost:4000",
api_key="sk-your-litellm-virtual-key"
)
phản hồi = client.chat.completions.create(
mô hình="gpt-4o",
messages=[{"role": "user", "content": "Giải thích cân bằng tải"}]
)
print(response.choices[0].message.content)
``` — | 3ms | 8 mili giây |**Lưu ý:** Chi phí cổng không bao gồm thời gian phản hồi API LLM. LiteLLM bổ sung một hình phạt nhỏ về độ trễ có thể dự đoán được. Đối với các luồng mà mỗi mili giây đều quan trọng, hãy triển khai proxy trong cùng VPC với ứng dụng của bạn.---## Cách sử dụng nâng cao / Tăng cường sản xuất### Phím ảo và quản lý nhómPhím ảo là``` python
từ langchain_openai nhập ChatOpenAI
llm = Trò chuyệnOpenAI(
model="claude-sonnet",
openai_api_key="sk-your-virtual-key",
openai_api_base="http://localhost:4000"
)
result = llm.invoke("Các loại cổng LLM là gì?")
in (kết quả.content)
```ocalho
s
t
:4000/key/tạo \
-H "Ủy quyền: Người mang $LITELLM_MASTER_KEY" \
-H "Loại nội dung: ứng dụng/json" \
-d '{
"key_alias": "frontend-team-key",
"team_id": "nhóm giao diện người dùng",
"model": ["gpt-4o", "gemini-flash"],
"ngân sách tối đa": 500,00,
"ngân sách_duration": "30d",
"rpm_l```
pytho
n
từ nhập khẩu nhân loại
client = Nhân loại(
base_url="http://localhost:4000/anthropic",
api_key="sk-your-virtual-key"
)
phản hồi = client.messages.create(
model="claude-sonnet",
max_tokens=1024,
messages=[{"role": "user", "content": "So sánh LiteLLM với OpenRouter"}]
)
print(response.content[0].text)
```vid
e
r
_budget_config:
mở:
ngân sách hàng tháng: 5000,00
nhân loại:
ngân sách hàng tháng: 3000,00
Song Tử:
ngân sách hàng tháng: 1000,00
```### Định tuyến dựa trên độ trễ```
yam
l
bộ định tuyến_settings:
định tuyến_chiến lược: định tuyến dựa trên độ trễ
định tuyến_strategy_args:
ttl: 60
được phép_fails: 3
thời gian hồi chiêu: 60
num_retries: 2
thời gian chờ: 90
thử lại_af```
yam
l
# Thêm vào litellm_config.yaml
model_list:
- model_name: local-llama
litellm_params:
mô hình: ollama/llama3.3
api_base: http://localhost:11434
model_info:
chế độ: trò chuyện
``` cảm ứng
# Chạy phía sau Nginx hoặc AWS ALB khi chấm dứt TLS# Vô hiệu hóa ghi nhật ký dài dòng
litellm_settings:
set_verbose: sai# Mã hóa khóa ở phần còn lại
litellm_settings:
key_genratio```
bas
h
# Kiểm tra mô hình cục bộ thông qua LiteLLM
cuộn tròn http://localhost:4000/v1/chat/completions \
-H "Ủy quyền: Người mang $LITELLM_MASTER_KEY" \
-H "Loại nội dung: ứng dụng/json" \
-d '{
"model": "local-llama",
"messages": [{"role": "user", "content": "Xin chào người mẫu địa phương"}]
}'
–set bản saoCount=3 \
–set ingress.enabled=true \
–set ingress.hosts[0].host=litellm.yourdomain.com \
–set env.LITELLM_MASTER_KEY=“sk-$(openssl rand -hex 16)” \
–set env.DATABASE_URL=“postgresql://user:pass@neon-host/litellm”
### Giám sát bằng Prometheus + Grafana
yam
l
tỷ lệ(litellm_request_total_requests[5m])#tỷ lệ lỗi
tỷ lệ(litellm_requests_total_failed[5m])# Vẫn``` trăn
từ openai nhập OpenAI
client = OpenAI(base_url=“http://localhost:4000”, api_key=“sk-virtual-key”)
phản hồi = client.chat.completions.create(
model=“cohere-lệnh”,
messages=[{“role”: “user”, “content”: “Tóm tắt điều này”}]
)
a
_dashboard.json) cho các bảng dựng sẵn hiển thị yêu cầu/giây, mức sử dụng mã thông báo, chi phí cho mỗi nhóm và phần trăm độ trễ.---## So sánh với các lựa chọn thay thế| Feature | LiteLLM | Portkey | OpenRouter | Helicone |
|---------|---------|---------|------------|----------|
| **License** | MIT (Open Source) | Closed core + Open SDK | Closed (Hosted) | Closed (Hosted + Self-host) |
| **Deployment** | Self-hosted / Docker / K8s | Cloud + Hybrid | Hosted only | Cloud + Self-host |
| **Models supported** | 100+ providers | 200+ | 300+ | Provider-dependent |
| **Self-hosting cost** | $200–800/mo infra | N/A (managed) | N/A (hosted) | $0–100/mo (self-host) |
| **Virtual keys / budgets** | Per-key + per-team | Per-key + per-user | Basic per-key | Per-org |
| **Automatic fallback** | Configurable chains | Circuit breakers | Provider routing | Limited |
| **Semantic caching** | Redis + Qdrant | Built-in | No | No |
| **Observability** | Prometheus + external | Built-in deep traces | Basic usage stats | Primary focus |
| **Compliance** | DIY (SOC2 via infra) | SOC 2, ISO 27001, HIPAA | Partial | SOC 2 |
| **Best for** | Full control, zero lock-in | Enterprise governance | Quick model access | Observability-first |**Khi nào nên chọn cái gì:**- **LiteLLM** — Bạn có năng lực DevOps, không muốn có sự tham gia của nhà cung cấp nào và cần có toàn quyền kiểm soát việc định tuyến, bộ nhớ đệm và nơi lưu trữ dữ liệu.
- **Portkey** — Bạn cần quản trị doanh nghiệp (SOC 2, nhật ký kiểm tra), giao diện người dùng quản lý nhanh chóng và sẵn sàng trả giá SaaS.
- **OpenRouter** — Bạn muốn truy cập ngay vào hơn 300 mô hình mà không cần phải làm gì về cơ sở hạ tầng và có thể chấp nhận phí tín dụng 5,5%.
- **Helicone** — Khả năng quan sát là mối quan tâm hàng đầu của bạn; bạn cần theo dõi chi tiết và phân bổ chi phí trên các cuộc gọi LLM.---## Hạn chế / Đánh giá trung thựcLiteLLM```
bas
h
# Tạo key ảo cho "frontend-team"
Curl -X POST http://localhost:4000/key/generate \
-H "Ủy quyền: Người mang $LITELLM_MASTER_KEY" \
-H "Loại nội dung: ứng dụng/json" \
-d '{
"key_alias": "frontend-team-key",
"team_id": "nhóm giao diện người dùng",
"model": ["gpt-4o", "gemini-flash"],
"ngân sách tối đa": 500,00,
"ngân sách_duration": "30d",
"rpm_limit": 100,
"tpm_limit": 50000,
"siêu dữ liệu": {
"service": "customer-chat-widget",
"env": "sản xuất"
}
}'
#Phản hồi:
# {
# "khóa": "sk-litellm-abc123...",
# "hết hạn": không,
# "ngân sách tối đa": 500,00,
# "model": ["gpt-4o", "gemini-flash"]
# }
``` kiến trúc khả năng chuyển đổi dự phòng đa vùng của riêng bạn bằng DNS hoặc bộ cân bằng tải toàn cầu. LiteLLM theo mặc định là proxy một vùng.5. **SSO doanh nghiệp tốn tiền** — SAML/SSO, nhật ký kiểm tra và các biện pháp bảo vệ nâng cao là một phần của LiteLLM Enterprise. Phiên bản OSS chỉ xử lý các khóa ảo và ngân sách cơ bản.---## Câu hỏi thường gặp**Hỏi: LiteLLM so sánh với OpenRouter như thế nào?**LiteLLM là một cổng nguồn mở tự lưu trữ; OpenRouter là API đa mô hình được quản lý. LiteLLM cung cấp cho bạn không đánh dấu và toàn quyền kiểm soát dữ liệu của bạn. OpenRouter tính phí 5,5% khi mua tín dụng nhưng không yêu cầu công việc về cơ sở hạ tầng. Đối với các nhóm có mức chi tiêu LLM >5 nghìn đô la/tháng và năng lực DevOps, LiteLLM là ch```
yam
l
chung_settings:
nhà cung cấp_budget_config:
mở:
ngân sách hàng tháng: 5000,00
nhân loại:
ngân sách hàng tháng: 3000,00
Song Tử:
ngân sách hàng tháng: 1000,00
```r
o
x
y
và `api_key` thành một khóa ảo. Mọi thứ khác vẫn như cũ. Đây là lý do chính khiến các nhóm áp dụng LiteLLM; không thay đổi mã ngoài cấu hình.**Q: LiteLLM yêu cầu cơ sở dữ liệu nào?**Pos```
yam
l
bộ định tuyến_settings:
định tuyến_chiến lược: định tuyến dựa trên độ trễ
định tuyến_strategy_args:
ttl: 60
được phép_fails: 3
thời gian hồi chiêu: 60
num_retries: 2
thời gian chờ: 90
thử lại_sau: 5
```q
u
ản
lý và giao diện người dùng quản trị.**Hỏi: Cơ chế dự phòng hoạt động như thế nào?**Bạn xác định chuỗi dự phòng trong `config.yaml`. Nếu một mô hình trả về 429, 500 hoặc hết thời gian chờ, LiteLLM sẽ thử lại yêu cầu đối với mo```
yam
l
tiếp theo
# config.yaml được tăng cường bảo mật
chung_settings:
master_key: os.environ/LITELLM_MASTER_KEY
cơ sở dữ liệu_url: os.environ/DATABASE_URL
# Buộc HTTPS vào sản xuất
# Chạy phía sau Nginx hoặc AWS ALB khi chấm dứt TLS
# Vô hiệu hóa ghi nhật ký dài dòng
litellm_settings:
set_verbose: sai
# Mã hóa khóa ở phần còn lại
litellm_settings:
key_Generation_algorithm: "rsa"
allow_user_auth: sai
```H
P
A
để tự động mở rộng quy mô trong Kubernetes.**Q: Làm cách nào để giám sát LiteLLM trong quá trình sản xuất?**Bật lệnh gọi lại Prometheus trong `config.yaml`, trích xuất điểm cuối `/metrics` và nhập bảng điều khiển Grafana chính thức. Đặt cảnh báo về `litellm_requests_total_failed` (tỷ lệ lỗi) và `litellm_remaining_requests` (ngân sách cạn kiệt). Gửi `success_callback` tới Langfuse để theo dõi theo yêu cầu.---## Phần kết luậnLiteLLM giải quyết vấn đề thực tế lộn xộn
# Thêm repo LiteLLM Helm
helm kéo oci://docker.litellm.ai/berriai/litellm-helm
# Cài đặt với các giá trị tùy chỉnh
helm cài đặt litellm-gateway ./litellm-helm \
--namespace Litellm \
--tạo-không gian tên \
--set bản saoCount=3 \
--set ingress.enabled=true \
--set ingress.hosts[0].host=litellm.yourdomain.com \
--set env.LITELLM_MASTER_KEY="sk-$(openssl rand -hex 16)" \
--set env.DATABASE_URL="postgresql://user:pass@neon-host/litellm"
``` thiết lập ở trên, thêm bộ nhớ đệm Redis, sau đó mở rộng quy mô sang Kubernetes bằng Helm khi lưu lượng truy cập tăng lên.**Mục hành động:**1. Sao chép [repo LiteLLM GitHub](https://github.com/BerriAI/litellm) và chạy phần khởi động nhanh Docker Compose
2. Tạo khóa ảo cho mỗi nhóm và đặt ngân sách cho mỗi khóa
3. Kích hoạt bộ nhớ đệm Redis và giám sát Prometheus
4. Tham gia [cộng đồng LiteLLM Discord](https://discord.gg/wupm9ySymB) để được hỗ trợ và thảo luận về tính năng*Một số liên kết trong bài viết này là liên kết liên kết. Chúng tôi có thể
# Thêm vào config.yaml
litellm_settings:
thành công_callback: ["prometheus"]
failed_callback: ["prometheus"]
```文含联盟营销链接。通过链接购买主机服务 我们可能获得佣金——这不会影响价格或推荐。*
---
## Lưu trữ và cơ sở hạ tầng được đề xuấtTrước khi triển khai bất kỳ công cụ nào ở trên vào sản xuất, bạn sẽ cần s```
promq
l
# Tỉ lệ yêu cầu theo model
tỷ lệ(litellm_request_total_requests[5m])
#tỷ lệ lỗi
tỷ lệ(litellm_requests_total_failed[5m])
# Ngân sách còn lại cho mỗi khóa
litellm_remaining_requests
# Biểu đồ chi phí cổng
histogram_quantile(0.95, litellm_overhead_latency_ms_bucket)
```c
k
" "footer-cta-legacy" "HTStack" >}}** — VPS Hồng Kông có quyền truy cập có độ trễ thấp từ Trung Quốc đại lục. Đây cũng chính là IDC lưu trữ dibi8.com — đã được thử nghiệm trong sản xuất.*Các liên kết liên kết — chúng không làm bạn mất thêm phí và giúp dibi8.com tiếp tục hoạt động.*## Nguồn & Đọc thêm- [Kho lưu trữ LiteLLM GitHub](https://github.com/BerriAI/litellm) — Mã nguồn chính thức, hơn 22.500 sao
- [Tài liệu về LiteLLM](https://docs.litellm.ai/docs/) — Tham chiếu SDK và proxy hoàn chỉnh
- [Bắt đầu nhanh LiteLLM Docker](https://docs.litellm.ai/docs/proxy/docker_quick_start) — Hướng dẫn thiết lập Docker chính thức
- [Tham khảo cấu hình LiteLLM](https://docs.litellm.ai/docs/proxy/configs) — Tất cả các tùy chọn config.yaml
- [Triển khai LiteLLM Helm](https://docs.litellm.ai/docs/proxy/deploy) — Biểu đồ Kubernetes và Helm
- [Tài liệu giao diện người dùng quản trị LiteLLM](https://docs.litellm.ai/docs/proxy/ui) — Quản lý nhóm và khóa ảo
- [Hướng dẫn bộ nhớ đệm LiteLLM](https://docs.litellm.ai/docs/caching/all_caches) — Redis, ngữ nghĩa và bộ nhớ đệm đĩa
- [So sánh Portkey và LiteLLM](https://portkey.ai/lp/portkey-vs-litellm) — Trang so sánh nhà cung cấp
- [Tài liệu về OpenRouter](https://openrouter.ai/docs) — Tham khảo cổng thay thế
- [Tài liệu về Helicone](https://docs.helicone.ai) — Giải pháp thay thế tập trung vào khả năng quan sát
💬 Bình luận & Thảo luận