Portkey AI Gateway 2026: Cổng LLM Quản lý 200+ Mô hình với Khả năng Quan sát — Thiết lập Production

  • ⭐ 14000
  • MIT
  • Cập nhật 2026-05-20

{{< resource-info >}}

Quản lý nhiều nhà cung cấp Mô hình Ngôn ngữ Lớn (LLM) trong môi trường production là một cơn ác mộng. Mỗi nhà cung cấp có định dạng API, lược đồ xác thực, giới hạn tốc độ và chế độ lỗi riêng. Mã ứng dụng của bạn trở nên lộn xộn với logic điều kiện cho OpenAI, Anthropic, Google, Azure và hàng chục nhà cung cấp mới xuất hiện mỗi tháng. Hãy đến với Portkey AI Gateway — cổng LLM mã nguồn mở thống nhất 200+ mô hình phía sau một API duy nhất, với khả năng cân bằng tải, định tuyến dự phòng, theo dõi chi tiêu, lưu đệm yêu cầu và khả năng quan sát cấp doanh nghiệp.

Trong hướng dẫn toàn diện này, chúng tôi sẽ hướng dẫn thiết lập Portkey AI Gateway sẵn sàng cho production. Bạn sẽ học cách định tuyến yêu cầu qua nhiều nhà cung cấp, triển khai dự phòng thông minh, giám sát chi tiêu, lưu đệm phản hồi và thực thi các rào chắn bảo vệ — tất cả trong khi giữ mã ứng dụng của bạn sạch sẽ và độc lập với nhà cung cấp.

Bắt đầu Nhanh: Portkey AI Gateway là mã nguồn mở theo giấy phép MIT với hơn 14.000 sao GitHub. Bạn có thể tự lưu trữ hoặc sử dụng tùy chọn đám mây được quản lý. Sẵn sàng chưa? Hãy bắt đầu.


Portkey AI Gateway là gì? #

Portkey AI Gateway là một cổng AI mã nguồn mở nằm giữa ứng dụng và các nhà cung cấp LLM. Hãy nghĩ về nó như một proxy ngược thông minh được thiết kế đặc biệt cho khối lượng công việc AI. Nó chuẩn hóa bề mặt API trên 200+ mô hình từ các nhà cung cấp như OpenAI, Anthropic, Google, Azure, Cohere, Mistral và nhiều hơn nữa, để mã của bạn chỉ cần sử dụng một ngôn ngữ.

Cổng xử lý các phần khó khăn của việc triển khai LLM production:

  • API Thống nhất: Một điểm cuối cho 200+ mô hình từ 20+ nhà cung cấp
  • Cân bằng tải: Phân phối lưu lượng qua nhiều khóa API hoặc nhà cung cấp
  • Định tuyến dự phòng: Tự động chuyển đổi khi nhà cung cấp gặp sự cố
  • Lưu đệm yêu cầu: Lưu các yêu cầu giống hệt nhau để giảm chi phí và độ trễ
  • Theo dõi chi tiêu: Khả năng hiển thị thởi gian thực vào chi tiêu AI của bạn
  • Quản lý Prompt: Quản lý và phien bản hóa prompt độc lập với mã
  • Rào chắn bảo vệ: Thực thi các chính sách nội dung và kiểm tra an toàn
  • Khả năng quan sát: Ghi log yêu cầu/phản hồi đầy đủ, số liệu và theo dõi

Dù bạn là startup chạy một mô hình hay doanh nghiệp quản lý hàng chục nhà cung cấp, Portkey cung cấp lớp hạ tầng bạn cần để đưa ứng dụng AI vào production.


Tổng quan Kiến trúc và Tùy chọn Triển khai #

Portkey AI Gateway cung cấp hai chế độ triển khai: Cloud (được quản lý)Tự lưu trữ. Kiến trúc được xây dựng xung quanh máy chủ cổng nhẹ, hiệu suất cao chặn các yêu cầu LLM, áp dụng các chính sách đã cấu hình và định tuyến chúng đến nhà cung cấp phù hợp.

Triển khai Cloud #

Cách nhanh nhất để bắt đầu là sử dụng dịch vụ cloud được quản lý của Portkey. Đăng ký tại Portkey.ai, tạo khóa API và bạn đã sẵn sàng định tuyến yêu cầu. Tùy chọn cloud xử lý mở rộng, cập nhật và bảo trì hạ tầng cho bạn.

Triển khai Tự lưu trữ #

Đối với các tổ chức có yêu cầu nghiêm ngặt về lưu trữ dữ liệu hoặc bảo mật, tự lưu trữ là cách đi tốt nhất. Cổng có thể được triển khai qua Docker, Kubernetes hoặc như một ứng dụng Node.js độc lập.

Triển khai với Docker:

# Sao chép repository
git clone https://github.com/Portkey-AI/gateway.git
cd gateway

# Chạy với Docker
docker run -p 8787:8787 -e PORTKEY_GATEWAY_API_KEY=your-gateway-key portkeyai/gateway:latest

Triển khai với Docker Compose:

version: '3.8'
services:
  portkey-gateway:
    image: portkeyai/gateway:latest
    ports:
      - "8787:8787"
    environment:
      - PORTKEY_GATEWAY_API_KEY=${GATEWAY_API_KEY}
      - CACHE_ENABLED=true
      - CACHE_TTL=3600
    volumes:
      - ./config:/app/config
    restart: unless-stopped

Triển khai lên Kubernetes:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: portkey-gateway
spec:
  replicas: 3
  selector:
    matchLabels:
      app: portkey-gateway
  template:
    metadata:
      labels:
        app: portkey-gateway
    spec:
      containers:
      - name: gateway
        image: portkeyai/gateway:latest
        ports:
        - containerPort: 8787
        env:
        - name: PORTKEY_GATEWAY_API_KEY
          valueFrom:
            secretKeyRef:
              name: portkey-secrets
              key: gateway-api-key
---
apiVersion: v1
kind: Service
metadata:
  name: portkey-gateway-service
spec:
  selector:
    app: portkey-gateway
  ports:
  - port: 80
    targetPort: 8787
  type: ClusterIP

Đối với triển khai production, chúng tôi khuyến nghị Kubernetes với ít nhất 3 bản sao để đảm bảo tính sẵn sàng cao. Nếu bạn cần một nền tảng đám mây đáng tin cậy để lưu trữ cluster, DigitalOcean Kubernetes cung cấp dịch vụ Kubernetes được quản lý thân thiện với nhà phát triển, kết hợp hoàn hảo với Portkey.


Cấu hình Nhà cung cấp và Khóa API #

Trước khi định tuyến yêu cầu, bạn cần cấu hình các nhà cung cấp LLM của mình. Portkey sử dụng hệ thống cấu hình nhà cung cấp để lưu trữ an toàn các khóa API và ánh xạ chúng đến các phiên bản nhà cung cấp đã đặt tên.

Thiết lập Nhà cung cấp #

Tạo tệp cấu hình providers.yaml:

providers:
  openai-primary:
    type: openai
    api_key: ${OPENAI_API_KEY}
    organization: ${OPENAI_ORG_ID}
    
  anthropic-primary:
    type: anthropic
    api_key: ${ANTHROPIC_API_KEY}
    
  azure-gpt4:
    type: azure-openai
    api_key: ${AZURE_API_KEY}
    resource_name: ${AZURE_RESOURCE_NAME}
    deployment_id: gpt-4
    api_version: 2025-12-01
    
  google-gemini:
    type: google
    api_key: ${GOOGLE_API_KEY}
    
  mistral-local:
    type: mistral
    api_key: ${MISTRAL_API_KEY}
    base_url: http://mistral-service:8000/v1

Tải Cấu hình #

# Đặt biến môi trường
export OPENAI_API_KEY="sk-..."
export ANTHROPIC_API_KEY="sk-ant-..."
export GATEWAY_API_KEY="pk-..."

# Khởi động cổng với cấu hình
docker run -p 8787:8787 \
  -e PORTKEY_GATEWAY_API_KEY=$GATEWAY_API_KEY \
  -v $(pwd)/providers.yaml:/app/config/providers.yaml \
  portkeyai/gateway:latest

API Thống nhất: Một Điểm cuối cho 200+ Mô hình #

Giá trị cốt lõi của Portkey là API thống nhất của nó. Bất kể bạn đang gọi mô hình hay nhà cung cấp nào, định dạng yêu cầu vẫn giữ nguyên. Cổng xử lý việc dịch giữa định dạng Portkey chuẩn hóa và định dạng gốc của mỗi nhà cung cấp.

Yêu cầu Hoàn thành Trò chuyện Cơ bản #

curl -X POST http://localhost:8787/v1/chat/completions \
  -H "Authorization: Bearer ${GATEWAY_API_KEY}" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o",
    "provider": "openai-primary",
    "messages": [
      {"role": "system", "content": "Bạn là một trợ lý hữu ích."},
      {"role": "user", "content": "Giải thích điện toán lượng tử bằng thuật ngữ đơn giản."}
    ]
  }'

Chuyển đổi Nhà cung cấp Ngay lập tức #

# Yêu cầu giống hệt, nhà cung cấp khác — chỉ cần thay đổi trường model/provider
curl -X POST http://localhost:8787/v1/chat/completions \
  -H "Authorization: Bearer ${GATEWAY_API_KEY}" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-sonnet-4",
    "provider": "anthropic-primary",
    "messages": [
      {"role": "user", "content": "Giải thích điện toán lượng tử bằng thuật ngữ đơn giản."}
    ],
    "max_tokens": 1024
  }'

Ví dụ SDK Python #

from portkey_ai import Portkey

# Khởi tạo client
portkey = Portkey(
    api_key="your-gateway-api-key",
    virtual_key="openai-primary"  # Tham chiếu nhà cung cấp đã cấu hình
)

# Hoàn thành trò chuyện
response = portkey.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "Bạn là một trợ lý hữu ích."},
        {"role": "user", "content": "Viết hàm Python để tính số fibonacci."}
    ]
)
print(response.choices[0].message.content)

Phản hồi Truyền trực tiếp #

import portkey_ai

portkey = portkey_ai.Portkey(api_key="your-gateway-api-key")

stream = portkey.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Viết một bài thơ về AI."}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

Cân bằng Tải và Định tuyến Dự phòng #

Hệ thống AI production không thể chấp nhận sự cố nhà cung cấp. Cân bằng tải và định tuyến dự phòng của Portkey đảm bảo ứng dụng của bạn luôn trực tuyến ngay cả khi nhà cung cấp gặp sự cố.

Cân bằng Tải Vòng tròn #

Phân phối đều lưu lượng qua nhiều khóa API hoặc nhà cung cấp:

# config/load-balance.yaml
strategies:
  gpt4-pool:
    type: load_balance
    providers:
      - provider: openai-primary
        weight: 1
      - provider: azure-gpt4
        weight: 1
      - provider: openai-backup
        weight: 1
# Sử dụng pool cân bằng tải
response = portkey.chat.completions.create(
    model="gpt-4o",
    config="gpt4-pool",  # Tham chiếu chiến lược
    messages=[{"role": "user", "content": "Xin chào!"}]
)

Định tuyến Dự phòng Dựa trên Mức độ ưu tiên #

Xác định chuỗi dự phòng để chuyển đổi dự phòng tự động:

strategies:
  production-fallback:
    type: fallback
    targets:
      - provider: azure-gpt4
        timeout: 10
        retry: 2
      - provider: openai-primary
        timeout: 15
        retry: 1
      - provider: anthropic-primary
        model: claude-sonnet-4
        timeout: 15
      - provider: google-gemini
        model: gemini-2.5-pro
        timeout: 20
# Cổng thử từng mục tiêu theo thứ tự cho đến khi một cái thành công
curl -X POST http://localhost:8787/v1/chat/completions \
  -H "Authorization: Bearer ${GATEWAY_API_KEY}" \
  -H "Content-Type: application/json" \
  -d '{
    "config": "production-fallback",
    "messages": [{"role": "user", "content": "Truy vấn kinh doanh quan trọng"}]
  }'

Định tuyến Có điều kiện Dựa trên Thuộc tính Yêu cầu #

Định tuyến yêu cầu dựa trên nội dung, ngưởi dùng hoặc các thuộc tính yêu cầu khác:

strategies:
  smart-router:
    type: conditional
    rules:
      - condition: "request.messages[0].content.length > 4000"
        target: 
          provider: anthropic-primary
          model: claude-sonnet-4  # Xử lý ngữ cảnh dài tốt hơn
      - condition: "request.user == 'code-assistant'"
        target:
          provider: openai-primary
          model: gpt-4o
      - condition: "default"
        target:
          provider: azure-gpt4
          model: gpt-4o-mini

Lưu đệm Yêu cầu: Giảm Chi phí và Độ trễ #

Các lệnh gọi API LLM đắt đỏ và chậm. Bộ nhớ đệm ngữ nghĩa của Portkey lưu trữ các phản hồi và phục vụ các kết quả được lưu đệm cho các truy vấn tương tự, giảm đáng kể cả chi phí và độ trễ.

Bật Bộ nhớ đệm #

cache:
  enabled: true
  mode: semantic  # hoặc "exact" cho lưu đệm khớp chính xác
  ttl: 3600       # Thờ gian sống của bộ nhớ đệm tính bằng giây
  max_size: 10000 # Số lượng mục được lưu đệm tối đa
  similarity_threshold: 0.95  # Cho lưu đệm ngữ nghĩa
# Lần gọi đầu tiên truy cập nhà cung cấp và lưu đệm kết quả
response1 = portkey.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Kubernetes là gì?"}],
    cache=True
)

# Lần gọi tương tự trả về kết quả được lưu đệm ngay lập tức với chi phí thấp hơn
response2 = portkey.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Giải thích Kubernetes cho tôi"}],
    cache=True
)

Thống kê Bộ nhớ đệm và Làm mất hiệu lực #

# Kiểm tra chỉ số bộ nhớ đệm
curl http://localhost:8787/v1/admin/cache/stats \
  -H "Authorization: Bearer ${GATEWAY_API_KEY}"
# Làm mất hiệu lực các mục bộ nhớ đệm cụ thể
curl -X POST http://localhost:8787/v1/admin/cache/invalidate \
  -H "Authorization: Bearer ${GATEWAY_API_KEY}" \
  -H "Content-Type: application/json" \
  -d '{
    "pattern": "kubernetes",
    "provider": "openai-primary"
  }'

Theo dõi Chi tiêu và Khả năng Quan sát Chi phí #

Hiểu rõ chi tiêu AI của bạn trên các nhà cung cấp, mô hình và ngưởi dùng là rất quan trọng cho việc quản lý ngân sách. Portkey cung cấp khả năng theo dõi chi phí chi tiết ngay từ đầu.

Thiết lập Theo dõi Chi phí #

import portkey_ai

portkey = portkey_ai.Portkey(
    api_key="your-gateway-api-key",
    metadata={
        "user_id": "user-12345",
        "project": "customer-support-bot",
        "environment": "production",
        "team": "ai-platform"
    }
)

response = portkey.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Giúp với đơn hàng của tôi"}]
)

# Truy cập thông tin chi phí từ phản hồi
print(f"Token đầu vào: {response.usage.prompt_tokens}")
print(f"Token đầu ra: {response.usage.completion_tokens}")
print(f"Tổng chi phí: ${response.usage.estimated_cost}")

Truy vấn Phân tích Chi tiêu #

# Nhận báo cáo chi tiêu theo nhà cung cấp
curl "http://localhost:8787/v1/admin/analytics/spend?start_date=2026-05-01&end_date=2026-05-19&group_by=provider" \
  -H "Authorization: Bearer ${GATEWAY_API_KEY}"
# Nhận báo cáo chi tiêu theo ngưởi dùng
curl "http://localhost:8787/v1/admin/analytics/spend?start_date=2026-05-01&end_date=2026-05-19&group_by=user_id" \
  -H "Authorization: Bearer ${GATEWAY_API_KEY}"

Cảnh báo Ngân sách #

alerts:
  daily-budget:
    type: budget
    threshold: 500  # USD
    period: daily
    channels:
      - type: webhook
        url: https://hooks.slack.com/services/YOUR/WEBHOOK/URL
      - type: email
        address: team@company.com
  
  abnormal-spike:
    type: anomaly
    baseline_multiplier: 3
    window: 1h
    channels:
      - type: pagerduty
        integration_key: your-pd-key

Quản lý Prompt và Phiên bản hóa #

Quản lý prompt tách biệt với mã ứng dụng cho phép các thành viên nhóm không chuyên về kỹ thuật lặp lại prompt mà không cần triển khai. Hệ thống quản lý prompt của Portkey cung cấp phiên bản hóa, A/B testing và thay thế biến động.

Tạo Prompt được Quản lý #

from portkey_ai import Portkey

portkey = Portkey(api_key="your-gateway-api-key")

# Triển khai phiên bản prompt
prompt = portkey.prompts.deploy(
    name="customer-support-classifier",
    version="1.2.0",
    prompt=[
        {"role": "system", "content": "Bạn là bộ phân loại phiếu hỗ trợ. Phân loại phiếu vào: Thanh toán, Kỹ thuật, Yêu cầu Tính năng, hoặc Khiếu nại."},
        {"role": "user", "content": "Phiếu: {{ticket_content}}"}
    ],
    model="gpt-4o-mini",
    parameters={
        "temperature": 0.2,
        "max_tokens": 50
    }
)

Kết xuất Prompt với Biến #

# Kết xuất và thực thi prompt được quản lý
response = portkey.prompts.render(
    name="customer-support-classifier",
    variables={
        "ticket_content": "Tôi đã bị tính phí hai lần cho đăng ký tháng này."
    }
)

print(response.choices[0].message.content)
# Kết quả: "Thanh toán"

A/B Testing Prompt #

# Chạy A/B test giữa các phiên bản prompt
response = portkey.prompts.render(
    name="customer-support-classifier",
    version="1.2.0",  # 50% lưu lượng
    test_version="1.3.0-beta",  # 50% lưu lượng
    variables={"ticket_content": "Ứng dụng gặp sự cố khi tải ảnh lên"}
)

Rào chắn Bảo vệ và An toàn Nội dung #

Hệ thống rào chắn bảo vệ của Portkey cho phép bạn thực thi các chính sách nội dung trên cả yêu cầu và phản hồi, đảm bảo tuân thủ các tiêu chuẩn an toàn và quy tắc kinh doanh.

Cấu hình Rào chắn Bảo vệ #

guardrails:
  input-validation:
    - type: keyword_filter
      blocklist: ["password", "ssn", "credit_card", "secret_key"]
      action: block
    - type: pii_detector
      entities: ["email", "phone", "ssn"]
      action: mask
    - type: toxicity_check
      threshold: 0.8
      action: block
      
  output-validation:
    - type: content_policy
      categories: ["hate", "violence", "self-harm"]
      action: block
    - type: response_format
      required_schema:
        type: json_object
      action: retry
# Áp dụng rào chắn bảo vệ cho yêu cầu
response = portkey.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Nội dung nhập của ngưởi dùng"}],
    guardrails=["input-validation", "output-validation"]
)

Hàm Rào chắn Bảo vệ Tùy chỉnh #

from portkey_ai import Portkey
import json

portkey = Portkey(api_key="your-gateway-api-key")

def custom_validator(request, response):
    """Xác thực logic kinh doanh tùy chỉnh."""
    try:
        data = json.loads(response.choices[0].message.content)
        if "confidence" not in data or data["confidence"] < 0.7:
            return False, "Điểm tin cậy quá thấp"
        return True, None
    except json.JSONDecodeError:
        return False, "Phản hồi phải là JSON hợp lệ"

portkey.guardrails.register("confidence-check", custom_validator)

Khả năng Quan sát: Ghi log, Số liệu và Theo dõi #

Hiểu rõ hệ thống AI của bạn hoạt động như thế nào trong production là không thể thương lượng. Portkey cung cấp khả năng quan sát toàn diện với ghi log yêu cầu/phản hồi, số liệu sử dụng token, biểu đồ độ trễ và theo dõi phân tán.

Ghi log Yêu cầu #

# Truy vấn nhật ký yêu cầu gần đây
curl "http://localhost:8787/v1/admin/logs?limit=100&status=error" \
  -H "Authorization: Bearer ${GATEWAY_API_KEY}"
# Bật ghi log chi tiết cho mỗi yêu cầu
response = portkey.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Xin chào"}],
    metadata={
        "trace_id": "trace-abc-123",
        "session_id": "session-xyz-789",
        "user_id": "user-456"
    }
)

Tích hợp OpenTelemetry #

observability:
  tracing:
    enabled: true
    exporter: otlp
    endpoint: http://jaeger-collector:4317
  metrics:
    enabled: true
    exporter: prometheus
    port: 9090

Số liệu Prometheus #

Cổng sẽ hiển thị các số liệu tương thích với Prometheus tại /metrics:

# Thu thập số liệu
curl http://localhost:8787/metrics

Các số liệu chính bao gồm:

  • portkey_requests_total — Tổng số yêu cầu theo nhà cung cấp, mô hình, trạng thái
  • portkey_request_duration_seconds — Biểu đồ độ trễ yêu cầu
  • portkey_tokens_total — Sử dụng token theo loại (đầu vào/đầu ra) và mô hình
  • portkey_cache_hits_total — Số lượt truy cập bộ nhớ đệm hit/miss
  • portkey_spend_total — Chi tiêu ước tính bằng USD

Bảng điều khiển Grafana #

Nhập bảng điều khiển Grafana chính thức của Portkey (ID: portkey-ai-gateway) để có trực quan hóa sẵn có:

{
  "dashboard": {
    "title": "Tổng quan Portkey AI Gateway",
    "panels": [
      {
        "title": "Yêu cầu mỗi Giây",
        "targets": [
          {
            "expr": "rate(portkey_requests_total[5m])"
          }
        ]
      },
      {
        "title": "Độ trễ P95",
        "targets": [
          {
            "expr": "histogram_quantile(0.95, portkey_request_duration_seconds_bucket)"
          }
        ]
      },
      {
        "title": "Sử dụng Token",
        "targets": [
          {
            "expr": "sum by (model) (portkey_tokens_total)"
          }
        ]
      }
    ]
  }
}

Danh sách Kiểm tra Triển khai Production #

Trước khi đưa Portkey AI Gateway vào production, hãy đảm bảo bạn đã hoàn thành các mục quan trọng sau:

Hạ tầng #

# docker-compose production với Redis để lưu đệm và PostgreSQL để ghi log
version: '3.8'
services:
  gateway:
    image: portkeyai/gateway:latest
    ports:
      - "8787:8787"
    environment:
      - PORTKEY_GATEWAY_API_KEY=${GATEWAY_API_KEY}
      - REDIS_URL=redis://redis:6379
      - DATABASE_URL=postgres://user:pass@postgres:5432/portkey
    depends_on:
      - redis
      - postgres
    deploy:
      replicas: 3
      resources:
        limits:
          memory: 2G
          cpus: '1.0'
  
  redis:
    image: redis:7-alpine
    volumes:
      - redis-data:/data
  
  postgres:
    image: postgres:16-alpine
    environment:
      POSTGRES_DB: portkey
      POSTGRES_USER: user
      POSTGRES_PASSWORD: ${DB_PASSWORD}
    volumes:
      - postgres-data:/var/lib/postgresql/data

volumes:
  redis-data:
  postgres-data:

Danh sách Kiểm tra Bảo mật #

MụcTrạng tháiGhi chú
Xoay vòng khóa APIBắt buộcXoay khóa gateway hàng tháng
Chấm dứt TLSBắt buộcSử dụng proxy ngược hoặc cân bằng tải
Giới hạn tốc độBắt buộcCấu hình giới hạn mỗi ngưởi dùng và mỗi IP
Che PIIKhuyến nghịBật cho khối lượng công việc production
Ghi log kiểm toánBắt buộcGhi lại mọi hành động quản trị
Cách ly mạngKhuyến nghịTriển khai trong mạng con riêng

Kiểm tra Sức khỏe #

# Điểm cuối sức khỏe gateway
curl http://localhost:8787/health

# Phản hồi mong đợi
{"status": "healthy", "version": "2.5.0", "uptime": 86400}
# Probe liveness và readiness Kubernetes
livenessProbe:
  httpGet:
    path: /health
    port: 8787
  initialDelaySeconds: 10
  periodSeconds: 15

readinessProbe:
  httpGet:
    path: /ready
    port: 8787
  initialDelaySeconds: 5
  periodSeconds: 5

FAQ: Portkey AI Gateway #

Portkey AI Gateway hỗ trợ những mô hình nào? #

Portkey hỗ trợ 200+ mô hình từ 20+ nhà cung cấp bao gồm OpenAI (GPT-4o, GPT-4o-mini, o3), Anthropic (Claude 4, Claude 3.5), Google (Gemini 2.5), Azure OpenAI, Cohere, Mistral, Together AI, Groq, Perplexity và nhiều hơn nữa. Các nhà cung cấp mới được thêm thường xuyên.

Tôi có thể tự lưu trữ Portkey AI Gateway miễn phí không? #

Có. Portkey AI Gateway là mã nguồn mở theo giấy phép MIT và hoàn toàn miễn phí để tự lưu trữ. Phiên bản cloud cung cấp các tính năng được quản lý bổ sung như bảng điều khiển web và phân tích nâng cao với định giá dựa trên mức sử dụng.

Bộ nhớ đệm yêu cầu hoạt động như thế nào? #

Portkey cung cấp hai chế độ lưu đệm: khớp chính xác (các yêu cầu giống hệt nhau trả về phản hồi được lưu đệm) và khớp ngữ nghĩa (các yêu cầu tương tự dựa trên độ tương đồng embedding trả về phản hồi được lưu đệm). Lưu đệm có thể được cấu hình cho mỗi yêu cầu với các tham số TTL và ngưởng độ tương đồng.

Dữ liệu của tôi có an toàn khi sử dụng Portkey không? #

Khi tự lưu trữ, tất cả dữ liệu yêu cầu vẫn ở trong hạ tầng của bạn. Cổng hỗ trợ phát hiện và che PII, lưu trữ khóa API được mã hóa và ghi log kiểm toán. Đối với tùy chọn cloud, Portkey đã đạt chứng nhận SOC 2 Type II và cung cấp Thỏa thuận Liên kết Kinh doanh (BAA) để tuân thủ HIPAA.

Định tuyến dự phòng xử lý sự cố nhà cung cấp như thế nào? #

Định tuyến dự phòng hoạt động bằng cách xác định danh sách ưu tiên các nhà cung cấp. Nếu nhà cung cấp chính gặp sự cố (hết thờ gian, lỗi 5xx, giới hạn tốc độ), cổng sẽ tự động thử lại yêu cầu với nhà cung cấp tiếp theo trong chuỗi. Bạn có thể cấu hình số lần thử lại, thờ gian chờ và điều kiện lỗi cho mỗi mục tiêu.

Tôi có thể sử dụng Portkey với mã SDK OpenAI hiện có không? #

Có. Portkey cung cấp khả năng tương thích thả vào với OpenAI SDK. Đơn giản là thay đổi base_url thành điểm cuối gateway của bạn và sử dụng khóa API Portkey:

import openai

client = openai.OpenAI(
    api_key="your-portkey-gateway-key",
    base_url="http://localhost:8787/v1"
)

# Mã hiện có của bạn hoạt động không thay đổi
response = client.chat.completions.create(...)

Hosting Và Hạ Tầng Được Đề Xuất #

  • DigitalOcean — Credit $200 trong 60 ngày.
  • HTStack — VPS Hong Kong, độ trễ thấp khi truy cập từ Trung Quốc.

Liên kết tiếp thị — không tăng chi phí của bạn, giúp dibi8.com hoạt động.

Kết luận #

Portkey AI Gateway biến đổi sự phức tạp của việc quản lý nhiều nhà cung cấp LLM thành một vấn đề hạ tầng đã được giải quyết. Với API thống nhất, định tuyến thông minh, lưu đệm ngữ nghĩa, theo dõi chi tiêu và khả năng quan sát toàn diện, bạn có thể tập trung vào xây dựng các ứng dụng AI tuyệt vờ thay vì vật lộn với tích hợp nhà cung cấp.

Dù bạn chọn tùy chọn cloud được quản lý hay tự lưu trữ trên hạ tầng của riêng mình (hãy cân nhắc DigitalOcean cho việc triển khai Kubernetes đơn giản), Portkey cung cấp độ tin cậy, kiểm soát chi phí và khả năng hiển thị mà các hệ thống AI production đòi hỏi.

Bắt đầu với Docker nhanh chóng, cấu hình các nhà cung cấp của bạn, thiết lập cân bằng tải với các tuyến đường dự phòng, bật lưu đệm và kết nối ngăn xếp quan sát của bạn. Trong vòng chưa đầy một giờ, bạn sẽ có một cổng LLM cấp production xử lý 200+ mô hình với khả năng quan sát đầy đủ.


Xuất bản: 2026-05-19 | Portkey AI Gateway v2.5.0 | GitHub: Portkey-AI/gateway

💬 Bình luận & Thảo luận