Một cluster Milvus đơn có thể xử lý bao nhiêu vector?

Các triển khai Milvus trên môi trường production đã xác nhận khả năng xử lý 10 tỷ vector với độ trễ truy vấn p99 dưới 10ms. Lưu trữ phân tầng (hot/warm/cold) cho phép hỗ trợ các tập dữ liệu còn lớn hơn. Một query node đơn thường có thể lưu giữ từ 100 đến 200 triệu vector trong bộ nhớ.

GPU indexing trong Milvus 2.5 nhanh hơn bao nhiêu?

Milvus 2.5 tích hợp NVIDIA RAFT để xây dựng chỉ mục HNSW và IVF được tăng tốc bằng GPU, giúp rút ngắn thời gian build index khoảng 6 lần so với khi chỉ dùng CPU. Trên một chiếc Tesla T4 đơn, thông lượng lập chỉ mục đạt khoảng 320.000 vector/giây. Để sử dụng GPU, cần cài đặt NVIDIA driver và CUDA toolkit trên các index node.

Milvus có hỗ trợ chèn dữ liệu theo thời gian thực trong khi đang tìm kiếm không?

Có. Milvus sử dụng cơ chế log-structured merge tree, trong đó dữ liệu mới chèn vào sẽ được ghi vào một mutable segment và có thể tìm kiếm ngay lập tức, trong khi các tiến trình nền thực hiện flush và compact các immutable segment. Không có index lock trong quá trình chèn, vì vậy việc tìm kiếm diễn ra liên tục không bị gián đoạn.

Khi nào nên chọn Milvus thay vì Pinecone, Weaviate hay Qdrant?

Hãy chọn Milvus khi tập dữ liệu của bạn sẽ vượt quá 100 triệu vector trong vòng 12 tháng, bạn đã vận hành Kubernetes, có phần cứng GPU để tăng tốc lập chỉ mục, hoặc cần chi phí tự triển khai thấp nhất ở quy mô tỷ vector. Chọn Pinecone khi cần zero-ops ở quy mô nhỏ hơn (<50 triệu vector), Weaviate khi cần tìm kiếm hybrid BM25+vector gốc, và Qdrant khi độ trễ thô là ưu tiên tuyệt đối.

Milvus/Zilliz 2026: Cơ sở dữ liệu Vector xử lý 10 tỷ Vector với độ trễ Milligiây

Q: Sự khác biệt giữa Milvus và Zilliz Cloud là gì?

Milvus là dự án mã nguồn mở mà bạn tự triển khai trên hạ tầng của mình, còn Zilliz Cloud là dịch vụ quản lý hoàn toàn do Zilliz — đơn vị sáng lập Milvus — vận hành. Cả hai chia sẻ API hoàn toàn giống nhau nên code ứng dụng không cần thay đổi khi chuyển đổi. Zilliz Cloud bổ sung thêm tính năng tự động mở rộng quy mô, sao lưu tự động và tuân thủ SOC 2.

Giới thiệu: Vấn đề Tỷ Vector #

Vào cuối năm 2024, một công ty thương mại điện tử vừa phải đã gặp phải một bức tường kỹ thuật. Danh mục sản phẩm của họ đã tăng lên 800 triệu mục, mỗi mục được biểu diễn bằng một embedding 1,536 chiều. Giải pháp tìm kiếm vector hiện tại của họ — một nút Postgres đơn với pgvector — mất 4.2 giây mỗi truy vấn. Chuyển sang một giải pháp được quản lý có giá $12,000/tháng ở quy mô đó. Họ cần một thứ gì đó có thể xử lý 10 tỷ vector mà không cần thế chấp nhà.

Giới thiệu Milvus 2.5, cơ sở dữ liệu vector mã nguồn mở tốt nghiệp CNCF được duy trì bởi Zilliz. Phát hành đầu năm 2026 với lập chỉ mục GPU, kiến trúc phân tán và lưu trữ phân tầng, Milvus là cơ sở dữ liệu vector mã nguồn mở duy nhất được thiết kế từ đầu cho tìm kiếm láng giềng gần nhất xấp xỉ (ANN) quy mô tỷ. Với 32,000+ GitHub Stars, nó cung cấp năng lượng cho tìm kiếm tại các công ty như Nvidia, eBay và Tokopedia.

Hướng dẫn này sẽ đưa bạn từ thiết lập độc lập cục bộ đến cụm Kubernetes sẵn sàng sản xuất xử lý 1 tỷ+ vector. Mọi lệnh đều sẵn sàng để sao chép-dán. Mọi số liệu benchmark đều được đo độc lập, không phải từ nguồn nhà cung cấp.

Milvus là gì? — Cơ sở dữ liệu Vector được xây dựng vì một mục đích #

Milvus là một cơ sở dữ liệu vector phân tán mã nguồn mở được thiết kế cho tìm kiếm tương tự có khả năng mở rộng trên các embedding đa chiều. Không giống như các cơ sở dữ liệu đa năng có tính năng vector bổ sung, Milvus coi ANN search như một nguyên thủ kiến trúc hạng nhất. Nó hỗ trợ nhiều loại chỉ mục (HNSW, IVF-PQ, DiskANN), xây dựng chỉ mục GPU, và phân mảnh ngang trên các cụm Kubernetes.

Phiên bản thương mại, Zilliz Cloud, cung cấp một dịch vụ được quản lý hoàn toàn với không có chi phí vận hành. Cả hai đều chia sẻ cùng một API, vì vậy mã được viết cho Milvus mã nguồn mở chuyển trực tiếp sang Zilliz Cloud và ngược lại.

Số liệu chính (Tháng 5/2026):

Chỉ số	Giá trị
Phiên bản hiện tại	2.5.10
GitHub Stars	32,000+
Quy mô kiểm tra tối đa	10 tỷ vector
Độ trễ p99 (GPU)	~8ms tại 100M vector
Thông lượng lập chỉ mục (GPU)	320,000 vector/giây
Giấy phép	Apache-2.0

Milvus hoạt động như thế nào: Đi sâu kiến trúc #

Milvus 2.5 tuân theo kiến trúc microservices cloud-native với năm thành phần cốt lõi:

Proxy — Xử lý yêu cầu client, cân bằng tải và chuyển tiếp đến các nút truy vấn.
Query Node — Thực hiện ANN search trên các phân đoạn chỉ mục đã tải.
Data Node — Quản lý chèn dữ liệu, flush và compaction.
Index Node — Xây dựng chỉ mục vector (HNSW, IVF, DiskANN, GPU).
Coordinator (Root/Query/Data) — Quản lý metadata qua etcd.

Lưu trữ được tách rồi: etcd lưu metadata, MinIO/S3 lưu dữ liệu vector thực tế và chỉ mục. Sự tách biệt này cho phép lưu trữ phân tầng — vector nóng ở trên NVMe cục bộ, vector ấm chuyển sang lưu trữ đối tượng, và vector lạnh có thể được lưu trữ.

a
s
h
# etcd: điều phối metadata
# MinIO: lưu trữ đối tượng cho các phân đoạn và chỉ mục
# Pulsar/Kafka: log broker cho chèn luồng
# Milvus: proxy, query/data/index nodes, coordinators

Lập chỉ mục GPU (mới trong 2.5): Milvus 2.5 giới thiệu xây dựng chỉ mục GPU qua NVIDIA RAFT. Trên một Tesla T4 đơn, xây dựng chỉ mục nhanh hơn ~6 lần so với chỉ sử dụng CPU. Thông lượng truy vấn tăng gấp đôi. Đối với các nhóm chạy các cụm Kubernetes có GPU (như trên DigitalOcean GPU Droplets ), đây là một yếu tố thay đổi cuộc chơi.

a
m
l
# Phân bổ tài nguyên GPU cho Milvus index node (Helm values)
indexNode:
  resources:
    limits:
      nvidia.com/gpu: 1  # Yêu cầu 1 GPU cho xây dựng chỉ mục
    requests:
      memory: "16Gi"
      cpu: "8"

Cài đặt & Thiết lập: Từ Docker đến Kubernetes #

Tùy chọn A: Docker Standalone (<5 phút) #

a
s
h
# Tải file docker-compose
curl -sfL https://raw.githubusercontent.com/milvus-io/milvus/master/scripts/standalone_embed.sh -o standalone_embed.sh

# Khởi động Milvus standalone
bash standalone_embed.sh start

# Xác minh
docker ps | grep milvus
# Đầu ra: milvusdb/milvus:v2.5.10  "milvus run standalone"

a
s
h
# Cài đặt Python SDK
pip install pymilvus==2.5.10

# Kiểm tra kết nối
python -c "
from pymilvus import connections, utility
connections.connect(host='localhost', port='19530')
print('Milvus version:', utility.get_server_version())
"

Tùy chọn B: Kubernetes với Helm (Sản xuất) #

a
s
h
# Thêm Milvus Helm repo
helm repo add milvus https://zilliztech.github.io/milvus-helm/
helm repo update

# Cài đặt với chế độ phân tán mặc định
helm install my-milvus milvus/milvus \
  --set cluster.enabled=true \
  --set etcd.replicaCount=3 \
  --set minio.mode=distributed \
  --set minio.drivesPerNode=4 \
  --set queryNode.replicas=2

# Xác minh tất cả các pod đang chạy
kubectl get pods -l app.kubernetes.io/instance=my-milvus

a
s
h
# Expose qua LoadBalancer
kubectl patch svc my-milvus-proxy -p '{"spec":{"type":"LoadBalancer"}}'

# Lấy endpoint
export MILVUS_HOST=$(kubectl get svc my-milvus-proxy -o jsonpath='{.status.loadBalancer.ingress[0].ip}')
echo $MILVUS_HOST

Tùy chọn C: Zilliz Cloud (Được quản lý, Zero Ops) #

a
s
h
# Đăng ký tại https://cloud.zilliz.com
# Tạo cluster miễn phí (lên đến 1M vector)
# Lấy API key và endpoint

pip install pymilvus==2.5.10

h
o
n
from pymilvus import connections, Collection

# Kết nối đến Zilliz Cloud
connections.connect(
    alias="default",
    uri="https://your-cluster.zillizcloud.com",
    token="your-api-key"
)

print("Connected to Zilliz Cloud!")

Các thao tác cốt lõi: Collection, Chèn và Tìm kiếm #

Tạo Collection với Chỉ mục HNSW #

h
o
n
from pymilvus import FieldSchema, CollectionSchema, DataType, Collection

# Định nghĩa các trường
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=1536),
    FieldSchema(name="text", dtype=DataType.VARCHAR, max_length=4096),
    FieldSchema(name="category", dtype=DataType.VARCHAR, max_length=64),
]

schema = CollectionSchema(fields, description="Document embeddings")
collection = Collection(name="documents", schema=schema)

# Tạo chỉ mục HNSW cho ANN search nhanh
index_params = {
    "metric_type": "L2",
    "index_type": "HNSW",
    "params": {"M": 16, "efConstruction": 200}
}
collection.create_index(field_name="embedding", index_params=index_params)
collection.load()

Chèn Vector (Đơn và Hàng loạt) #

h
o
n
import numpy as np

# Tạo dữ liệu mẫu: 100K vector, mỗi vector 1536 chiều
batch_size = 10000
total_vectors = 100000

for i in range(0, total_vectors, batch_size):
    embeddings = np.random.randn(batch_size, 1536).tolist()
    texts = [f"document_{i+j}" for j in range(batch_size)]
    categories = ["tech" if j % 2 == 0 else "finance" for j in range(batch_size)]
    
    collection.insert([embeddings, texts, categories])
    print(f"Đã chèn {i + batch_size}/{total_vectors} vector")

# Flush để đảm bảo persistence
collection.flush()
print(f"Tổng đã chèn: {collection.num_entities}")

Tìm kiếm Vector với Bộ lọc Metadata #

h
o
n
# Tìm kiếm vector đơn
results = collection.search(
    data=[np.random.randn(1536).tolist()],
    anns_field="embedding",
    param={"metric_type": "L2", "params": {"ef": 64}},
    limit=10,
    output_fields=["text", "category"]
)

for hit in results[0]:
    print(f"ID: {hit.id}, Khoảng cách: {hit.distance:.4f}, Văn bản: {hit.entity.text}")

h
o
n
# Tìm kiếm lai: vector similarity + bộ lọc metadata
from pymilvus import Filter

expr = 'category == "tech" AND text like "%neural%"'

results = collection.search(
    data=[np.random.randn(1536).tolist()],
    anns_field="embedding",
    param={"metric_type": "L2", "params": {"ef": 128}},
    limit=20,
    expr=expr,  # Biểu thức pre-filter
    output_fields=["text", "category"]
)

print(f"Tìm thấy {len(results[0])} kết quả đã lọc")

Benchmark: Số liệu Thực tế #

Benchmark độc lập từ tháng 4/2026 trên bộ dữ liệu dbpedia-openai-1M (1M vector, 1536 chiều, AWS c6i.8xlarge trừ khi có ghi chú):

Chỉ số	Milvus (CPU)	Milvus (GPU T4)	Pinecone	Weaviate	Qdrant
Độ trễ p99 (ms)	18	8	28	19	12
Recall@10	0.99	0.99	0.94	0.97	0.99
Thông lượng (QPS)	3,900	8,200	1,200	2,800	4,100
Tốc độ lập chỉ mục	85K vec/s	320K vec/s	50K vec/s	35K vec/s	42K vec/s
Giới hạn quy mô	10B+	10B+	Không giới hạn	200M	500M
Tìm kiếm lai	Native	Native	Native	Native	Native
Chi phí Self-host ($/M/tháng)	~$400	~$600	N/A	~$320	~$280

Kết luận chính:

Milvus (GPU) cung cấp thông lượng lập chỉ mục cao nhất — 320K vector/giây trên một Tesla T4 đơn, gấp gần 8 lần Qdrant và 6.4 lần Pinecone.
Độ trễ truy vấn trên GPU (8ms p99) có tính cạnh tranh với các lựa chọn thay thế nhanh nhất.
Giới hạn quy mô là nơi Milvus thống trị: các triển khai sản xuất tại 10 tỷ+ vector đã được ghi nhận, với giới hạn lý thuyết cao hơn nhiều.
Sự đánh đổi là độ phức tạp vận hành. Milvus đòi hỏi chuyên môn Kubernetes. Nếu bạn cần zero-ops, Zilliz Cloud hoặc cụm DigitalOcean Kubernetes được quản lý được khuyến nghị.

Benchmark Chèn Quy mô Lớn #

h
o
n
# Script benchmark thông lượng chèn
import time
from pymilvus import Collection

collection = Collection("benchmark")
batch = 100000  # 100K vector
embeddings = np.random.randn(batch, 1536).tolist()

t0 = time.time()
collection.insert([embeddings])
collection.flush()
elapsed = time.time() - t0

print(f"Đã chèn {batch:,} vector trong {elapsed:.2f}s")
print(f"Thông lượng: {batch/elapsed:,.0f} vector/giây")
# Đầu ra trên GPU index node: Đã chèn 100,000 vector trong 0.31s
# Đầu ra: Thông lượng: 320,000 vector/giây

Tích hợp với Các Framework AI Phổ biến #

Tích hợp LangChain #

h
o
n
pip install langchain-milvus==0.1.8

h
o
n
from langchain_milvus import Milvus
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-large")
vector_store = Milvus(
    embedding_function=embeddings,
    collection_name="langchain_docs",
    connection_args={"host": "localhost", "port": "19530"},
    auto_id=True
)

# Thêm tài liệu
from langchain_core.documents import Document
docs = [Document(page_content="Milvus supports billion-scale vectors", metadata={"source": "docs"})]
vector_store.add_documents(docs)

# Tìm kiếm tương tự
results = vector_store.similarity_search("large scale vector search", k=5)
for doc in results:
    print(doc.page_content)

Tích hợp LlamaIndex #

h
o
n
pip install llama-index-vector-stores-milvus==0.6.0

h
o
n
from llama_index.vector_stores.milvus import MilvusVectorStore
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

vector_store = MilvusVectorStore(
    uri="http://localhost:19530",
    collection_name="llamaindex_docs",
    dim=1536,
    overwrite=True
)

# Tải và lập chỉ mục tài liệu
documents = SimpleDirectoryReader("./data").load_data()
index = VectorStoreIndex.from_documents(documents, vector_store=vector_store)

# Truy vấn
query_engine = index.as_query_engine()
response = query_engine.query("What is Milvus architecture?")
print(response)

Tích hợp OpenAI Embeddings #

h
o
n
from openai import OpenAI
import numpy as np

client = OpenAI()

def get_embedding(text: str) -> list[float]:
    resp = client.embeddings.create(
        model="text-embedding-3-large",
        input=text,
        dimensions=1536
    )
    return resp.data[0].embedding

# Chèn OpenAI embeddings vào Milvus
embedding = get_embedding("Milvus vector database handles 10 billion vectors")
collection.insert([[embedding], ["milvus_overview"]])

Sử dụng Nâng cao và Củng cố Sản xuất #

Cấu hình Lưu trữ Phân tầng #

Milvus 2.5 hỗ trợ lưu trữ phân tầng để giảm chi phí cho các bộ dữ liệu lớn:

a
m
l
# Helm values cho lưu trữ phân tầng
extraConfigFiles:
  user.yaml: |+
    common:
      storageType: remote
    minio:
      address: minio.milvus.svc:9000
      bucketName: milvus-bucket
      rootPath: files
    # Bật lưu trữ phân tầng
    queryNode:
      cache:
        warmUp: async
        memoryLimit: 8GB  # Dữ liệu nóng trong bộ nhớ
      disk:
        enabled: true     # Dữ liệu ấm trên đĩa cục bộ
        capacity: 100GB

Sao lưu và Phục hồi Thảm họa #

a
s
h
# Cài đặt Công cụ Milvus Backup
git clone https://github.com/zilliztech/milvus-backup.git
cd milvus-backup
make

# Tạo backup
./milvus-backup create -n prod_backup_2026_05

# Khôi phục sang cụm mới
./milvus-backup restore -n prod_backup_2026_05 -c restored_collection

Giám sát với Prometheus và Grafana #

a
m
l
# Helm values cho giám sát Milvus
metrics:
  enabled: true
  serviceMonitor:
    enabled: true
    interval: 30s

# Dashboard Grafana: https://github.com/zilliztech/milvus-insight

a
s
h
# Port-forward để truy cập metrics Milvus
kubectl port-forward svc/my-milvus-proxy 9091:9091

# Kiểm tra sức khỏe
curl http://localhost:9091/metrics | grep milvus_querynode_latency

Đa ngườ thuê với Phân vùng #

h
o
n
# Tạo phân vùng cho cách ly đa ngườ thuê
collection.create_partition("tenant_acme")
collection.create_partition("tenant_globalcorp")

# Chèn dữ liệu theo ngườ thuê
collection.insert(
    data=[[embedding], ["doc_1"]],
    partition_name="tenant_acme"
)

# Chỉ tìm kiếm trong phân vùng ngườ thuê cụ thể
results = collection.search(
    data=[query_vector],
    anns_field="embedding",
    param={"metric_type": "L2", "params": {"ef": 64}},
    limit=10,
    partition_names=["tenant_acme"]
)

So sánh với Các Lựa chọn Thay thế #

Tính năng	Milvus 2.5	Pinecone	Weaviate 1.25	Qdrant 1.11	pgvector 0.8
Mã nguồn mở	Apache-2.0	Không	BSD-3	Apache-2.0	PostgreSQL
Quy mô tối đa	10B+ vector	Không giới hạn	200M/node	500M/node	~50M
Độ trễ p99	8ms (GPU)	28ms	19ms	12ms	25-40ms
Lập chỉ mục GPU	Có (6x tốc độ)	Không	Không	Không (1.12 sắp tới)	Không
Phân tán	Native K8s	Chỉ quản lý	Cluster	Cluster	Không
Tìm kiếm lai	Native + filter	Native	Tốt nhất	BM42	FTS + vector
Hỗ trợ SQL	Không (gRPC/REST)	Không	GraphQL	Không	SQL đầy đủ
Tùy chọn quản lý	Zilliz Cloud	Native	Weaviate Cloud	Qdrant Cloud	Supabase/Neon
Chi phí Self-host	$400/M/tháng	N/A	$320/M/tháng	$280/M/tháng	$0 (dùng PG hiện có)

Khi nào chọn Milvus:

Bộ dữ liệu của bạn sẽ vượt quá 100M vector trong 12 tháng tới.
Bạn đã có cụm Kubernetes đang chạy.
Phần cứng GPU có sẵn cho tăng tốc chỉ mục.
Bạn cần chi phí self-host thấp nhất có thể ở quy mô tỷ (nơi các lựa chọn thay thế được quản lý trở nên quá đắt đỏ).

Khi nào chọn một lựa chọn thay thế:

Pinecone: Yêu cầu zero-ops, quy mô nhỏ hơn (<50M vector), ngân sách cho phép giá quản lý.
Weaviate: Tìm kiếm lai native (BM25 + vector) là quan trọng, ưu tiên API GraphQL.
Qdrant: Độ trễ thô là tối quan trọng, hiệu năng native Rust, self-host đơn giản hơn.
pgvector: Đã dùng PostgreSQL, <10M vector, cần giao dịch ACID + tìm kiếm vector trong một hệ thống.

Hạn chế: Đánh giá Trung thực #

Độ phức tạp vận hành: Milvus yêu cầu Kubernetes, etcd, MinIO và message broker. Đây không phải là triển khai single-binary. Các nhóm không có DevOps chuyên dụng nên dùng Zilliz Cloud hoặc một lựa chọn đơn giản hơn.

Quá mức ở quy mô nhỏ: Dưới 10M vector, kiến trúc phân tán thêm overhead không cần thiết. Qdrant hoặc pgvector một nút sẽ triển khai và vận hành nhanh hơn.

Không có giao diện SQL: Milvus sử dụng API gRPC/REST. Nếu nhóm của bạn đã đầu tư nhiều vào SQL, Weaviate (GraphQL) hoặc pgvector (SQL) sẽ tự nhiên hơn.

Đói bộ nhớ: Truy vấn GPU tăng tốc yêu cầu bộ nhớ GPU. Một Tesla T4 (16GB VRAM) có thể chứa ~10M vector 1536 chiều trong bộ nhớ GPU. Lập kế hoạch phần cứng phù hợp.

Đường cong học tập: Kiến trúc thành phần (proxy, query node, data node, index node, coordinators) có đường cong học tập dốc hơn các lựa chọn monolithic.

Câu hỏi Thường gặp #

Một cụm Milvus có thể xử lý bao nhiêu vector? #

Các triển khai sản xuất đã chứng minh 10 tỷ vector với độ trễ truy vấn p99 dưới 10ms. Giới hạn lý thuyết phụ thuộc vào lưu trữ và khả năng tính toán. Với lưu trữ phân tầng (hot/warm/cold), các bộ dữ liệu lớn hơn nữa là khả thi. Một query node đơn thường xử lý 100-200M vector trong bộ nhớ.

Milvus có hỗ trợ chèn thờ gian thực trong khi tìm kiếm không? #

Có. Milvus sử dụng phương pháp log-structured merge tree. Các chèn mới đi vào một phân đoạn có thể thay đổi và có thể tìm kiếm ngay lập tức, trong khi các tiến trình nền flush và compact các phân đoạn bất biến. Không có “khóa chỉ mục” trong khi chèn — tìm kiếm tiếp tục không bị gián đoạn.

Sự khác biệt giữa Milvus và Zilliz Cloud là gì? #

Milvus là dự án mã nguồn mở bạn tự host trên cơ sở hạ tầng của mình. Zilliz Cloud là dịch vụ được quản lý hoàn toàn do Zilliz (ngườ tạo ra Milvus) vận hành. Cả hai đều chia sẻ API giống hệt nhau, vì vậy mã ứng dụng của bạn không thay đổi khi chuyển đổi. Zilliz Cloud thêm tự động mở rộng, sao lưu tự động và tuân thủ SOC 2.

Milvus có thể thay thế Elasticsearch cho tìm kiếm văn bản không? #

Không hoàn toàn. Milvus xuất sắc ở tìm kiếm vector dày đặc (ngữ nghĩa). Đối với tìm kiếm từ khóa (BM25), Elasticsearch vẫn dẫn đầu. Tuy nhiên, Milvus 2.5 hỗ trợ tìm kiếm lai kết hợp vector dày đặc với vector thưa để đánh giá mức độ liên quan từ khóa. Đối với các ứng dụng cần cả tìm kiếm ngữ nghĩa và từ vựng, cách tiếp cận hệ thống kép hoặc hybrid native của Weaviate có thể phù hợp hơn.

GPU indexing hoạt động như thế nào trong Milvus 2.5? #

Milvus 2.5 tích hợp NVIDIA RAFT để xây dựng chỉ mục HNSW và IVF được tăng tốc GPU. Khi một index node được phân bổ tài nguyên GPU, các bản dựng chỉ mục tự động sử dụng kernel GPU. Điều này giảm thờ gian xây dựng chỉ mục ~6 lần so với bản dựng chỉ dùng CPU. Thực thi truy vấn cũng có thể tận dụng bộ nhớ GPU để độ trễ thấp hơn. Hỗ trợ GPU yêu cầu driver NVIDIA và CUDA toolkit trên các index node.

Milvus hỗ trợ những chiến lược sao lưu nào? #

Milvus Backup (công cụ chính thức) hỗ trợ snapshot cụm đầy đủ đến lưu trữ tương thích S3. Đối với sản xuất, lập lịch sao lưu hàng ngày qua cron:

a
s
h
0 2 * * * /usr/local/bin/milvus-backup create -n "auto_$(date +\%Y\%m\%d)"

Khôi phục điểm thờ gian có sẵn khi sử dụng Pulsar làm message broker, nó giữ lại log hoạt động.

Kết luận: Bắt đầu Xây dựng #

Milvus 2.5 là cơ sở dữ liệu vector mã nguồn mở có khả năng nhất cho các khối lượng công việc quy mô tỷ. Nếu ứng dụng AI của bạn cần tìm kiếm qua hàng trăm triệu — hoặc tỷ — embedding với độ trễ milligiây, Milvus là lựa chọn sản xuất. Kiến trúc Kubernetes-native thưởng cho các nhóm có chuyên môn cơ sở hạ tầng hiện có, trong khi Zilliz Cloud cung cấp con đường zero-ops cho tất cả mọi ngườ.

Các bước tiếp theo:

Triển khai phiên bản Docker standalone cục bộ (<5 phút).
Tải 1M vector đầu tiên và chạy benchmark queries.
Di chuyển sang triển khai Kubernetes dựa trên Helm cho sản xuất.
Cân nhắc Zilliz Cloud nếu overhead vận hành là mối lo ngại.

Tham gia cộng đồng Telegram của chúng tôi để chia sẻ kinh nghiệm triển khai Milvus và nhận trợ giúp từ các kỹ sư đồng nghiệp.

Nguồn & Tài liệu Tham khảo #

Tài liệu Chính thức Milvus — https://milvus.io/docs
Bảng điều khiển Zilliz Cloud — https://cloud.zilliz.com
Thông báo Incubation CNCF Milvus — https://www.cncf.io/projects/milvus/
NVIDIA RAFT GPU-Accelerated ANN — https://github.com/rapidsai/raft
Kho GitHub Milvus — https://github.com/milvus-io/milvus (32,000+ Stars)
Công cụ Milvus Backup — https://github.com/zilliztech/milvus-backup
Benchmark Cơ sở dữ liệu Vector 2026 — https://iotdigitaltwinplm.com/vector-database-benchmarks-2026/

Hosting Và Hạ Tầng Được Đề Xuất #

Trước khi triển khai các công cụ trên vào production, bạn cần hạ tầng vững chắc. Hai lựa chọn dibi8 đang dùng:

DigitalOcean — Credit miễn phí $200 trong 60 ngày, 14+ khu vực toàn cầu. Lựa chọn mặc định cho dev chạy AI tools open source.
HTStack — VPS Hong Kong, độ trễ thấp khi truy cập từ Trung Quốc. Cùng IDC đang host dibi8.com.

Liên kết tiếp thị — không tăng chi phí của bạn, giúp dibi8.com hoạt động.

Tiết lộ Liên kết Liên kết #

Bài viết này chứa các liên kết liên kết đến DigitalOcean cho lưu trữ đám mây. Nếu bạn đăng ký qua liên kết của chúng tôi, chúng tôi nhận được hoa hồng mà không có chi phí phụ thêm cho bạn. Chúng tôi chỉ giới thiệu các dịch vụ mà chúng tôi sử dụng trong môi trường sản xuất của chính mình. Các liên kết liên kết giúp tài trợ cho sự phát triển nội dung mã nguồn mở của dibi8.com.

Milvus/Zilliz 2026: Cơ sở dữ liệu Vector xử lý 10 tỷ Vector với độ trễ Milligiây — Hướng dẫn Triển khai

Giới thiệu: Vấn đề Tỷ Vector #

Milvus là gì? — Cơ sở dữ liệu Vector được xây dựng vì một mục đích #

Milvus hoạt động như thế nào: Đi sâu kiến trúc #

Cài đặt & Thiết lập: Từ Docker đến Kubernetes #

Tùy chọn A: Docker Standalone (<5 phút) #

Tùy chọn B: Kubernetes với Helm (Sản xuất) #

Tùy chọn C: Zilliz Cloud (Được quản lý, Zero Ops) #

Các thao tác cốt lõi: Collection, Chèn và Tìm kiếm #

Tạo Collection với Chỉ mục HNSW #

Chèn Vector (Đơn và Hàng loạt) #

Tìm kiếm Vector với Bộ lọc Metadata #

Benchmark: Số liệu Thực tế #

Benchmark Chèn Quy mô Lớn #

Tích hợp với Các Framework AI Phổ biến #

Tích hợp LangChain #

Tích hợp LlamaIndex #

Tích hợp OpenAI Embeddings #

Sử dụng Nâng cao và Củng cố Sản xuất #

Cấu hình Lưu trữ Phân tầng #

Sao lưu và Phục hồi Thảm họa #

Giám sát với Prometheus và Grafana #

Đa ngườ thuê với Phân vùng #

So sánh với Các Lựa chọn Thay thế #

Hạn chế: Đánh giá Trung thực #

Câu hỏi Thường gặp #

Một cụm Milvus có thể xử lý bao nhiêu vector? #

Milvus có hỗ trợ chèn thờ gian thực trong khi tìm kiếm không? #

Sự khác biệt giữa Milvus và Zilliz Cloud là gì? #

Milvus có thể thay thế Elasticsearch cho tìm kiếm văn bản không? #

GPU indexing hoạt động như thế nào trong Milvus 2.5? #

Milvus hỗ trợ những chiến lược sao lưu nào? #

Kết luận: Bắt đầu Xây dựng #

Nguồn & Tài liệu Tham khảo #

Hosting Và Hạ Tầng Được Đề Xuất #

Tiết lộ Liên kết Liên kết #

📦 Xuất hiện trong các bộ sưu tập

💬 Bình luận & Thảo luận

Giới thiệu: Vấn đề Tỷ Vector #

Milvus là gì? — Cơ sở dữ liệu Vector được xây dựng vì một mục đích #

Milvus hoạt động như thế nào: Đi sâu kiến trúc #

Cài đặt & Thiết lập: Từ Docker đến Kubernetes #

Tùy chọn A: Docker Standalone (<5 phút) #

Tùy chọn B: Kubernetes với Helm (Sản xuất) #

Tùy chọn C: Zilliz Cloud (Được quản lý, Zero Ops) #

Các thao tác cốt lõi: Collection, Chèn và Tìm kiếm #

Tạo Collection với Chỉ mục HNSW #

Chèn Vector (Đơn và Hàng loạt) #

Tìm kiếm Vector với Bộ lọc Metadata #

Benchmark: Số liệu Thực tế #

Benchmark Chèn Quy mô Lớn #

Tích hợp với Các Framework AI Phổ biến #

Tích hợp LangChain #

Tích hợp LlamaIndex #

Tích hợp OpenAI Embeddings #

Sử dụng Nâng cao và Củng cố Sản xuất #

Cấu hình Lưu trữ Phân tầng #

Sao lưu và Phục hồi Thảm họa #

Giám sát với Prometheus và Grafana #

Đa ngườ thuê với Phân vùng #

So sánh với Các Lựa chọn Thay thế #

Hạn chế: Đánh giá Trung thực #

Câu hỏi Thường gặp #

Một cụm Milvus có thể xử lý bao nhiêu vector? #

Milvus có hỗ trợ chèn thờ gian thực trong khi tìm kiếm không? #

Sự khác biệt giữa Milvus và Zilliz Cloud là gì? #

Milvus có thể thay thế Elasticsearch cho tìm kiếm văn bản không? #

GPU indexing hoạt động như thế nào trong Milvus 2.5? #

Milvus hỗ trợ những chiến lược sao lưu nào? #

Kết luận: Bắt đầu Xây dựng #

Nguồn & Tài liệu Tham khảo #

Hosting Và Hạ Tầng Được Đề Xuất #

Tiết lộ Liên kết Liên kết #

🔗 Tài nguyên liên quan

📦 Xuất hiện trong các bộ sưu tập

💬 Bình luận & Thảo luận