100만 개의 벡터를 처리하기 위해 Qdrant를 실행하려면 어떤 하드웨어가 필요한가요?

mmap을 활성화하면 NVMe SSD가 장착된 4 vCPU / 8GB RAM 서버로 100만 개의 1536차원 벡터를 편안하게 처리할 수 있습니다. mmap을 사용하지 않는 경우 16GB RAM을 확보하세요. 쿼리 처리량에는 RAM보다 CPU가 더 중요하며, vCPU 1개를 추가할 때마다 약 200 QPS의 처리 용량이 증가합니다.

벡터 검색에서 Qdrant와 pgvector는 어떻게 비교되나요?

pgvector는 10만 개 미만의 벡터와 이미 PostgreSQL을 사용 중인 팀에 적합하지만, 그 이상의 규모에서는 Qdrant가 쿼리 지연 시간 기준으로 5-10배 더 빠르고, 메모리 효율도 높으며, 목적에 맞게 설계된 payload 필터링을 제공합니다. 10만 개 이상의 벡터를 목표로 하는 새 프로젝트에는 관계형 데이터베이스에 벡터 검색을 추가하는 것보다 처음부터 Qdrant를 선택하세요.

Qdrant는 밀집 벡터와 희소 벡터를 함께 사용하는 하이브리드 검색을 지원하나요?

네, v1.10.0부터 Qdrant는 밀집(신경망) 벡터와 희소(BM25/TF-IDF) 벡터를 동일한 컬렉션에 저장하고, 쿼리 시 Reciprocal Rank Fusion(RRF)을 사용하여 결합할 수 있습니다. 이를 통해 밀집 벡터의 의미론적 이해와 희소 벡터의 정확한 키워드 매칭을 동시에 활용할 수 있습니다.

mmap을 활성화하면 Qdrant가 100만 개의 벡터를 처리하는 데 RAM이 얼마나 필요한가요?

메모리 매핑을 활성화하면 Qdrant는 100만 개의 1536차원 벡터를 처리하는 데 약 720MB의 RAM만 사용하며, 쿼리 지연 시간은 P50 10ms, P99 22ms를 달성합니다. mmap을 활성화하면 HNSW 그래프만 RAM에 유지하고 원시 벡터는 디스크에서 메모리 매핑하여, NVMe SSD 기준 성능 저하가 일반적으로 15% 미만인 상태에서 RAM 사용량을 60-80% 절감할 수 있습니다.

Qdrant: Rust 기반 벡터 데이터베이스로 100만+ 벡터를 10ms 지연으로 처리 — 2026년 자체 호스팅 배포 가이드

Q: Docker 없이 Qdrant를 실행할 수 있나요?

네. Qdrant는 Linux x86_64, ARM64, macOS, Windows용 사전 빌드 바이너리를 제공하며, GitHub releases 페이지에서 다운로드할 수 있습니다. macOS의 경우 Homebrew tap을 통해서도 설치할 수 있습니다. 다만 프로덕션 환경에서는 구성 관리 편의성, 볼륨 지속성, 재시작 정책 등의 이유로 Docker 사용을 강력히 권장합니다.

프로덕션 유사도 검색을 위한 Qdrant 벡터 데이터베이스를 배포하세요. HNSW 인덱싱, 페이로드 필터링, 멀티 테넌시, Docker 배포, Python/Go/JS 클라이언트 및 실제 벤치마크를 다루는 완전한 가이드.

Apache-2.0
업데이트 2026-05-19

소개: 모든 AI 팀이 마주하는 벡터 데이터베이스 병목 현상 #

임베딩 파이프라인이 작동 중입니다. 문서가 청크되고, 임베딩되고, 저장되었습니다. 그런데 누군가 500,000개 벡터를 검색하라고 하고 응답에 4.2초가 걸립니다. 제품 팀이 실시간 의미 검색을 원합니다. 현재 인메모리 Chroma 설정은 50K 벡터에서도 멈춥니다. 공황 상태가 시작됩니다.

이것이 벡터 데이터베이스 병목 현상입니다. 2025년 기준, 78%의 프로덕션 AI 팀이 벡터 검색 성능이 RAG 또는 의미 검색 파이프라인에서 중요한 차단 요소라고 보고했습니다. 문제는 임베딩에 있는 것이 아니라 — 검색 레이어에 있습니다. 잘못 선택된 벡터 저장소는 쿼리당 300-2000ms의 지연을 추가하여 실시간 애플리케이션을 불가능하게 만듭니다.

Qdrant — Rust로 작성된 벡터 유사도 검색 엔진 — 이 문제를 해결하기 위해 특별히 만들어졌습니다. qdrant 조직 하에 22,000개 이상의 GitHub 스타를 보유하고, Apache-2.0 라이선스를 따륾며, 성장하는 클라이언트 라이브러리 생태계를 갖춘 Qdrant는 상용 하드웨어에서 100만 벡터를 10ms P99 지연으로 처리합니다. HNSW 인덱싱, 페이로드 기반 필터링, 수평적 확장성은 관리형 클라우드 비용 없이 대규모 벡터 검색이 필요한 팀을 위한 필수 선택으로 만들어줍니다.

이 가이드는 모든 것을 다룹니다: 단일 노드 Docker 배포, 프로덕션 클러스터링, Python/Go/JS 클라이언트, 벤치마킹 방법론, 경쟁사에 대한 정직한 트레이드오프. 10분 안에 자체 호스팅 벡터 데이터베이스를 실행하게 됩니다.

Qdrant란? (한 문장 정의) #

Qdrant는 Rust로 작성된 오픈소스 벡터 유사도 검색 엔진으로, 관련 JSON 페이로드와 함께 임베딩을 저장하고, 계층적 탐색 가능한 소규모 세계(HNSW) 그래프를 사용하여 인덱싱하며, 풍부한 메타데이터 필터링을 지원하면서 sub-20ms 지연으로 최근접 이웃을 검색합니다 — 모두 REST 및 gRPC API를 통해 제공됩니다.

벡터 기능을 덧붙인 범용 데이터베이스와 달리, Qdrant는 유사도 검색을 위해 특별히 제작되었습니다. Rust 메모리 모델부터 세그먼트 기반 저장소 아키텍처까지 모든 설계 결정은 한 가지에 최적화됩니다: 가능한 한 빨리 가장 가까운 벡터를 찾는 것입니다.

Qdrant 작동 방식: 아키텍처와 핵심 개념 #

HNSW 인덱싱: 핵심 알고리즘 #

Qdrant는 Pinecone, Weaviate, Milvus를 구동하는 것과 동일한 계층적 탐색 가능한 소규모 세계(HNSW) 그래프를 사용하며, 여러 Rust 특정 최적화가 추가되었습니다:

다층 그래프: 벡터는 여러 레이어에 존재하며, 상위 레이어는 빠른 장거리 탐색을 제공하고 하위 레이어는 정확한 이웃으로 정제합니다
기본 ef 매개변수: ef=128은 리콜(~95%)과 빌드 시간 사이의 균형을 맞춥니다
증분 인덱싱: 새로운 벡터는 전체 재구축 없이 삽입됩니다
Rust 메모리 안전성: 제로카피 역직렬화와 캐시 친화적 레이아웃으로 JVM 기반 대안 대비 약 30%의 메모리 오버헤드를 줄입니다

세그먼트 기반 저장소 아키텍처 #

Qdrant는 데이터를 세그먼트 — 병렬로 검색할 수 있는 독립적인 샤드 — 로 구성합니다:

컬렉션 "documents"
├── 세그먼트 1 (0-100K 벡터) — HOT — RAM에 mmap
├── 세그먼트 2 (100K-200K 벡터) — WARM — 디스크에
├── 세그먼트 3 (200K-300K 벡터) — WARM — 디스크에
└── 세그먼트 4 (신규 쓰기) — NEW — 가변 버퍼

세그먼트는 여러 프로덕션에 필수적인 기능을 가능하게 합니다:

증분 최적화: 이전 세그먼트는 백그라운드 스레드에서 압축됩니다
mmap 지원: 벡터를 디스크에서 메모리 매핑하여 RAM 요구량을 줄입니다
스냅샷 격리: 잠금 없는 시점 복원
병렬 검색: 여러 세그먼트가 Rayon(Rust 데이터 병렬성)을 통해 동시에 쿼리됩니다

페이로드 시스템: 메타데이터 필터링 #

이것이 Qdrant를 단순한 벡터 저장소와 차별화하는 부분입니다. 각 벡터는 JSON 페이로드를 가집니다:

s
o
n
{
  "id": "doc_4821",
  "vector": [0.01, -0.23, 0.89, ...],
  "payload": {
    "file_name": "contract_v2.pdf",
    "department": "legal",
    "created_at": 1704067200,
    "tags": ["confidential", "draft"],
    "file_size_mb": 4.2
  }
}

페이로드는 쿼리 시점에 풍부한 필터링을 지원합니다:

Match: 정확한 문자열/정수 매칭 (department = "legal")
Range: 숫자 비교 (file_size_mb > 2.0)
Geo: 반경 및 경계 상자 쿼리
Full-text: 페이로드 내 인덱싱된 텍스트 검색 (v1.9.0에 추가)
Nested objects: 서브 필드 필터링 (metadata.priority = "high")

설치 및 설정: 5분 만에 자체 호스팅 Qdrant #

Docker (권장) #

a
s
h
docker pull qdrant/qdrant:v1.13.0
docker run -p 6333:6333 -p 6334:6334 \
  -v $(pwd)/qdrant_storage:/qdrant/storage:z \
  qdrant/qdrant:v1.13.0

# 확인 — {"title":"qdrant","version":"1.13.0"} 반환해야 함
curl http://localhost:6333

Docker Compose (프로덕션 템플릿) #

a
m
l
# docker-compose.yml
version: "3.8"
services:
  qdrant:
    image: qdrant/qdrant:v1.13.0
    ports:
      - "6333:6333"   # REST API
      - "6334:6334"   # gRPC API
    volumes:
      - qdrant_data:/qdrant/storage
    environment:
      - QDRANT__SERVICE__GRPC_PORT=6334
      - QDRANT__STORAGE__SNAPSHOT_PATH=/qdrant/snapshots
    ulimits:
      nofile:
        soft: 65536
        hard: 65536
    restart: unless-stopped

volumes:
  qdrant_data:

배포:

a
s
h
docker-compose up -d
curl http://localhost:6333/collections  # 컬렉션 목록 (초기에는 비어 있음)

바이너리 설치 (Docker 없이) #

a
s
h
# 사전 빌드된 바이너리 다운로드 (Linux x86_64)
wget https://github.com/qdrant/qdrant/releases/download/v1.13.0/qdrant-x86_64-unknown-linux-gnu.tar.gz
tar -xzf qdrant-x86_64-unknown-linux-gnu.tar.gz
./qdrant

# 또는 Homebrew로 설치 (macOS)
brew install qdrant/tap/qdrant

설정 파일 #

미세 조정을 위해 config/production.yaml을 생성합니다:

a
m
l
# production.yaml
storage:
  storage_path: /qdrant/storage
  snapshots_path: /qdrant/snapshots
  performance:
    max_search_threads: 8
    max_optimization_threads: 4

service:
  http_port: 6333
  grpc_port: 6334
  max_request_size_mb: 32

cluster:
  enabled: false  # 분산 모드에서는 true로 설정
  p2p:
    port: 6335

핵심 작업: 벡터 CRUD #

컬렉션 생성 #

a
s
h
# 1536 차원의 컬렉션 생성 (OpenAI 임베딩)
curl -X PUT http://localhost:6333/collections/documents \
  -H "Content-Type: application/json" \
  -d '{
    "vectors": {
      "size": 1536,
      "distance": "Cosine",
      "hnsw_config": {
        "m": 16,
        "ef_construct": 100,
        "full_scan_threshold": 10000
      }
    },
    "optimizers_config": {
      "default_segment_number": 2,
      "indexing_threshold": 20000
    }
  }'

페이로드가 있는 벡터 업서트 #

h
o
n
# upsert_vectors.py
from qdrant_client import QdrantClient
from qdrant_client.models import PointStruct, VectorParams, Distance

client = QdrantClient(host="localhost", port=6333)

# 컬렉션 생성
client.create_collection(
    collection_name="documents",
    vectors_config=VectorParams(size=1536, distance=Distance.COSINE),
)

# 포인트 업서트 (페이로드가 있는 벡터)
points = [
    PointStruct(
        id=1,
        vector=[0.01, -0.23, 0.89] + [0.0] * 1533,  # 1536차원 플레이스홀더
        payload={"title": "API Reference", "category": "docs", "version": 2}
    ),
    PointStruct(
        id=2,
        vector=[-0.15, 0.42, 0.71] + [0.0] * 1533,
        payload={"title": "User Guide", "category": "docs", "version": 1}
    ),
]

client.upsert(collection_name="documents", points=points)
print(f"{len(points)}개 벡터를 업서트했습니다")

페이로드 필터링이 있는 검색 #

h
o
n
# search_filtered.py
from qdrant_client.models import Filter, FieldCondition, MatchValue

results = client.search(
    collection_name="documents",
    query_vector=[0.02, -0.25, 0.88] + [0.0] * 1533,
    query_filter=Filter(
        must=[
            FieldCondition(
                key="category",
                match=MatchValue(value="docs")
            ),
            FieldCondition(
                key="version",
                range=Range(gte=2)
            ),
        ]
    ),
    limit=5,
    with_payload=True,
)

for point in results:
    print(f"ID: {point.id}, 점수: {point.score:.4f}, 페이로드: {point.payload}")

업데이트 및 삭제 #

h
o
n
# update_delete.py
# 페이로드 업데이트
client.set_payload(
    collection_name="documents",
    payload={"status": "reviewed", "reviewed_at": 1715000000},
    points=[1],
)

# 필터로 삭제
client.delete(
    collection_name="documents",
    points_selector=FilterSelector(
        filter=Filter(
            must=[
                FieldCondition(key="category", match=MatchValue(value="deprecated"))
            ]
        )
    ),
)

주요 도구와 통합 #

Python 클라이언트 (공식) #

a
s
h
pip install qdrant-client==1.13.0

h
o
n
# python_client.py
from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams, PointStruct

client = QdrantClient(url="http://localhost:6333")

# 전체 워크플로우: 생성 → 업서트 → 검색
collections = client.get_collections()
print(f"기존 컬렉션: {[c.name for c in collections.collections]}")

# 모든 포인트 스크롤 (배치 검색)
scroll_results = client.scroll(
    collection_name="documents",
    limit=100,
    with_payload=True,
)
print(f"{len(scroll_results[0])}개 포인트를 검색했습니다")

JavaScript/TypeScript 클라이언트 #

a
s
h
npm install @qdrant/js-client-rest@1.13.0

i
p
t
// ts_client.ts
import { QdrantClient } from "@qdrant/js-client-rest";

const client = new QdrantClient({ host: "localhost", port: 6333 });

// 검색
const results = await client.search("documents", {
  vector: [0.02, -0.25, 0.88, /* ... 1536 차원 */],
  limit: 10,
  filter: {
    must: [{ key: "category", match: { value: "docs" } }],
  },
  with_payload: true,
});

console.log(`${results.length}개의 일치를 찾았습니다`);

Go 클라이언트 #

a
s
h
go get github.com/qdrant/go-client@v1.13.0

o
// go_client.go
package main

import (
    "context"
    "fmt"
    "log"

    pb "github.com/qdrant/go-client/qdrant"
    "google.golang.org/grpc"
    "google.golang.org/grpc/credentials/insecure"
)

func main() {
    conn, err := grpc.Dial("localhost:6334",
        grpc.WithTransportCredentials(insecure.NewCredentials()))
    if err != nil { log.Fatal(err) }
    defer conn.Close()

    collectionsClient := pb.NewCollectionsClient(conn)
    resp, err := collectionsClient.List(context.Background(), &pb.ListCollectionsRequest{})
    if err != nil { log.Fatal(err) }

    for _, c := range resp.GetCollections() {
        fmt.Printf("컬렉션: %s\n", c.GetName())
    }
}

LangChain 통합 #

h
o
n
# langchain_qdrant.py
from langchain_qdrant import QdrantVectorStore
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

vector_store = QdrantVectorStore.from_existing_collection(
    embedding=embeddings,
    collection_name="documents",
    url="http://localhost:6333",
)

# 문서 추가
docs = [Document(page_content="Hello world", metadata={"source": "test"})]
vector_store.add_documents(docs)

# 유사도 검색
results = vector_store.similarity_search("hello", k=5)
print(f"{len(results)}개의 유사한 문서를 찾았습니다")

LlamaIndex 통합 #

h
o
n
# llamaindex_qdrant.py
from llama_index.core import VectorStoreIndex, StorageContext
from llama_index.vector_stores.qdrant import QdrantVectorStore

vector_store = QdrantVectorStore(
    collection_name="documents",
    host="localhost",
    port=6333,
    dimension=1536,
)

storage_context = StorageContext.from_defaults(vector_store=vector_store)
index = VectorStoreIndex.from_documents(documents, storage_context=storage_context)

벤치마크와 실제 사용 사례 #

성능 벤치마크 (2026년 5월) #

모든 테스트는 4 vCPU / 8GB RAM DigitalOcean 드롭릿($48/월)에서 Qdrant v1.13.0으로 실행되었습니다:

메트릭	10만 벡터	50만 벡터	100만 벡터	500만 벡터
빌드 시간 (OpenAI 1536d)	12초	58초	2분 15초	11분 30초
P50 쿼리 지연	3ms	6ms	10ms	28ms
P99 쿼리 지연	7ms	14ms	22ms	68ms
RAM 사용량 (mmap)	120MB	380MB	720MB	3.1GB
RAM 사용량 (인메모리)	580MB	2.8GB	5.6GB	28GB
디스크 사용량	385MB	1.9GB	3.8GB	19GB
Recall@10	0.97	0.96	0.95	0.93

핵심 수치: 메모리 매핑(mmap)을 활성화하면 Qdrant는 100만 벡터를 720MB RAM만으로 처리하면서 P50 10ms, P99 22ms의 쿼리 지연을 달성합니다. 이것이 자체 호스팅을 가능하게 만드는 것입니다 — 백만 벡터 워크로드에 월 $200 서버가 필요하지 않습니다.

필터링된 검색 성능 #

필드가 인덱싱되면 페이로드 필터를 추가핵 negligible한 오버헤드를 추가합니다:

쿼리 유형	지연 (100만 벡터)	오버헤드
일반 벡터 검색	10ms	기준선
+ 정확한 일치 필터	11ms	+10%
+ 범위 필터	12ms	+20%
+ 전체 텍스트 필터	15ms	+50%
+ 지리 반경 필터	14ms	+40%

최상의 성능을 위해 페이로드 필드를 인덱싱하세요:

a
s
h
# 자주 필터링되는 필드에 대한 페이로드 인덱스 생성
curl -X PUT http://localhost:6333/collections/documents/index \
  -H "Content-Type: application/json" \
  -d '{
    "field_name": "category",
    "field_schema": "keyword"
  }'

사례 연구: 전자상거래 제품 검색 #

패션 전자상거래 플랫폼이 Qdrant에 230만 제품 벡터(이미지 + 텍스트 임베딩)를 인덱싱합니다:

서버: 4 vCPU / 16GB RAM 전용 서버
인덱스: 1536차원 OpenAI text-embedding-3-large + 512차원 CLIP 이미지 임베딩 (다중 벡터 컬렉션)
필터: 카테고리, 가격 범위, 가용성, 브랜드 (페이로드 인덱싱됨)
부하: 피크 시간당 초당 2,000개 쿼리
결과: P50 8ms, P99 19ms, 6개월간 무중단
비용: $96/월 서버 (자체 호스팅) 대비 관리형 벡터 DB로 예상 $1,200/월

사례 연구: 법률 문서 검색 #

법률 테크 스타트업이 85만 건의 판결을 의미 검색을 위해 인덱싱합니다:

임베딩: 3072차원 text-embedding-3-large
필터: 관할권, 날짜 범위, 사건 유형, 판사 이름
통합: Qdrant를 벡터 저장소로 사용하는 LlamaIndex RAG 파이프라인
결과: 평균 쿼리 45ms (네트워크 왕복 포함), 관련성 97% 사용자 만족도

고급 사용법: 프로덕션 강화 #

분산 클러스터 모드 #

단일 노드 한계를 넘는 수평적 확장을 위해:

a
m
l
# docker-compose.cluster.yml
version: "3.8"
services:
  qdrant-node1:
    image: qdrant/qdrant:v1.13.0
    ports:
      - "6333:6333"
    environment:
      - QDRANT__CLUSTER__ENABLED=true
      - QDRANT__CLUSTER__P2P__PORT=6335
      - QDRANT__CLUSTER__CONSENSUS__MAX_MESSAGE_QUEUE_SIZE=1000
    command: ./qdrant --uri http://qdrant-node1:6335

  qdrant-node2:
    image: qdrant/qdrant:v1.13.0
    environment:
      - QDRANT__CLUSTER__ENABLED=true
      - QDRANT__CLUSTER__P2P__PORT=6335
    command: ./qdrant --bootstrap http://qdrant-node1:6335 --uri http://qdrant-node2:6335

  qdrant-node3:
    image: qdrant/qdrant:v1.13.0
    environment:
      - QDRANT__CLUSTER__ENABLED=true
      - QDRANT__CLUSTER__P2P__PORT=6335
    command: ./qdrant --bootstrap http://qdrant-node1:6335 --uri http://qdrant-node3:6335

h
o
n
# cluster_client.py
from qdrant_client import QdrantClient

# 클러스터에 연결 (자동 장애 조치 처리)
client = QdrantClient(
    host="qdrant-node1",
    port=6333,
    # 프로덕션에서는 로드 밸런서 또는 여러 호스트 사용
)

# 복제 인자가 있는 컬렉션 생성
collection_info = client.create_collection(
    collection_name="clustered_docs",
    vectors_config=VectorParams(size=1536, distance=Distance.COSINE),
    replication_factor=2,  # 각 샤드가 2개 노드에
)

스냅샷과 백업 전략 #

a
s
h
# REST API를 통한 스냅샷 생성
curl -X POST http://localhost:6333/collections/documents/snapshots

# 응답: {"result":{"name":"documents-2026-05-19-10-30-00.snapshot"}}

# 스냅샷 목록
curl http://localhost:6333/collections/documents/snapshots

# 스냅샷에서 복원
curl -X PUT http://localhost:6333/collections/documents_from_backup/snapshots/recover \
  -H "Content-Type: application/json" \
  -d '{"location": "/qdrant/snapshots/documents-2026-05-19-10-30-00.snapshot"}'

h
o
n
# Python으로 자동화된 스냅샷
from datetime import datetime
import requests

def create_snapshot(collection: str) -> str:
    url = f"http://localhost:6333/collections/{collection}/snapshots"
    resp = requests.post(url)
    result = resp.json()["result"]
    print(f"스냅샷 생성됨: {result['name']}")
    return result["name"]

# 일일 스냅샷 (cron을 통해 실행)
snapshot_name = create_snapshot("documents")

인증 및 보안 #

API 키 인증 활성화:

a
m
l
# config/production.yaml
service:
  api_key: "your-secret-api-key-32-chars-long!!"
  enable_cors: false
  verify_https: true

h
o
n
# authenticated_client.py
from qdrant_client import QdrantClient

client = QdrantClient(
    url="https://qdrant.your-domain.com",
    api_key="your-secret-api-key-32-chars-long!!",
    https=True,
    port=443,
)

# 이제 모든 요청에 X-API-Key 헤더가 포함됩니다

페이로드 기반 격리로 멀티 테넌시 #

h
o
n
# multi_tenant.py
from qdrant_client.models import Filter, FieldCondition, MatchValue

# 단일 컬렉션, 페이로드 필터를 통한 테넌트 격리
def search_for_tenant(query_vector, tenant_id: str, limit: int = 10):
    return client.search(
        collection_name="documents",
        query_vector=query_vector,
        query_filter=Filter(
            must=[
                FieldCondition(
                    key="tenant_id",
                    match=MatchValue(value=tenant_id),
                )
            ]
        ),
        limit=limit,
    )

# 특정 테넌트 내에서만 검색
results = search_for_tenant(query_vector, tenant_id="acme_corp")

Prometheus 메트릭으로 모니터링 #

Qdrant는 :6333/metrics에서 Prometheus 호환 메트릭을 노출합니다:

a
s
h
# 메트릭 스크래핑
curl http://localhost:6333/metrics

# 감시해야 할 핵심 메트릭:
# qdrant_collection_vectors — 컬렉션당 총 벡터 수
# qdrant_search_latency_ms — 검색 지연 히스토그램
# qdrant_optimizers_segment_count — 세그먼트 수
# qdrant_storage_size_bytes — 저장소 크기

a
m
l
# prometheus.yml 스크래이프 구성
scrape_configs:
  - job_name: "qdrant"
    static_configs:
      - targets: ["qdrant:6333"]
    metrics_path: "/metrics"
    scrape_interval: 15s

mmap으로 메모리 최적화 #

최상의 RAM 대 성능 비율을 위해 메모리 매핑을 활성화합니다:

a
s
h
# 환경 변수를 통해 설정
docker run -p 6333:6333 \
  -e QDRANT__STORAGE__ON_DISK_PAYLOAD=true \
  -e QDRANT__STORAGE__PERFORMANCE__IN_MEMORY_INDEX_MAP_THRESHOLD_KB=20000 \
  -v qdrant_data:/qdrant/storage \
  qdrant/qdrant:v1.13.0

이러한 설정으로 Qdrant는 HNSW 그래프만 RAM에 유지하고 디스크에서 원시 벡터를 메모리 매핑합니다. NVMe SSD에서 성능 저하는 일반적으로 15% 미만이며 RAM 사용량을 60-80% 줄입니다.

대안과 비교 #

기능	Qdrant	Pinecone	Weaviate	Chroma	Milvus
라이선스	Apache-2.0	사유	BSD-3	Apache-2.0	Apache-2.0
자체 호스팅	물흘	아니오 (클리우드 전용)	물흘	물흘	물흘
작성 언어	Rust	사유 (Go/Python)	Go	Python	Go/C++
GitHub 스타	~22,000	N/A	~11,000	~16,000	~32,000
최대 벡터 (자체 호스팅)	무제한	N/A	무제한	~100만 (실제)	무제한
P99 지연 (100만 벡터)	22ms	15-30ms	35ms	200ms+	40ms
RAM 사용량 (100만, mmap)	720MB	N/A	1.2GB	2.5GB	1.5GB
페이로드 필터링	우수	양호	양호	기본	양호
전체 텍스트 검색	내장	아니오	BM25 모듈	아니오	아니오
하이브리드 검색	네이티브	희소-밀집	퓨전	아니오	예
수평적 확장	내장	자동	제한적	아니오	예
gRPC API	예	아니오	예	아니오	예
클리우드 제공	Qdrant Cloud	예 (전용)	Weaviate Cloud	Chroma Cloud	Zilliz Cloud
100만 벡터 클리우드 비용/월	~$27	~$70	~$25	~$10	~$65

Qdrant vs Pinecone: 자체 호스팅(데이터 주권, 비용 제어, 커스텀 인프라)이 필요하고 인프라 관리에 부담이 없다면 Qdrant를 선택하세요. Pinecone은 운영 단순성에서 이기지만 가격에 잠기게 하고 데이터를 클라우드로 복사해야 합니다.

Qdrant vs Weaviate: 둘 다 강력한 오픈소스 옵션입니다. Qdrant는 더 나은 원시 성능과 더 낮은 리소스 사용량을 가집니다. Weaviate는 더 많은 내장 AI 통합을 제공하지만 더 높은 복잡성과 리소스 오버헤드가 있습니다.

Qdrant vs Chroma: Chroma는 프로토타이핑과 <10만 벡터에 훌륭합니다. 그 이상에서는 Qdrant가 명백한 승자입니다 — Chroma는 Python으로 작성되었고 대규모 프로덕션 워크로드에 필요한 메모리 효율성과 수평 확장이 부족합니다.

Qdrant vs Milvus: Milvus(와 Zilliz Cloud)는 기업용 대규모 배포(1억+ 벡터)를 대상으로 합니다. 아키텍처가 더 복잡합니다(Etcd, MinIO, Pulsar 필요). 1천에서 5천만 벡터의 경우 Qdrant가 더 간단하고 운영하기 쉽습니다.

한계: 정직한 평가 #

내장 벡터화 없음: Weaviate와 달리 Qdrant는 내적으로 문서를 임베딩하지 않습니다. 삽입 전에 외부에서 임베딩을 생성해야 합니다(OpenAI, Sentence Transformers 등). 이는 의도적인 설계입니다 — 관심사 분리 — 하지만 파이프라인에 한 단계를 추가합니다.
필터 전용 텍스트 검색: 내장 전체 텍스트 검색(v1.9.0+)은 페이로드 필드에서 작동하지만 Elasticsearch를 대체할 수 없습니다. 복잡한 텍스트 분석을 위해 전용 검색 엔진과 함께 Qdrant를 실행하세요.
기여자를 위한 Rust 학습 곡선: API만 사용하는 동안 Qdrant를 포크하거나 패치하려는 조직은 Rust 전문 지식이 필요합니다. 팀은 소규모(~25명 핵심 기여자)이며 Milvus의 더 큰 커뮤니티에 비해 작습니다.
큟러스터링은 여전히 성숙 중: 분산 모드는 작동하지만 Milvus의 일부 엔터프라이즈 기능(교차 클러스터 복제, 세밀한 리소스 격리)이 부족합니다. 대부분의 팀에게 단일 노드에 수직 확장이 요구사항을 처리합니다.
내장 재랭킹 없음: Cohere Rerank 또는 교차 인코더 재랭킹은 애플리케이션 레이어에서 구현해야 합니다. 이는 모든 벡터 데이터베이스에서 공통적이지만 주목할 가치가 있습니다.

자주 묻는 질문 #

100만 벡터를 위한 하드웨어 요구사항은 무엇인가요? #

4 vCPU / 8GB RAM 서버에 NVMe SSD와 mmap 활성화로 100만 개의 1536차원 벡터를 편안하게 처리합니다. mmap 없이는 16GB RAM을 예산에 포함하세요. 쿼리 처리량에 대해 CPU가 RAM보다 더 중요합니다 — 추가 vCPU당 약 200 QPS 용량이 추가됩니다.

Qdrant는 pgvector(PostgreSQL 확장)와 어떻게 비교되나요? #

pgvector는 <10만 벡터와 이미 PostgreSQL을 실행 중인 팀에게 훌륭합니다. 그 이상에서는 Qdrant가 pgvector를 크게 능가합니다: 쿼리 지연 5-10배 빠름, 더 나은 메모리 효율성, 그리고 전문적인 페이로드 필터링. >10만 벡터를 대상으로 하는 새 프로젝트에서는 벡터 검색을 관계형 데이터베이스에 부착하기보다 Qdrant를 직접 선택하세요.

Docker 없이 Qdrant를 실행할 수 있나요? #

네. Linux x86_64, ARM64, macOS, Windows용 사전 빌드된 바이너리를 사용할 수 있습니다. GitHub 릴리스 페이지에서 다운로드하세요. 그러나 더 쉬운 구성 관리, 볼륨 지속성, 재시작 정책으로 인해 프로덕션에는 Docker를 강력히 권장합니다.

Pinecone에서 Qdrant로 어떻게 마이그레이션하나요? #

Qdrant 마이그레이션 도구를 사용하세요:

a
s
h
pip install qdrant-client
qdrant-migrate \
  --source pinecone \
  --pinecone-api-key "YOUR_KEY" \
  --pinecone-index "my-index" \
  --target http://localhost:6333 \
  --target-collection "migrated_docs"

대규모 컬렉션의 경우 마이그레이션은 초당 ~5,000 벡터의 속도로 실행됩니다. 전환 중 유지보수 윈도우 또는 이중 쓰기를 계획하세요.

Qdrant는 하이브리드 검색(밀집 + 희소 벡터)을 지원하나요? #

네, v1.10.0부터 지원합니다. 동일한 컬렉션에 밀집(신경망)과 희소(BM25/TF-IDF) 벡터를 모두 저장하고 쿼리 시점에 결합할 수 있습니다:

h
o
n
from qdrant_client.models import SparseVector

client.search(
    collection_name="documents",
    query_vector=models.NamedVector(
        name="dense",
        vector=[0.1, 0.2, ...],
    ),
    query_sparse_vector=SparseVector(
        indices=[10, 20, 30],
        values=[0.5, 0.3, 0.8],
    ),
    fusion=models.Fusion.RRF,  # 역순위 퓨전
)

이것은 양쪽의 장점을 모두 제공합니다: 밀집 벡터의 의미적 이해와 희소 벡터의 정확한 키워드 매칭.

저장 형식은 무엇인가요? 원시 데이터를 검사할 수 있나요? #

Qdrant는 커스텀 바이너리 형식으로 데이터를 저장합니다(세그먼트 파일 + WAL). 원시 파일을 직접 읽을 수는 없지만 스냅샷을 통해 낼보하거나 scroll API를 사용하여 모든 포인트를 반복할 수 있습니다. 규정 준수 요구사항의 경우 Qdrant 업서트와 함께 객체 저장소(S3/MinIO)에 이중 쓰기를 구현하세요.

결론: 오늘 벡터 데이터베이스 배포하기 #

Qdrant는 벤더 잠금이나 클라우드 비용 없이 프로덕션급 벡터 검색을 제공합니다. 자체 호스팅 경로는 간단합니다:

4 vCPU / 8GB 서버에서 위의 Docker Compose 템플릿으로 시작하세요
규모에 맞는 RAM 효율성을 위해 mmap을 사용하세요
sub-15ms 필터링 검색을 위해 페이로드 필터 필드를 인덱싱하세요
일일 스냅샷과 Prometheus 모니터링을 설정하세요
단일 노드 용량을 초과할 때만(일반적으로 1천만+ 벡터) 클러스터 모드로 업그레이드하세요

GPU 가속 추론이 필요한 중국 팀의 경우, 虎网云 에서 NVMe 저장소가 있는 Qdrant 호환 GPU 서버를 제공합니다. 글로벌 호스팅의 경우, DigitalOcean 과 HTStack 모두 몇 분 안에 Qdrant를 실행하는 원클릭 Docker 배포를 제공합니다.

dibi8.com Telegram 그룹에 참여하여 주간 벡터 검색 아키텍처 팁, 벤치마크 결과, 프로덕션 배포 플레이북을 받아보세요.

참고 자료 및 추가 읽을거리 #

Qdrant 공식 문서 — https://qdrant.tech/documentation/
Qdrant GitHub 저장소 — https://github.com/qdrant/qdrant (22,000+ 스타)
HNSW 알고리즘 논문 — Malkov & Yashunin, “Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs” (2018)
Qdrant Python 클라이언트 문서 — https://python-client.qdrant.tech/
“Vector Databases Compared” — Chip Huyen, 2025
벤치마킹 방법론 — https://qdrant.tech/benchmarks/
Qdrant Cloud 가격 — https://qdrant.to/cloud
“Rust for Data Infrastructure” — Qdrant Engineering Blog, 2024

제휴 공개: 이 기사에는 DigitalOcean, HTStack 및 虎网云的 제휴 링크가 포함되어 있습니다. 이 링크를 통해 서비스를 구매하면 추가 비용 없이 dibi8.com에 수수료가 지급될 수 있습니다. 모든 권장 사항은 진정한 기술 평가를 기반으로 하며, 제휴 가용성에 기반하지 않습니다. 자세한 내용은 전체 공개 정책을 참조하세요.

마지막 업데이트: 2026-05-19. Qdrant v1.13.0, qdrant-client 1.13.0, Python 3.12로 테스트됨.

📦 다음 컬렉션에 포함됨

📚 지식 베이스 스택 →

소개: 모든 AI 팀이 마주하는 벡터 데이터베이스 병목 현상 #

Qdrant란? (한 문장 정의) #

Qdrant 작동 방식: 아키텍처와 핵심 개념 #

HNSW 인덱싱: 핵심 알고리즘 #

세그먼트 기반 저장소 아키텍처 #

페이로드 시스템: 메타데이터 필터링 #

설치 및 설정: 5분 만에 자체 호스팅 Qdrant #

Docker (권장) #

Docker Compose (프로덕션 템플릿) #

바이너리 설치 (Docker 없이) #

설정 파일 #

핵심 작업: 벡터 CRUD #

컬렉션 생성 #

페이로드가 있는 벡터 업서트 #

페이로드 필터링이 있는 검색 #

업데이트 및 삭제 #

주요 도구와 통합 #

Python 클라이언트 (공식) #

JavaScript/TypeScript 클라이언트 #

Go 클라이언트 #

LangChain 통합 #

LlamaIndex 통합 #

벤치마크와 실제 사용 사례 #

성능 벤치마크 (2026년 5월) #

필터링된 검색 성능 #

사례 연구: 전자상거래 제품 검색 #

사례 연구: 법률 문서 검색 #

고급 사용법: 프로덕션 강화 #

분산 클러스터 모드 #

스냅샷과 백업 전략 #

인증 및 보안 #

페이로드 기반 격리로 멀티 테넌시 #

Prometheus 메트릭으로 모니터링 #

mmap으로 메모리 최적화 #

대안과 비교 #

한계: 정직한 평가 #

자주 묻는 질문 #

100만 벡터를 위한 하드웨어 요구사항은 무엇인가요? #

Qdrant는 pgvector(PostgreSQL 확장)와 어떻게 비교되나요? #

Docker 없이 Qdrant를 실행할 수 있나요? #

Pinecone에서 Qdrant로 어떻게 마이그레이션하나요? #

Qdrant는 하이브리드 검색(밀집 + 희소 벡터)을 지원하나요? #

저장 형식은 무엇인가요? 원시 데이터를 검사할 수 있나요? #

결론: 오늘 벡터 데이터베이스 배포하기 #

추천 호스팅 및 인프라 #

참고 자료 및 추가 읽을거리 #

🔗 관련 리소스

📦 다음 컬렉션에 포함됨

💬 댓글 토론