PageIndex:29K⭐벡터 없는 RAG 시스템, 문서 검색의 혁명
PageIndex는 VectifyAI가 개발한 오픈소스 벡터 없는 RAG 시스템입니다. 29K+ Stars, 문서 트리 구조를 통해 인간과 같은 검색을 구현하며 FinanceBench에서 98.7% 정확도를 달성했습니다.
{</* resource-info */>}
PageIndex란? #
PageIndex는 VectifyAI가 개발한 오픈소스 RAG(검색 증강 생성) 시스템으로, 전통적인 문서 검색 방식을 완전히 바꿉니다. 전통적인 벡터 데이터베이스와 달리 PageIndex는 추론 기반 접근 방식을 사용하여 문서의 계층적 트리 구조를 구축함으로써 인간과 같은 검색을 구현합니다.
- 🌲 트리 구조 인덱스 — 목차처럼 문서를 구성
- 🧠 추론 기반 검색 — LLM 추론, 벡터 유사도가 아님
- ❌ 벡터 데이터베이스 불필요 — 비싼 벡터 저장 비용 절감
- ❌ 청킹 불필요 — 문서의 자연스러운 구조 유지
- 📊 98.7% 정확도 — FinanceBench 벤치마크 SOTA
GitHub: https://github.com/VectifyAI/PageIndex
Stars: 29,202+ | 언어: Python | 라이선스: Apache-2.0
왜 전통적인 RAG가 충분하지 않은가? #
전통적인 벡터 RAG의 문제점 #
| 문제 | 설명 |
|---|---|
| 유사도 ≠ 관련성 | 벡터 검색은 의미적으로 유사한 것을 찾지만, 실제로 관련된 것은 아닐 수 있음 |
| 청킹이 구조를 파괴 | 강제 청킹은 문서의 논리적 구조를 끊음 |
| 블랙박스 검색 | 벡터 검색은 해석 불가능하며, 왜 이 결과가 반환되었는지 추적할 수 없음 |
| 비용이 높음 | 벡터 데이터베이스 유지, 저장 및 계산 비용이 많이 듦 |
| 긴 문서에서 효과가 떨어짐 | 전문적인 긴 문서(재무 보고서, 법적 파일) 검색 정확도가 낮음 |
PageIndex의 해결책 #
PageIndex는 인간 전문가가 문서를 읽는 방식을 모방합니다:
- 먼저 목차 구조(트리 인덱스)를 확인
- 질문에 따라 어떤 장으로 가야 할지 추론
- 관련 장에서 깊이 찾아보기
핵심 기술 원리 #
1. 문서 트리 구조 생성 #
PageIndex는 PDF를 계층적 트리 구조로 변환합니다:
{
"title": "Financial Stability",
"node_id": "0006",
"start_index": 21,
"end_index": 22,
"summary": "The Federal Reserve monitors financial vulnerabilities...",
"nodes": [
{
"title": "Monitoring Financial Vulnerabilities",
"node_id": "0007",
"start_index": 22,
"end_index": 28
}
]
}
2. 추론 기반 트리 검색 #
사용자가 질문하면 LLM은 다음을 수행합니다:
- 질문 이해 — 쿼리 의도 분석
- 트리 구조 탐색 — 어떤 노드에 답이 있을지 추론
- 관련 노드 심층 탐색 — 후보 노드에서 구체적인 정보 찾기
- 결과 반환 — 출처 인용(페이지, 장)과 함께
3. AlphaGo와 유사한 몬테카를로 트리 검색 #
PageIndex는 AlphaGo에서 영감을 받아 트리 검색 알고리즘을 사용합니다:
- 선택 — 가장 유망한 노드 선택
- 확장 — 하위 노드 펼치기
- 평가 — LLM이 노드 관련성 평가
- 역전파 — 노드 가중치 업데이트
빠른 시작 #
설치 #
# 저장소 클론
git clone https://github.com/VectifyAI/PageIndex.git
cd PageIndex
# 의존성 설치
pip3 install --upgrade -r requirements.txt
API Key 설정 #
# .env 파일 생성
echo "OPENAI_API_KEY=your_openai_key_here" > .env
문서 트리 생성 #
# PDF용 PageIndex 트리 구조 생성
python3 run_pageindex.py --pdf_path /path/to/your/document.pdf
선택적 매개변수 #
--model # LLM 모델 (기본: gpt-4o-2024-11-20)
--toc-check-pages # 목차 확인 페이지 (기본: 20)
--max-pages-per-node # 노드당 최대 페이지 (기본: 10)
--max-tokens-per-node # 노드당 최대 토큰 (기본: 20000)
--if-add-node-summary # 노드 요약 추가 (기본: yes)
실전 예시 #
예시 1: 금융 문서 분석 #
from pageindex import PageIndex
# 문서 트리 로드
pi = PageIndex(tree_path="financial_report.json")
# 쿼리
result = pi.query(
"Q3 매출 성장률은 얼마였나요?",
top_k=3
)
print(result.answer)
# "Q3 매출은 전년 동기 대비 23% 성장했으며, 클라우드 서비스가 주도..."
print(result.sources)
# [{"page": 45, "section": "Financial Results", "node_id": "0012"}]
예시 2: 법률 계약 검토 #
# 계약 문서 로드
pi = PageIndex(tree_path="contract.pdf.json")
# 특정 조항 쿼리
result = pi.query(
"7조의 해지 조건은 무엇인가요?"
)
# PageIndex가 자동으로 관련 장을 찾아줍니다
예시 3: 학술 논문 연구 #
# 논문 로드
pi = PageIndex(tree_path="paper.pdf.json")
# 장 간 추론 쿼리
result = pi.query(
"3장의 방법론이 5장의 결과와 어떻게 관련이 있나요?"
)
# PageIndex가 트리 구조를 탐색하여 연관 정보를 찾습니다
경쟁사 비교 #
| 특성 | PageIndex | 전통 벡터 RAG | LlamaIndex | LangChain |
|---|---|---|---|---|
| 벡터 데이터베이스 | ❌ 불필요 | ✅ 필수 | ✅ 필수 | ✅ 필수 |
| 청킹 | ❌ 불필요 | ✅ 필수 | ✅ 필수 | ✅ 필수 |
| 추론 기반 | ✅ | ❌ | ❌ | ❌ |
| 해석 가능성 | ✅ 추적 가능 | ❌ 블랙박스 | ⚠️ 부분적 | ⚠️ 부분적 |
| 긴 문서 | ✅ 우수 | ⚠️ 보통 | ⚠️ 보통 | ⚠️ 보통 |
| 전문 문서 | ✅ 우수 | ⚠️ 보통 | ⚠️ 보통 | ⚠️ 보통 |
| 정확도 | ✅ 98.7% | ~75% | ~80% | ~78% |
비즈니스 모델과 수익 기회 #
1. 엔터프라이즈 문서 분석 #
PageIndex의 Apache-2.0 라이선스는 상업적 사용을 허용합니다:
- 금융 분석 — 재무 보고서, SEC 파일 자동 분석
- 법률 상담 — 계약 검토, 사례 연구
- 의료 문서 — 병록 분석, 의학 문헄
- 정부 파일 — 정책 분석, 법규 검색
2. SaaS 제품 구축 #
PageIndex 기반으로 다음을 구축:
- 지능형 문서 Q&A 플랫폼
- 엔터프라이즈 지식 베이스 시스템
- 자동 보고서 생성기
- 컴플라이언스 검토 도구
3. 컨설팅 서비스 #
PageIndex 관련 다음을 제공:
- 기술 컨설팅
- 맞춤형 개발
- 교육 서비스
성능 벤치마크 #
FinanceBench 테스트 결과 #
| 시스템 | 정확도 |
|---|---|
| PageIndex (Mafin 2.5) | 98.7% |
| 전통 벡터 RAG | ~75% |
| 기타 상업 솔루션 | ~80% |
PageIndex는 금융 문서 Q&A에서 state-of-the-art를 달성하여 추론 기반 검색의 우수성을 입증했습니다.
배포 옵션 #
1. 자체 호스팅 (오픈소스) #
git clone https://github.com/VectifyAI/PageIndex.git
pip3 install -r requirements.txt
python3 run_pageindex.py --pdf_path your.pdf
적합: 기술 팀, 데이터 민감한 시나리오
2. 클라우드 서비스 #
- Chat 플랫폼: https://chat.pageindex.ai
- API: https://pageindex.ai/developer
- MCP 통합: Claude, Cursor 등 지원
적합: 빠른 시작, 프로덕션 환경
3. 엔터프라이즈 버전 #
- 프라이빗 배포
- 맞춤형 OCR 파이프라인
- 전담 지원
커뮤니티와 리소스 #
- GitHub: https://github.com/VectifyAI/PageIndex
- 문서: https://docs.pageindex.ai
- 블로그: https://pageindex.ai/blog
- Discord: https://discord.com/invite/VuXuf29EUj
- API: https://pageindex.ai/developer
요약 #
PageIndex는 RAG 기술의 차세대 진화입니다:
✅ 29K+ Stars — 커뮤니티 인정
✅ 벡터 DB 불필요 — 비싼 인프라 비용 절감
✅ 추론 기반 — 문서 구조를 진정으로 이해
✅ 98.7% 정확도 — 업계 최고
✅ 해석 가능 — 모든 검색이 추적 가능
✅ 오픈소스 — Apache-2.0, 상업 친화적
누구에게 적합한가?
- 금융 분석가: 재무 보고서, SEC 파일 처리
- 법률 고문: 계약 검토, 법규
- 연구원: 논문, 문헄 분석
- 개발자: 문서 AI 애플리케이션 구축
시작하기: https://github.com/VectifyAI/PageIndex
Related Articles #
- Goose AI Agent: 코드와 자동화를 위한 오픈소스 AI 에이전트 — 또 다른 오픈소스 AI 도구
- Free Claude Code: Claude Code CLI를 무료로 사용하는 오픈소스 프록시 도구 — AI 코딩 도구
- Agent Reach: AI 에이전트를 인터넷에 연결하세요 — AI를 인터넷에 연결
- 42 Real-World OpenClaw Use Cases: 사람들이 일상에서 AI 에이전트를 사용하는 방법 — AI 에이전트 사용 사례
Last updated: 2026-05-07