PageIndex:29K⭐革命性 RAG 系统,不用向量数据库也能做文档检索
PageIndex 是什么? PageIndex 是由 VectifyAI 开发的开源 RAG(检索增强生成)系统,它彻底改变了传统文档检索的方式。与传统向量数据库不同,PageIndex 使用推理驱动的方法,通过构建文档的层次树结构来实现人类般的检索。 🌲 树结构索引 — 像目录一样组织文档 🧠 推理驱动检索 — LLM 推理而非向量相似度 ❌ 无需向量数据库 — 省去昂贵的向量存储成本 ❌ 无需分块 — 保持文档自然结构 📊 98.7% 准确率 — FinanceBench 基准测试 SOTA GitHub: https://github.com/VectifyAI/PageIndex Stars: 29,202+ | 语言: Python | 协议: Apache-2.0 为什么传统 RAG 不够好? 传统向量 RAG 的问题 问题 说明 相似度 ≠ 相关性 向量搜索找语义相似的,但不一定是真正相关的 分块破坏结构 强制分块会切断文档逻辑结构 黑盒检索 向量搜索不可解释,无法追溯为什么返回这个结果 成本高昂 需要维护向量数据库,存储和计算成本高 长文档效果差 专业长文档(财报、法律文件)检索精度低 PageIndex 的解决方案 PageIndex 模拟人类专家阅读文档的方式: 先看目录结构(树索引) 根据问题推理应该去哪个章节 在相关章节中深入查找 核心技术原理 1. 文档树结构生成 PageIndex 将 PDF 转换为层次化的树结构: ...