Document Intelligence

PageIndex: Cách RAG suy luận không vector loại bỏ độ phức tạp của cơ sở dữ liệu vector và nâng cao độ chính xác truy xuất

PageIndex: Cách RAG suy luận không vector loại bỏ độ phức tạp của cơ sở dữ liệu vector và nâng cao độ chính xác truy xuất Mọi nhà khoa học dữ liệu nào đã xây dựng pipeline RAG (Retrieval-Augmented Generation) truyền thống đều quen thuộc với quy trình nhàm chán này: chia tài liệu thành các mảnh nhỏ, tạo embeddings, lưu trữ trong ChromaDB hoặc Pinecone, và hy vọng rằng các điểm tương đồng cosine sẽ mang lại nội dung bạn thực sự cần. Sau đó là vô số lần tinh chỉnh — điều chỉnh kích thước chunk, thay đổi mô hình embedding, hợp nhất BM25 với vector, tìm kiếm cân bằng mong manh giữa precision và recall. Và thậm chí sau tất cả, khi người dùng hỏi “Các yếu tố rủi ro về portfolio phái sinh trong quý III là gì?”, hệ thống có thể trả về các đoạn văn từ một chương không liên quan chỉ vì chúng chia sẻ cùng từ vựng. Tương đồng vector không bằng tính liên quan. ...

PageIndex: How Vectorless Reasoning-Based RAG Eliminates Vector DB Complexity & Boosts Retrieval Accuracy

PageIndex: How Vectorless Reasoning-Based RAG Eliminates Vector DB Complexity & Boosts Retrieval Accuracy Every data scientist who has built a traditional RAG (Retrieval-Augmented Generation) pipeline knows the ritual: dump your documents into chunks, generate embeddings, store them in ChromaDB or Pinecone, and hope the cosine similarity scores bring back what you actually need. Then comes the endless tuning — adjusting chunk sizes, tweaking embedding models, fusing BM25 with vectors, chasing that elusive balance between precision and recall. And even then, when a user asks “What were the Q3 risk factors for our derivatives portfolio?”, the system might return passages about marketing budgets from an unrelated section because they shared similar vocabulary. Vector similarity does not equal relevance. ...

PageIndex: 벡터 기반 없는 추론형 RAG로 벡터 DB 복잡성을 제거하고 검색 정확도를 높이는 방법

PageIndex: 벡터 기반 없는 추론형 RAG로 벡터 DB 복잡성을 제거하고 검색 정확도를 높이는 방법 전통적인 RAG(검색 증강 생성) 파이프라인을 구축해 본 데이터 과학자라면 모두 익숙한 의식을 기억할 것입니다: 문서를 청크로 쪼개고, 임베딩을 생성하고, ChromaDB나 Pinecone에 저장하고, 코사인 유사도 점수가 실제로 필요한 내용을 가져올 것을 기대합니다. 그러면 끝없는 튜닝이 시작됩니다 — 청크 크기 조정, 임베딩 모델 변경, BM25와 벡터 퓨전, 정밀도와 재현율 사이의 미묘한 균형을 추구하는 것. 그럼에도 불구하고 사용자가 “파이낸스 포리오트의 분기 리스크 요소는 무엇이었나요?“라고 물으면, 시스템은 유사한 어휘를 사용했다는 이유로 관련 없는 섹션의 구문을 반환할 수 있습니다. 벡터 유사성은 관련성이 아닙니다. ...

PageIndex：如何通过向量less推理式RAG消除向量数据库复杂性并提升检索准确性

PageIndex：如何通过向量less推理式RAG消除向量数据库复杂性并提升检索准确性每个构建过传统RAG（检索增强生成）管道的数据科学家都熟悉这样的流程：将文档切片成小块，生成嵌入向量，存入ChromaDB或Pinecone等向量数据库中，然后期待余弦相似度分数能够返回你真正需要的内容。随之而来的是无尽的性能调优——调整分块大小、更换嵌入模型、将BM25与向量融合，苦苦追寻精确率与召回率之间的微妙平衡。即便如此，当用户询问"我们的衍生品组合第三季度风险因素是什么？“时，系统可能返回来自无关章节的内容，仅仅因为那段文字使用了相似的词汇。向量相似度不等于相关性。这正是Vectify AI开发的开源项目PageIndex所要解决的核心问题。PageIndex拥有30,297个GitHub星标，每周增长高达4,250个星标，采用了一种截然不同的方法：它不将文本转换为稠密向量嵌入，而是构建文档的层次树索引，并利用大语言模型推理在该树上导航——模拟人类专家从复杂报告中提取知识的方式。其结果是：可解释、可追溯、具备上下文感知能力，并在FinanceBench基准测试中取得98.7%的顶尖准确率。 PageIndex秉持”相似度≠相关性“以及”相关性需要推理“的核心理念，代表了从近似向量搜索到精确推理驱动文档导航的范式转变。无论您是在分析SEC文件、审阅法律合同、扫描学术论文还是调试技术手册，本文将向您展示PageIndex如何彻底改变整个RAG领域。什么是PageIndex？ PageIndex是一个向量less、推理驱动的RAG系统，用一种尊重文档结构的方法取代了传统的向量数据库流水线。它不会将您的PDF文件分割成任意片段并将其嵌入到高维空间中，而是构建一个语义树索引——本质上是一个智能目录——该目录镜像了您文档的逻辑结构。 PageIndex背后的核心洞察灵感来源于AlphaGo的蒙特卡洛树搜索（MCTS）。正如AlphaGo探索分支树中的各种可能走法以找到通往胜利的最优路径一样，PageIndex通过探索文档章节的分层树来找到获取相关信息的最优路径。这种"树搜索"方法意味着系统不只是匹配关键词或寻找相似向量——它会推理整个文档层次结构，以确定哪一部分内容真正包含问题的答案。传统RAG与PageIndex的根本区别传统RAG遵循一个简单的原则：拆分文本、嵌入、通过最近邻搜索进行检索。PageIndex则完全翻转了这一范式：方面传统RAG（ChromaDB/FAISS/Pinecone） PageIndex 索引类型稠密向量嵌入层次树结构文档单元人工分块（500-1000词元）自然文档章节检索方法余弦相似度/ANN搜索 LLM推理遍历树结构可解释性不透明（“直觉检索”）完整的页面引用可追溯性上下文感知单查询静态检索依赖对话历史类人导航无有——模拟专家阅读方式当用户查询一份500页的财务报告时，传统RAG系统可能会根据嵌入相似度返回最相似的前5个片段。但这些片段可能跨越数十个不相关的页面，而且没有办法确定最相关的内容是否包含在前5个候选项中。而使用PageIndex，LLM首先查看树索引，识别哪些分支最可能包含答案，然后只沿相关分支向下遍历——就像金融分析师翻阅报告寻找正确章节一样。这种方法对准确性、速度和成本的深远影响是显而易见的。通过尽早将搜索范围缩小到相关内容区域，PageIndex在不必要Token消耗的同时大幅提升了检索质量。核心功能 PageIndex提供了一系列专门针对基于向量的RAG系统局限性设计的功能： 1. 无需向量数据库与传统RAG流水线需要设置和维护ChromaDB、FAISS、Pinecone或Weaviate等向量数据库不同，PageIndex完全消除了任何专用向量基础设施的需求。您的文档直接由LLM以其自然结构进行处理。这显著简化了部署栈——您只需要一个LLM API密钥和一个Python环境。没有需要重建的向量索引，没有需要调优的维度设置，也没有需要与已索引文档同步的嵌入模型更新。 2. 无需分块分块可以说是任何RAG实现中最令人头疼的决策。分得太小会丢失上下文信息；分得太大则会淹没LLM于无关文本之中。PageIndex通过将文档组织为基于其自然结构的自然章节来绕过这一问题。章节、子节、标题和逻辑分组成为索引单位——而不是任意的词元边界。这保留了语义连贯性，确保检索到的章节包含完整、自包含的信息。 3. 更好的可解释性和可追溯性基于向量的RAG最受诟病的一个方面是其不透明性。当系统返回五个看起来相关的片段时，开发人员通常无法解释为什么选择了这些特定片段，除了它们具有较高的余弦相似度之外。PageIndex提供了完整的可追溯性：每一次检索决策都可以通过引导LLM选择树中特定节点推理步骤来追溯。结果包含精确的页码和章节引用，使得验证检索内容是否确实回答了查询变得非常简单。 4. 上下文感知检索传统RAG将每次查询视为孤立的事件。即使您有多轮对话，检索步骤通常也不会根据先前的交流进行调整。PageIndex明确地将对话历史和领域知识纳入其推理过程中。如果您的第二个问题紧随第一个讨论后的后续问题，检索引擎理解不断演变的上下文并相应地调整其搜索策略。这使得PageIndex在多轮问答场景中特别强大，其中含义会随着对话推进而变化。 5. 类人检索 “PageIndex"这个名字是有深意的——它唤起了翻阅页面并通过直觉和专业技能查找所需内容的动作。PageIndex模拟的正是这种行为：LLM读取树索引，对信息所在位置形成假设，通过深入树中来检验这些假设，并迭代性地完善其搜索。这种类人的导航模式在处理需要深度分析推理的专业任务时已被证明极为有效。 6. 金融行业基准领先 PageIndex为Mafin 2.5提供支持，这是一个推理驱动的RAG系统，在FinanceBench基准测试中取得了突破性的98.7%准确率——这是针对金融文档分析的严格评估体系。这一顶尖成绩在涉及SEC文件、收益报告和监管披露的任务上显著超越了传统基于向量的RAG系统。FinanceBench的领导地位表明，推理驱动的检索在精度和准确性不可妥协的领域表现出色。 PageIndex的工作原理理解PageIndex的架构需要了解支撑每次检索操作的两个阶段流程：树索引生成 followed by 基于推理的检索。第一阶段：生成树结构当您在PageIndex中提供PDF文档时，系统按照以下流水线处理它： PDF输入 → 文本提取 → 章节检测 → LLM分析 → 树索引输出文本提取：PDF被解析为原始文本。PageIndex使用标准PDF解析器从每页提取文本、标头 structural elements和其他结构元素。 ...