PageIndex:29K⭐革命性 RAG 系统,不用向量数据库也能做文档检索

PageIndex 是什么? PageIndex 是由 VectifyAI 开发的开源 RAG(检索增强生成)系统,它彻底改变了传统文档检索的方式。与传统向量数据库不同,PageIndex 使用推理驱动的方法,通过构建文档的层次树结构来实现人类般的检索。 🌲 树结构索引 — 像目录一样组织文档 🧠 推理驱动检索 — LLM 推理而非向量相似度 ❌ 无需向量数据库 — 省去昂贵的向量存储成本 ❌ 无需分块 — 保持文档自然结构 📊 98.7% 准确率 — FinanceBench 基准测试 SOTA GitHub: https://github.com/VectifyAI/PageIndex Stars: 29,202+ | 语言: Python | 协议: Apache-2.0 为什么传统 RAG 不够好? 传统向量 RAG 的问题 问题 说明 相似度 ≠ 相关性 向量搜索找语义相似的,但不一定是真正相关的 分块破坏结构 强制分块会切断文档逻辑结构 黑盒检索 向量搜索不可解释,无法追溯为什么返回这个结果 成本高昂 需要维护向量数据库,存储和计算成本高 长文档效果差 专业长文档(财报、法律文件)检索精度低 PageIndex 的解决方案 PageIndex 模拟人类专家阅读文档的方式: 先看目录结构(树索引) 根据问题推理应该去哪个章节 在相关章节中深入查找 核心技术原理 1. 文档树结构生成 PageIndex 将 PDF 转换为层次化的树结构: ...

2026年5月7日 · 3 分钟 · 技术笔记

JustHireMe:AI 帮你自动找工作,从投递到拿到 Offer

问题:找工作就是一份全职工作 投 100 份简历,收到 2 个面试,0 个 Offer。这不是你的问题,是系统的问题。 每个招聘网站都是孤岛: LinkedIn:高级搜索要付费 Indeed:重复职位、过期信息 Glassdoor:薪资数据滞后 公司官网:每个都要重新填写 招聘邮件:99% 已读不回 更痛苦的是:每投一份都要重新写简历、重新写求职信、重新研究公司。 解决方案:JustHireMe JustHireMe 是一个开源的 AI 求职智能工作台。本地优先、隐私安全、一键自动投递。 核心理念:让 AI 做重复工作,你只做决策。 核心功能 1. 智能职位抓取 自动从多个平台抓取职位: LinkedIn、Indeed、Glassdoor AngelList、Hacker News 公司招聘页面 远程工作专区 去重算法:同一职位在不同平台出现,自动合并。 2. AI 匹配度评分 不是关键词匹配,是真正的语义理解: 你的技能 vs 职位要求 你的经验 vs 职位级别 你的薪资期望 vs 预算范围 你的职业目标 vs 公司方向 评分 0-100,只看 80 分以上的职位。 3. 简历自动定制 根据每个职位重写简历: 突出相关技能 调整项目描述 匹配关键词 优化排版格式 不是模板填充,是真正的 AI 重写。 4. 求职信生成 每封求职信都是独一无二的: 研究公司背景 引用具体项目 展示相关经验 表达真诚兴趣 HR 看得出来是模板还是用心写的。 ...

2026年5月7日 · 1 分钟 · 技术笔记

TabPFN: 表格数据基础模型 — 结构化数据的 AI 突破

TabPFN 是什么? TabPFN 是一个表格数据的基础模型 —— 一项突破性的 AI 系统,可以以前所未有的速度和准确性分析结构化表格(电子表格、数据库、CSV 文件)。由 PriorLabs 开发,它消除了传统机器学习所需的复杂超参数调优。 GitHub: https://github.com/PriorLabs/TabPFN Stars: 6,521+ 语言: Python 协议: Apache-2.0 传统表格机器学习的问题 当前工作流程(痛苦) 步骤 时间 专业知识 数据预处理 2-4 小时 数据科学家 特征工程 3-6 小时 领域专家 模型选择 1-2 小时 ML 工程师 超参数调优 4-8 小时 ML 工程师 交叉验证 1-2 小时 ML 工程师 总计 11-22 小时 多位专家 TabPFN 工作流程(简单) 步骤 时间 专业知识 加载数据 1 分钟 任何人 运行 TabPFN 1-10 秒 任何人 获取结果 即时 任何人 总计 ~2 分钟 无需专业知识 TabPFN 如何工作 基础模型方法 TabPFN 在数百万个合成表格数据集上训练,学习跨以下方面的泛化模式: ...

2026年5月6日 · 2 分钟 · Tech Notes

免费 LLM API 资源:无需破产即可访问 AI 模型

什么是免费 LLM API 资源? 免费 LLM API 资源是一个精选的免费大型语言模型推理 API集合 —— 允许开发者在不支付 API 费用的情况下构建 AI 驱动的应用程序。由社区维护,它跟踪哪些提供商提供免费套餐、有哪些模型可用以及如何访问它们。 GitHub: https://github.com/cheahjs/free-llm-api-resources Stars: 20,310+ 语言: Python 协议: CC0-1.0 (公共领域) 问题:AI API 成本 当前定价 (2026) 提供商 模型 输入成本 输出成本 OpenAI GPT-4o $5/百万 tokens $15/百万 tokens Anthropic Claude 3.5 $3/百万 tokens $15/百万 tokens Google Gemini Pro $3.50/百万 tokens $10.50/百万 tokens Mistral Large $4/百万 tokens $12/百万 tokens 问题: 构建 AI 应用每月花费 $50-500 的 API 费用。 解决方案:免费套餐 提供商 免费套餐 速率限制 模型 Groq 100% 免费 20 请求/分钟 Llama 3, Mixtral Together AI $5 额度 60 请求/分钟 各种开源 Fireworks AI 试用 变化 多个 Ollama 本地 无限 自托管 LM Studio 本地 无限 自托管 精选免费提供商 1. Groq — 最快推理 网站: https://groq.com 免费套餐: 完全免费(速率限制) 速度: 800+ tokens/秒 模型: ...

2026年5月6日 · 3 分钟 · Tech Notes