RAG 应该使用多大的 chunk size？

Chunk size 取决于使用场景：事实型问答用 512-1024 tokens，重叠 50-100；代码检索用 256-512 tokens；长文摘要用 2048+ tokens；多跳推理用 512 tokens。建议从递归切分入手，先用 512 tokens、50-token 重叠，再在验证集上根据检索准确率进行调优。

RAG 能在多大程度上减少 LLM 幻觉？

将生成过程锚定在检索到的文档上，可根据领域不同把幻觉减少 40-70%，因为模型是基于准确的检索上下文作答，而不是依赖其参数化记忆。RAG 还增加了来源透明度，用户可以核查是哪些文档支撑了这个回答。

RAG 中的混合检索（hybrid search）是什么？最佳的 alpha 值是多少？

混合检索将向量相似度（语义含义）与 BM25 关键词匹配（精确词项）结合起来。alpha 参数用于平衡两者的权重，1.0 表示纯向量，0.0 表示纯关键词。对于通用 RAG，alpha 取 0.6-0.8 通常效果最好。

如何运行一个完全私有的本地 RAG 流水线？

LLM 用 Ollama 或 vLLM，本地开源 embedding 模型可选用通过 Hugging Face 部署的 BGE（或 nomic-embed-text），本地向量数据库用 Chroma 或 Qdrant。所有组件都在本地或私有 VPC 中运行，零外部 API 调用。Llama 3.1 8B 适用于许多应用，而 Llama 3 70B 可提供接近前沿水平的质量。

Self-RAG、Corrective RAG 和 Agentic RAG 之间有什么区别？

Self-RAG 对 LLM 进行微调，使其在作答前发出反思 token，以判断检索到的信息是否充分。Corrective RAG（CRAG）增加了一个相关性打分步骤，当检索到的文档得分低于阈值时，触发诸如 web 搜索之类的回退策略。Agentic RAG 让 LLM 自主掌控整个检索过程，自行决定搜索什么、何时停止，代价是增加 5-30 秒的延迟。

RAG检索增强生成架构实现指南2025：构建生产级系统

{</* resource-info */>}

RAG（Retrieval-Augmented Generation，检索增强生成）是让大语言模型"开卷考试"的技术——在回答前先从知识库中检索相关文档，将检索结果作为上下文注入提示词，从而显著降低幻觉（Hallucination）并回答训练数据之外的问题。

2025 年，RAG 已从简单的向量检索进化为包含查询改写、混合搜索、重排序、Agent 编排的复杂管道。本文将带你从基础概念到生产级实现，系统掌握 RAG 的完整技术栈。

什么是 RAG？为什么它如此重要？ #

RAG 的基本工作流程 #

一个标准的 RAG 系统包含三个核心步骤：

索引（Indexing）：文档 → 分块 → Embedding → 存入向量数据库
检索（Retrieval）：用户查询 → Embedding → 向量相似性搜索 → Top-K 召回
生成（Generation）：用户查询 + 检索到的文档 → LLM 生成回答

RAG vs 微调：什么时候用哪个？ #

维度	RAG	微调
知识更新	实时（只需更新文档）	需重新训练
事实准确性	高（有据可查）	依赖训练数据
领域适配	快速（几小时搭建）	慢（数天训练）
推理成本	增加检索延迟	无额外延迟
适合场景	知识库问答、文档检索	语气风格定制、推理能力内化

经验法则：如果问题可以通过查文档找到答案，用 RAG；如果需要改变模型的"思维方式"，用微调。两者也可以组合使用。

RAG 架构的七大核心组件 #

一个生产级 RAG 系统由以下组件构成：

文档摄取管道：支持 PDF、Word、HTML、Markdown 等多种格式
文本分块策略：决定文档切分粒度
Embedding 模型：将文本转换为向量表示
向量数据库：存储和检索向量
检索机制：相似性搜索、混合搜索、多查询等
重排序（Re-ranking）：对初步召回结果精排
LLM 生成：基于检索上下文生成最终回答

简单 RAG（Naive RAG）：快速搭建基础版本 #

用 LangChain 实现基础 RAG #

h
o
n
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_community.vectorstores import Chroma
from langchain.chains import RetrievalQA

# 1. 加载文档
loader = PyPDFLoader("document.pdf")
docs = loader.load()

# 2. 分块
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200
)
splits = text_splitter.split_documents(docs)

# 3. 创建向量存储
vectorstore = Chroma.from_documents(
    documents=splits,
    embedding=OpenAIEmbeddings()
)

# 4. 构建 RAG 链
qa = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(model="gpt-4o"),
    retriever=vectorstore.as_retriever(search_kwargs={"k": 4}),
    return_source_documents=True
)

# 5. 查询
result = qa.invoke({"query": "这份文档的核心结论是什么？"})

Naive RAG 的局限 #

基础 RAG 在生产环境中常遇到以下问题：

查询与文档语义不匹配：用户用口语提问，文档用词正式
分块边界断裂：关键信息被切分到两个块中
** Top-K 不够精确**：召回的文档包含噪声
上下文窗口浪费：不相关的文档块占用了宝贵的 token

高级 RAG 技术：从可用到好用 #

查询改写与扩展 #

用户原始查询往往不够精确。以下技术可提升检索质量：

Query Rewriting：用 LLM 将口语化查询改写为更正式的搜索语句
HyDE（Hypothetical Document Embedding）：让 LLM 先生成假设的理想回答，再用这个回答的向量去检索
子查询分解：将复杂问题拆分为多个子问题分别检索
查询扩展：提取关键词同义词，扩展检索覆盖面

h
o
n
# HyDE 示例
from langchain.chains import HypotheticalDocumentEmbedder

hyde_embeddings = HypotheticalDocumentEmbedder.from_llm(
    llm=ChatOpenAI(model="gpt-4o-mini"),
    base_embeddings=OpenAIEmbeddings()
)

# 用生成的假设文档做检索
vectorstore = Chroma.from_documents(documents, hyde_embeddings)

混合搜索（Dense + Sparse） #

纯向量搜索（Dense Retrieval）擅长语义匹配，但在处理特定术语、型号、人名时不如关键词搜索（Sparse Retrieval）。混合搜索将两者结合：

检索方式	优势	劣势
向量搜索（Dense）	语义理解强，容错性好	对精确术语不敏感
关键词搜索（BM25）	精确匹配，计算快	无法理解语义
混合搜索	两者互补	需要额外的融合逻辑

主流向量数据库中，Pinecone 和 Weaviate 原生支持混合搜索。在 LangChain 中可以通过 EnsembleRetriever 实现：

h
o
n
from langchain.retrievers import EnsembleRetriever
from langchain_community.retrievers import BM25Retriever

bm25_retriever = BM25Retriever.from_documents(documents)
vector_retriever = vectorstore.as_retriever()

# 加权融合：60% 向量 + 40% BM25
ensemble_retriever = EnsembleRetriever(
    retrievers=[vector_retriever, bm25_retriever],
    weights=[0.6, 0.4]
)

重排序（Re-ranking） #

初步召回的 Top-K 结果未必是最相关的。用专门的**交叉编码器（Cross-Encoder）**对召回结果精排，可显著提升最终质量。

h
o
n
from langchain.retrievers import ContextualCompressionRetriever
from langchain_community.document_transformers import EmbeddingsRedundantFilter

# 使用 BGE Reranker
from langchain_community.document_transformers import (
    DocumentCompressorPipeline
)

compressor = BgeReranker()  # 轻量级重排序模型
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=retriever
)

常用开源重排序模型：

模型	参数	适用场景
BAAI/bge-reranker-base	约 100M	通用重排序
BAAI/bge-reranker-large	约 300M	高质量需求
BAAI/bge-reranker-v2-m3	约 500M	多语言场景
cohere-rerank-v3	闭源	商业 API，效果顶尖

高级检索策略对比 #

策略	原理	效果提升	额外开销
父文档检索	检索小块，返回完整父文档	上下文更完整	存储冗余
句子窗口	检索句子，返回周围窗口	边界问题减少	存储增加
多查询检索	生成多个查询变体分别检索	覆盖更广	检索次数×N
逐步过滤	元数据过滤 → 向量搜索 → 重排序	精度更高	延迟增加
HyDE	生成假设回答再检索	语义匹配更准	额外 LLM 调用

Modular RAG 与 Agentic RAG：下一代架构 #

Self-RAG：反思式检索 #

Self-RAG 让模型在生成过程中自行判断是否需要检索。模型输出特殊 token（如 [Retrieve]、[NoRetrieve]），系统根据 token 决定是否触发检索。

工作流程：

模型评估当前回答的确定性
如果不确定 → 触发检索获取更多信息
将检索结果融入回答
重复直到回答充分或达到最大迭代次数

Corrective RAG（CRAG） #

CRAG 在 Self-RAG 基础上增加了检索结果评估：

检索文档后，模型评估文档与问题的相关性
如果相关性低 → 改写查询重新检索，或切换到 Web 搜索
如果相关性高 → 使用检索结果生成回答

Agentic RAG：工具编排 #

Agentic RAG 将检索系统包装为 LLM Agent 的工具之一：

h
o
n
from langchain.agents import Tool, AgentExecutor

tools = [
    Tool(name="知识库检索", func=retriever.get_relevant_documents, 
         description="从内部知识库检索文档"),
    Tool(name="网页搜索", func=web_search, 
         description="当知识库无答案时进行网络搜索"),
    Tool(name="计算器", func=calculator, 
         description="执行数学计算"),
]

agent = create_openai_tools_agent(llm, tools, prompt)

Agent 可以自主决定：调用哪个工具、是否需要多次检索、如何综合多个来源的信息。

从零构建生产级 RAG 系统：七步 checklist #

Step 1：数据收集与预处理 #

清理非文本内容（页眉页脚、水印、扫描件 OCR）
提取结构化信息（表格转为 Markdown，保留层级标题）
去重和质量过滤（移除空白页、模板内容）

Step 2：选择 Embedding 模型 #

Massive Text Embedding Benchmark (MTEB) 是选择 Embedding 模型的权威参考：

模型	维度	上下文	特点	排名（MTEB）
text-embedding-3-large	3072	8K	OpenAI 最强，效果好	闭源
BAAI/bge-m3	1024	8K	多语言，开源免费	Top 3
intfloat/multilingual-e5-large	1024	512	多语言，微软出品	Top 5
BAAI/bge-large-en-v1.5	1024	512	英文最佳开源	Top 5

选型建议：中文场景首选 BAAI/bge-m3（免费且多语言能力强）；英文场景可用 text-embedding-3-large（效果最好但收费）。

Step 3：优化分块策略 #

分块策略对检索质量影响巨大：

策略	chunk_size	overlap	适用场景
固定大小	512-1024	100-200	通用场景
语义分块	动态	0	需要保持语义完整性的文档
递归结构	动态	50	有明确层级结构的文档（HTML/Markdown）
Agentic 分块	动态	0	让 LLM 判断最佳分割点

关键原则：

chunk_size 不应超过 Embedding 模型的上下文限制
overlap 帮助保持跨块的上下文连续性
技术文档按标题分块，法律文档按条款分块

Step 4：向量数据库选型与配置 #

参考 “向量数据库对比” 选择合适的数据库。生产环境推荐：

中小规模（< 1000 万向量）：Pinecone Serverless 或 Weaviate Cloud
大规模（> 1000 万向量）：Milvus 自托管或 Zilliz Cloud
快速原型：Chroma（本地）

Step 5：检索调优与评估 #

检索质量的评估指标：

指标	说明	目标值
召回率@K	Top-K 中包含正确答案的比例	> 80%
MRR（平均倒数排名）	正确答案的平均排名倒数	> 0.6
NDCG	考虑排序质量的综合指标	> 0.7

Step 6：LLM 选择与提示工程 #

生产 RAG 常用的提示模板结构：

你是专业助手。请基于以下参考文档回答用户问题。
如果参考文档不包含答案，请明确说明"根据现有资料无法回答"。

参考文档：
{retrieved_documents}

用户问题：{question}

请提供准确、简洁的回答，并在引用处标注文档来源。

LLM 选型建议：

高质量需求：GPT-4o、Claude 3.5 Sonnet
成本敏感：GPT-4o-mini、Llama 3.1 70B（自托管）
中文场景：Qwen2.5 72B

Step 7：端到端测试与部署 #

部署前必须通过以下测试：

** happy path 测试**：常见问题能正确回答
边界测试：知识库外的问题不 hallucinate
压力测试：并发用户下的延迟和稳定性
安全测试：prompt injection 防护

RAG 评估框架 #

RAGAS 框架 #

RAGAS 是目前最流行的 RAG 评估框架，提供以下指标：

指标	衡量内容	计算方式
Faithfulness	回答是否忠实于检索到的文档	对比回答与文档的一致性
Answer Relevancy	回答是否与问题相关	语义相似度评分
Context Precision	检索到的文档中有多少是相关的	精确率计算
Context Recall	相关文档被检索到了多少	召回率计算
Context Relevancy	检索文档的整体相关度	综合评分

h
o
n
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy

result = evaluate(
    dataset=eval_dataset,
    metrics=[faithfulness, answer_relevancy]
)

人工评估指南 #

除自动评估外，建议组织人工评估：

准备 50-100 个标注好的问答对（黄金数据集）
按三个维度打分（1-5 分）：准确性、完整性、流畅性
记录失败案例，针对性优化分块/检索/提示

性能优化策略 #

延迟优化 #

技术	效果	实现难度
查询缓存（Redis）	命中时延迟 < 50ms	低
向量索引预热	避免冷启动	低
Streaming 输出	首 token 延迟降低 60%	中
异步 Embedding	并行处理多个查询	中
模型量化（GPTQ/AWQ）	推理速度提升 2-4x	中

成本优化 #

Embedding 缓存：相同查询不复用 Embedding API
小模型路由：简单问题用 GPT-4o-mini，复杂问题用 GPT-4o
本地 Embedding：用 bge-m3 替代 OpenAI Embedding，零 API 费用
批量处理：文档摄取时批量调用 Embedding API

全本地 RAG 部署方案 #

对于数据隐私要求高的场景，可以完全使用开源组件构建 RAG：

组件	本地替代方案	硬件需求
Embedding 模型	BAAI/bge-m3（Ollama/Hugging Face）	4-8GB 显存
向量数据库	Chroma 或 Milvus	内存/磁盘
LLM	Llama 3.1 8B / Qwen2.5 7B（Ollama）	8-16GB 显存
RAG 框架	LangChain / LlamaIndex	无需 GPU

总硬件需求：一张 RTX 4060 Ti 16GB 即可运行完整的本地 RAG 系统。

RAG 工具与框架对比 #

框架	特点	适用场景
LangChain	生态最完善，组件最丰富	需要高度定制的复杂管道
LlamaIndex	专注 RAG/数据检索，高级抽象	以文档检索为核心的项目
Haystack	企业级，Pipeline 可视化	需要监控和审计的企业环境
RAGFlow	深度文档理解（表格、图片）	复杂格式文档处理

常见陷阱与解决方案 #

问题	原因	解决方案
回答不准确	分块切断了关键上下文	增大 overlap，使用父文档检索
检索不到相关内容	查询与文档用词差异大	查询改写 + 混合搜索
回答包含无关信息	Top-K 不够精确	添加重排序层
处理大文档集合慢	全量向量扫描	元数据预过滤 + 分层索引
多语言文档效果差	Embedding 模型不支持	换用 multilingual 模型（bge-m3）
知识库更新频繁	每次更新需重建索引	增量索引 + 版本管理

常见问题 FAQ #

RAG 和微调有什么区别？

RAG 在推理时动态检索外部知识，知识更新只需更新文档；微调通过训练改变模型权重，知识固化在模型中。RAG 适合知识频繁变化的场景（如客服知识库），微调适合需要内化推理能力的场景。两者可以组合：先用 RAG 提供上下文，再用微调模型生成回答。

RAG 用什么 Embedding 模型最好？

中文场景推荐 BAAI/bge-m3（开源，MTEB 排行榜 Top 3）；英文场景如果预算允许用 OpenAI text-embedding-3-large（效果最佳），否则用 intfloat/multilingual-e5-large。选择时应在你的实际数据上测试召回率，benchmark 排名仅供参考。

如何评估 RAG 系统的效果？

分三层评估：

检索层：用召回率@K、MRR、NDCG 评估检索质量
生成层：用 Faithfulness、Answer Relevancy（RAGAS 框架）评估回答质量
端到端：用人工标注的黄金数据集测试完整链路

建议先用 50-100 个标注好的问答对建立基线，每次优化后对比指标变化。

RAG 可以用本地 LLM 吗？

完全可以。通过 Ollama 运行 Llama 3.1 8B 或 Qwen2.5 7B，配合本地 Embedding 模型（bge-m3）和 Chroma 向量数据库，一张 RTX 4060 Ti 16GB 即可搭建完整的隐私保护 RAG 系统。对于更高质量需求，可用 70B 模型配合 vLLM 加速。

Agentic RAG 和普通 RAG 有什么不同？

普通 RAG 是固定的检索-生成管道。Agentic RAG 将检索系统作为 Agent 的工具之一，Agent 可以自主决定：

是否需要检索（Self-RAG）
使用哪个检索源（内部知识库、网页搜索、数据库）
是否需要多次检索迭代
如何处理矛盾信息

Agentic RAG 更灵活但延迟更高，适合复杂的多步骤查询场景。

更多技术细节可参考 LangChain 文档、LlamaIndex 文档、RAGAS 框架、MTEB Embedding 排行榜及 LangChain GitHub 仓库。

RAG检索增强生成架构实现指南2025：构建生产级系统

什么是 RAG？为什么它如此重要？ #

RAG 的基本工作流程 #

RAG vs 微调：什么时候用哪个？ #

RAG 架构的七大核心组件 #

简单 RAG（Naive RAG）：快速搭建基础版本 #

用 LangChain 实现基础 RAG #

Naive RAG 的局限 #

高级 RAG 技术：从可用到好用 #

查询改写与扩展 #

混合搜索（Dense + Sparse） #

重排序（Re-ranking） #

高级检索策略对比 #

Modular RAG 与 Agentic RAG：下一代架构 #

Self-RAG：反思式检索 #

Corrective RAG（CRAG） #

Agentic RAG：工具编排 #

从零构建生产级 RAG 系统：七步 checklist #

Step 1：数据收集与预处理 #

Step 2：选择 Embedding 模型 #

Step 3：优化分块策略 #

Step 4：向量数据库选型与配置 #

Step 5：检索调优与评估 #

Step 6：LLM 选择与提示工程 #

Step 7：端到端测试与部署 #

RAG 评估框架 #

RAGAS 框架 #

人工评估指南 #

性能优化策略 #

延迟优化 #

成本优化 #

全本地 RAG 部署方案 #

RAG 工具与框架对比 #

常见陷阱与解决方案 #

常见问题 FAQ #

推荐基础设施 #

📦 出现在以下合集中

💬 留言讨论

什么是 RAG？为什么它如此重要？ #

RAG 的基本工作流程 #

RAG vs 微调：什么时候用哪个？ #

RAG 架构的七大核心组件 #

简单 RAG（Naive RAG）：快速搭建基础版本 #

用 LangChain 实现基础 RAG #

Naive RAG 的局限 #

高级 RAG 技术：从可用到好用 #

查询改写与扩展 #

混合搜索（Dense + Sparse） #

重排序（Re-ranking） #

高级检索策略对比 #

Modular RAG 与 Agentic RAG：下一代架构 #

Self-RAG：反思式检索 #

Corrective RAG（CRAG） #

Agentic RAG：工具编排 #

从零构建生产级 RAG 系统：七步 checklist #

Step 1：数据收集与预处理 #

Step 2：选择 Embedding 模型 #

Step 3：优化分块策略 #

Step 4：向量数据库选型与配置 #

Step 5：检索调优与评估 #

Step 6：LLM 选择与提示工程 #

Step 7：端到端测试与部署 #

RAG 评估框架 #

RAGAS 框架 #

人工评估指南 #

性能优化策略 #

延迟优化 #

成本优化 #

全本地 RAG 部署方案 #

RAG 工具与框架对比 #

常见陷阱与解决方案 #

常见问题 FAQ #

推荐基础设施 #

🔗 相关资源推荐

📦 出现在以下合集中

💬 留言讨论