RAG方法论

本文融合实战经验与技术发展趋势，系统总结 RAG 的基本原理、关键步骤、优化手段、评估方法及进阶应用，适用于构建高质量智能问答系统的各类场景。

1️⃣ RAG 简介：原理与核心流程

什么是 RAG？

Retrieval-Augmented Generation（RAG）是一种结合了信息检索与文本生成的混合系统架构。它通过外部文档库检索相关信息，再将检索到的内容与用户问题一起输入大语言模型（LLM），生成回答。

为什么需要 RAG？

LLM 不能长期记住海量事实
模型训练成本高、更新慢
用户希望及时获取最新、准确的内容

核心流程图

用户提问 → 将问题转为 embedding → 向量检索 → 选 Top-K 文档 → 与 query 拼 prompt → 送入 LLM → 输出答案

2️⃣ RAG 核心流程与优化

2.1 文档切分（Chunking）

基础做法：定长切分，每段 300～500 tokens，设 overlap 保留上下文
优化策略：
- ✂️ 语义切分：按段落、标题、句子边界，避免语义中断
- 🧱 结构化处理：识别列表、表格、标题，增强知识边界清晰性
- 🔄 动态窗口：可根据内容密度动态调整切分粒度；可计算块间语义相似度，低于阈值自动合并

2.2 向量构建（Embedding）

基础做法：调用 text-embedding-ada-002 获取句向量
优化策略：
- 🔍 模型选择：推荐使用 bge-m3, text-embedding-3-large, ColBERT
- 🖼️ 多模态支持：图文类文档可用 CLIP, GritLM
- ⚖️ 归一化与量化：向量 L2 归一化提升检索效果；量化减少内存占用

2.3 检索阶段（Retrieval）

基础做法：使用 FAISS / Chroma / Milvus 实现 Top-K 向量相似度检索
优化策略：
- 🔁 Rerank：对 Top-K 文档用 LLM 或 BM25 重新排序
- 🔍 Hybrid Search：关键词 + 向量混合检索，结合语义与精确匹配
- 🏷️ 权重优先级：设置信任源优先返回

2.4 回答生成（Generation）

基础做法：将多个 retrieved chunks 拼接进 prompt，一次性送入 LLM
优化策略：
- 📦 Compress：先压缩多个文档，再聚合生成
- 🔄 Refine / Map-Reduce：先逐段问，再合并总结
- 🧩 Prompt 模板动态拼装：根据 query 类型动态调用不同 prompt 模板
- 🧠 多轮对话: 维护用户意图 - 历史问题, 双向索引，结合 LLM 生成的对话摘要动态更新上下文。

3️⃣ 进阶优化方案

3.1 知识图谱增强 RAG（KG-RAG）

痛点解决：传统 RAG 难以处理多跳关系查询，缺乏可解释性
方法：构建实体图谱（如 Neo4j + NetworkX），图节点嵌入并建立 ID → 向量映射
优势：
- 🔗 结构关系清晰，适合“演员合作”、“因果链”类问答
- 🔍 支持图路径可视化，增强解释能力

3.2 Self-RAG（反思式 RAG）

机制：加入生成反馈机制 → 第一次检索 → 回答 → 自我评估 → 再检索或澄清 → 最终生成
典型技术：Reflection Token / Critique-and-Choose / Selective Retelling
效果提升：准确率、覆盖率、稳健性全面上升

3.3 Agent-RAG（嵌入式智能体）

系统融合：将 RAG 能力嵌入到 LangGraph、AutoGen、CrewAI 等 Agent 流程中
场景优势：
- 🧠 多轮对话：自动检索背景、提出澄清问题
- 🛠️ 执行任务链：结合插件执行动作（如文件查找、接口调用）

4️⃣ RAG 系统评估方法

4.1 检索阶段评估

Recall@K：Top-K 内是否包含答案候选文本，体现召回覆盖能力。
Precision@K：Top-K 结果中真正相关文档占比。
MRR（Mean Reciprocal Rank）：第一个相关结果排名的倒数均值。
NDCG（Normalized Discounted Cumulative Gain）：综合考虑排序与相关性的评分标准，适合多个相关文档的情况。

4.2 生成阶段评估

Factuality：是否陈述真实可验证事实。
Faithfulness：回答是否忠实引用提供的上下文文档。
Coverage：回答是否涵盖用户 query 中提及的核心信息点。
Conciseness：表达是否清晰简洁，无重复冗余。

4.3 专用工具推荐

RAGAS（Open Source）
- 提供 Answer correctness、Source attribution、Context precision、Semantic similarity 等多项子指标
- 支持自动对比生成内容与引用上下文，适用于迭代开发阶段评估 RAG 系统改进
ARES
- 更偏向企业级应用的评估工具
- 提供包含“事实一致性”“语言表达”“检索相关性”等维度的可解释评估分数
- 可与 GPT 打分器集成，进行自动化回归测试
人工评估建议：结合自动评估 + 人工审核方式（尤其在医疗、法律等高风险场景）更具安全性。

5️⃣ 典型应用场景

📚 企业知识库问答

内部文档快速检索
新员工培训助手

🏥 医疗/法律专业问答

精准引用，确保可信
处理法规、诊疗路径等结构化问答

🧑‍💻 技术文档助手

API 帮助中心、产品 FAQ
错误代码、配置项快速定位

🧠 学术问答 / 论文摘要生成

长文档压缩+引用
多篇文献交叉问答

🧩 插件型智能体集成

RAG 作为插件用于多步骤任务中的检索/总结环节

ZYX HOME

Explorer

RAG方法论

1️⃣ RAG 简介：原理与核心流程

什么是 RAG？

为什么需要 RAG？

核心流程图

2️⃣ RAG 核心流程与优化

2.1 文档切分（Chunking）

2.2 向量构建（Embedding）

2.3 检索阶段（Retrieval）

2.4 回答生成（Generation）

3️⃣ 进阶优化方案

3.1 知识图谱增强 RAG（KG-RAG）

3.2 Self-RAG（反思式 RAG）

3.3 Agent-RAG（嵌入式智能体）

4️⃣ RAG 系统评估方法

4.1 检索阶段评估

4.2 生成阶段评估

4.3 专用工具推荐

5️⃣ 典型应用场景

📚 企业知识库问答

🏥 医疗/法律专业问答

🧑‍💻 技术文档助手

🧠 学术问答 / 论文摘要生成

🧩 插件型智能体集成

Graph View

Table of Contents

Backlinks