检索增强生成（RAG）是通过整合外部知识源的额外信息来改进大型语言模型（LLMs）的过程。这使得LLMs能够生成更精确和上下文感知的响应，同时减少幻觉现象。

自2023年以来，RAG已成为基于LLM的系统中最受欢迎的架构。许多产品在功能上高度依赖RAG。因此，优化RAG的性能，使检索过程更快、结果更准确，已成为一个关键问题。

本系列文章将重点介绍高级RAG技术，以提升RAG生成的质量。

朴素RAG回顾

朴素RAG的典型工作流程如图1所示。

如图1所示，RAG主要包含以下步骤：

索引构建：索引过程是离线执行的关键初始步骤。它首先对原始数据进行清洗和提取，将PDF、HTML和Word等多种文件格式转换为标准化的纯文本。为了适应语言模型的上下文限制，这些文本被分割成更小、更易管理的数据块，这一过程称为分块。随后，这些数据块通过嵌入模型转换为向量表示。最后，创建一个索引，将这些文本块及其向量嵌入存储为键值对，从而实现高效且可扩展的搜索能力。
检索：用户查询用于从外部知识源检索相关上下文。为此，用户查询通过编码模型处理，生成语义相关的嵌入。然后，在向量数据库上进行相似度搜索，检索出最接近的前k个数据对象。
生成：用户查询和检索到的附加上下文填充到提示模板中。最终，从检索步骤中得到的增强提示输入到大型语言模型（LLM）中。

朴素RAG的问题

如图2所示，朴素RAG在上述三个步骤中均存在问题（红色虚线框），且有充足的优化空间。

需要注意的是，这些问题的原因可能是多方面的。例如， 如果最终提供给用户的回应包含无关内容，这可能并非仅由 LLM 问题引起。根本原因可能是从 PDF 中提取文档不准确，或是嵌入模型无法准确捕捉语义等。

本文介绍了Naive RAG存在的问题。

本系列的下一部分将提供缓解这些问题并增强RAG效果的措施或解决方案。

最后，若本文存在任何错误或遗漏，敬请指正。

感谢您成为用简单英语社区的一员！在您离开之前：