-
高级RAG 10纠正性检索增强生成CRAG
直观示例、原则、代码解析及关于CRAG的洞察本文从一个常见场景开始:参加开卷考试。通常,我们有三种策略: 方法1:对熟悉的话题快速作答。对不熟悉的话题,查阅参考书。迅速定位相关章节,在心中整理和总结,然后在试卷上写下答案。 方法2:对每个话题,查阅... -
人工智能写作悖论
根据人们对一眼识别AI生成内容的看法,我父亲使用ChatGPT的时间可能已超过50年。文笔优美的内容并非总是AI生成。如果是AI生成的,是否意味着它写得好?内容是否达到了预期目的?写作质量更多取决于作者的技能,而非所用工具。 关键区别在于,写作工具对... -
高级RAG 09提示压缩
方法分类、算法原理与代码解析RAG 过程可能会遇到两个问题: 大型语言模型(LLM)通常有上下文长度限制。因此,输入文本越长,过程越耗时且成本越高。 检索到的上下文可能并不总是有用。可能只有较大块的一小部分与答案相关。在某些情况下,可能需要结合多个... -
高级 RAG 08自适应 RAG
直观示例、原理、代码解析及自适应RAG的洞察本文以一个常见场景——开卷考试为起点。我们通常有两种策略: 方法一:对于熟悉的话题,迅速作答;对于不熟悉的话题,翻阅参考书查找,快速定位相关部分,在脑海中整理和总结,然后在试卷上作答。 方法二:对于每个话... -
高级RAG 07探索表格的RAG应用
关键技术、现有开源方案,提出并实现新方案实现RAG面临挑战,尤其是在有效解析和理解非结构化文档中的表格方面。 对于扫描文档或图像格式的文档,这一挑战尤为困难。这些挑战至少包括以下三个方面: 扫描文档或图像文档的复杂性,如其多样化的结构、包含非文本元... -
高级 RAG 06探索查询重写
对齐查询与文档语义的关键技术在检索增强生成(RAG)中,我们常遇到用户原始查询的问题,如措辞不准确或缺乏语义信息。例如,像“2020年NBA冠军是洛杉矶湖人队!告诉我什么是langchain框架?”这样的查询,如果直接搜索,可能会从大型语言模型(LL... -
高级 RAG 05探索语义分块
语义分块的原理与应用在解析文档 之后,我们可以获得结构化或半结构化数据。当前的主要任务是将它们分解成更小的块以提取详细特征,然后将这些特征嵌入以表示其语义。其在RAG中的位置如图1所示。 最常用的分块方法通常是基于规则的,采用固定块大小或相邻块重叠等... -
揭示PDF解析如何从科学PDF论文中提取公式
本文是高级RAG 02:揭示PDF解析 的补充。 从科学论文中提取公式一直是一个具有挑战性的任务。 有一些工具可以识别科学论文中的公式,例如: Nougat :用于学术文档的神经光学理解,是一种端到端可训练的编码器-解码器变换器模型,用于将文档... -
高级RAG 04重排序
从原理到两大主流实现方法重排序在检索增强生成(RAG)过程中扮演着至关重要的角色。在简单的RAG方法中,可能会检索到大量上下文,但并非所有上下文都与问题相关。通过重排序,可以对文档进行重新排序和筛选,将相关文档置于前列,从而提升RAG的效果。 本文介... -
高级RAG 03使用RAGAs LlamaIndex进行RAG评估
包含原理、图表和代码如果您为实际业务系统开发了检索增强生成(RAG)应用程序,您很可能会关注其效果。换句话说,您希望评估RAG的表现如何。 此外,如果您发现现有的RAG效果不够理想,您可能需要验证高级RAG改进方法的有效性。换句话说,您需要进行评估,...