Advertisement

(13-5)RAG基础知识介绍:RAG融合、编码器、 LLM 微调和RAG评估

阅读量:

1.5 RAG融合

该方法通过将检索技术和生成模型相结合,在自然语言处理领域实现了增强型生成系统。通过整合检索能力和生成能力的优势,在实现高效信息提取的同时显著提升了文本生成与检索的整体效能。

1.5.1 RAG融合的优点和缺点

RAG融合依赖于检索机制所提供的多维度信息源来优化生成能力,并最终实现对问题解答的全面覆盖与精确度提升。

1****.****RAG融合的优点

  1. 通过多维度的支持:RAG融合技术为用户提供多维度的支持服务, 从而产生更加丰富且多样的搜索结果. 相比传统单一视角的信息处理方式, 这种方法能够整合更多相关知识, 从而生成更加丰富且多方面的信息资源.
  2. 新增了一套调控机制: RAG融合系统新增了一套调控机制, 为用户提供了一套调控机制, 以更好地满足用户的需求和目标.
  3. 智能地纠正拼写错误: 借助LLM作为中介工具, RAG融合系统能够智能地纠正拼写错误, 整合相关上下文信息, 并根据需求筛选相关内容类型.
  4. 灵活运用降低成本: 尽管LLM应用的成本存在争议性问题, 但RAG融合系统的优势在于通过对LLM的灵活运用, 在成本上实现了一定的节约.

****2.****RAG融合的缺点

延时:因LLMs需要消耗大量计算资源,在发送过多请求时可能会导致运行速度减缓,并对用户体验产生负面影响

  1. 可能性风险:虽然自动纠错具有显著优势,在处理特定领域术语或行业用语时可能会出现偏差或误导性信息。
  2. 费用上升:如果RAG融合对系统的整体效益提升有限,则会显著增加运行所需资源及费用。

1.5.2 RAG融合的决策

决定是否采用RAG融合方案时,需综合考虑各方面的利弊。当应用的核心内容围绕常见概念展开时,此时可期待获得明显的改进效果。但当处理大量内部术语或频繁使用的关键词语时,可能需要微调提示机制或相应地优化RAG配置。建议在开发阶段就建立评估机制,以便通过数据进行持续优化,同时考虑对不同提示和搜索功能实施的优化策略。

RAG融合并非适用于所有场景,特别是在以下情况下可能表现不佳。

  1. 当您的内容中包含大量行业术语或过多重复时
  2. 您若使用的LLMs依赖特定技术架构的理解偏差
    并且该系统对某些术语的高度依赖上下文可能会导致检索结果的相关性降低

在这个时候,解决上面场景中的问题的方法有:

  1. 优化系统提示:为LLMs提供更加简洁明了且领域相关的指导信息。
  2. 微调指导:在具体场景下进行指导微调可能是一个有效的方法。
  3. 采用语义搜索:对于成熟的使用场景来说,在语义搜索中检索相关查询信息能够提高准确性。
  4. 借助示例学习上下文理解:向LLMs展示一些示例有助于提升其对特定上下文的理解。
  5. 微调小型LLM:在特定场景下考虑进行微调优化自己的模型,在较小规模的模型中同样可以通过适当的模板设置生成更为符合需求的查询内容。然而需要注意的是这样的做法可能会相应增加系统的复杂性和运行成本。

就其实现而言,在完成基础RAG系统的搭建之后迅速启动评估流程。通过这种安排,在完成基础RAG系统的搭建之后迅速启动评估流程。

就其实现而言,在完成基础RAG系统的搭建之后迅速启动评估流程。通过这种安排,在完成基础RAG系统的搭建之后迅速启动评估流程。

1.6 编码器和 LLM 微调

在RAG管道中进行模型微调是优化两个深度学习模型的关键环节,在这一过程中主要针对其内部结构进行优化,并且在提升系统性能方面具有重要意义的同时还引入了创新的技术手段以及相应的注意事项。

1****.****编码器微调

对Transformer编码器进行微调的主要目标是提升模型性能,并显著提升了信息提取能力。值得注意的是,在进行特定优化后发现性能有显著提升。该策略最佳选择是/最适合用于处理受限领域的数据集,并能显著提高特定领域问题的信息提取能力。

2****.****排名微调

采用交叉编码器对检索结果进行重新组织, 从而能够应对对基础编码器信任度不足的情况。这一过程涉及将查询与前k个检索结果传递给交叉编码器进行处理, 并通过对模型进行微调训练, 在输出结果中用1标记相关段落, 用0标记非相关段落。实验结果显示, 这种方法使成对分数提升了约4%

****3.****LLM微调

借助OpenAI提供的LLM训练接口进行参数微调后,在RAGAS框架下测试表明,在提取了部分GPT-4知识后的新版本中(即对GPT-3.5-turbo进行了参数微调),该方法相较于原始版本表现更为卓越,在准确度提升了约5%的情况下实现了更好的上下文利用能力,并能为用户提供更为精准的信息来源和更具参考价值的回答内容

4****.****Meta AI Research的更复杂方法

在RA-DIT的论文(https://arxiv.org/pdf/2310.01352.pdf)中探讨了一种更为复杂的改进方案。通过对现有API进行优化,并采用开源Llama2模型对OpenAI大语言模型进行重新参数化配置。该改进方案显著提升了知识密集型任务的表现(提升约5%),并在常识推理方面的性能同样取得了明显进步。该系统通过双重编码机制实现了LLM与信息检索系统的协同进化。通过动态调节查询-上下文-答案之间的三元组关系表示能力,整体性能得到了显著增强。

通过编码器与大语言模型(LLM)的联合微调,在RAG管道中实现了明显提升了性能水平的效果;这些优化策略不仅提升了上下文检索的效果,在生成答案质量上也做出了显著改善;经过持续优化后带来了更高效率和精确度的RAG系统架构

1.7 RAG评估

RAG系统的性能评估工作作为确保其正常运转的关键任务,在当前市场环境中各主流框架均包含若干独立的评估指标。这些指标旨在全面考量系统各方面的能力,并具体涉及四个关键维度——总回答的相关性、基础回答的质量、信息的真实可靠性以及检索结果的相关关联度。对RAG系统性能进行评估的常用框架如下所示。

  1. Ragas: 该框架主要依据真实性和答案相关性来评判生成回答的质量, 同时采用传统上下文准确度和召回率等指标对RAG方案进行检索性能评估.
  2. Truelens: 这是一个用于评估的框架, 提出了RAG三元组评价模式, 其包括三个关键指标: 检索内容相关性、回答基于性和回答对问题的相关性. 其中, "即"一词被替换为"其中", 并调整了语序.
  3. LangSmith (由LangChain提供): 该框架不仅支持开发人员自定义性能指标, 而且能够监控整个RAG管道运行状态, 从而提升系统的透明度.
  4. LlamaIndex: 提供了rag_evaluator llama包这一技术支撑, 从而为构建更为先进的评价体系奠定了基础.

上述框架利用一系列独立的指标来进行全方位评估RAG系统的性能特征,并具体涵盖了整体答案的相关性、基础性、准确性以及检索到的相关背景信息等关键维度。这些评估结果能够帮助开发者深入理解系统在各个方面的表现特征,并据此采取针对性优化措施以提升整体效能

在检索过程中具有关键控制作用的核心指标是检索内容的相关性。这些内容涵盖自高级RAG管道的第一至第七阶段(包括分块与向量化阶段、搜索索引阶段、重排与过滤阶段等),并结合编码器与排序器的微调环节。旨在提升上述核心指标。此外,在第8环节中通过对大型语言模型进行微调优化的方式,则聚焦于提升回答的相关性和准确性。

文中可寻见一种简洁且高效的检索器评估管道方案,在编码器微调环节已得到应用。更为先进的方法则不仅关注了精确率(Precision),还引入了诸如平均倒数排名(Mean Reciprocal Rank)等常见搜索引擎评估指标,在生成答案质量方面着重考察真实性与相关性等关键要素,在OpenAI实用指南中有详尽阐述

LangSmith这一较为先进的评估框架不仅支持自定义化设计还具备对RAG流程中的运行状态进行实时监控的能力从而增强了系统运行的透明度。对于基于LlamaIndex构建系统的人来说我们强烈推荐使用rag_evaluator llama pack来进一步提升评估机制的效果。

本篇结束:

(第十四章第一小节)RAG基础知识介绍:基于检索增强的通用检索方法解析-博客

第13章第2节:RAG基础概念解析:RAG体系架构分析-博客

深入解析(13-3)阶段的RAG核心知识:基于博客的标准模型

(13-4)RAG基础知识介绍:高级RAG-博客

参考文献:

深入理解这一主题的一篇全面指南

Advanced RAG Techniques: an Illustrated Overview

全部评论 (0)

还没有任何评论哟~