论文翻译:Benchmarking Large Language Models in Retrieval-Augmented Generation
https://ojs.aaai.org/index.php/AAAI/article/view/29728
检索增强型生成中的大型语言模型基准测试
文章目录
- 检索增强型生成中的大型语言模型基准测试
- 摘要:本文旨在探讨检索增强型生成系统中大型语言模型的性能评估方法。
- 引言:作为自然语言处理领域的重要研究方向之一,在大规模文档集上实现有效的信息检索与智能文本生成具有重要的理论价值与应用前景。
- 相关工作:现有研究主要集中在基于Transformer架构的语言模型开发及其在文本生成任务中的应用研究。
- 检索增强型生成基准:本研究开发了一套针对检索增强型生成系统的大型语言模型性能评估框架。
- 数据预处理与构建
- 评估指标的设计与应用
第4章 实验设置中包含了多个关键指标的评估结果:噪声环境下的鲁棒性评估结果、基于反事实推断的鲁棒性测试结果、基于信息整合的系统性能评估结果以及反事实推断的鲁棒性测试结果。
- 5 结论
摘要
检索增强型生成(RAG)作为一种有望缓解LLMs幻觉现象的技术手段,在现有研究中仍面临对其在不同LLMs性能层面的具体影响缺乏系统评估的问题。这种局限性使得识别RAG在不同模型能力方面的潜在瓶颈问题变得具有较大的挑战性。为此我们展开了系统性研究工作:具体而言我们考察了RAG对大型语言模型在4种基础能力指标下的性能表现包括噪声鲁棒性负面拒绝信息整合以及反事实鲁棒性等维度的技术特性。基于此我们构建了一个新的RAG基准体系RGB这是一个专门针对评估RAG性能设计的语料库资源库涵盖了英语和中文两种语言版本。该基准体系将评估实例按照上述4个核心能力指标划分为4个独立测试平台以实现精准的技术特性分析进而解决具体应用中的技术难题。随后我们在RGB基准语料库上进行了6个代表性的LLMs模型进行了标准化评测工作以全面诊断当前LLMs应用RAG技术时所面临的关键技术挑战与局限性结果表明尽管这些模型在噪声鲁棒性方面表现尚可但在负面拒绝机制信息整合效率以及处理虚假信息等方面仍存在明显的性能瓶颈问题这表明将RAG技术有效整合到现有的LLMs体系中仍面临着较长的技术发展路径需要克服一系列关键技术创新与实践障碍才能最终实现预期的技术目标
1 引言

图1:LLMs检索增强型生成所需的4种能力的示意图。
近年来,在生成式AI领域取得显著进展的大型语言模型包括 ChatGPT(由 OpenAI 于 早期推出)和 ChatGLM(基于深度 Thinking 人工智能研究院在更晚些时候推出的)。这些模型展示了显著的通用能力 (Bang 等人首次提出并深入探讨了这一方向;Guo 等人则进一步完善了相关理论),但仍面临诸多挑战:首先是事实幻觉问题 (Cao 等人在不同时间节点分别从理论层面进行了深入研究,并提出了新的解决方案;Raunak、Menezes 及 Junczys-Dowmunt 则从实践角度进行了补充);其次是知识更新的问题 (He、Zhang 及 Roth 在较早的研究中就指出这一局限性,并提出了相应的改进措施);此外,在某些专业领域中模型的知识储备仍有待加强 (Li 等人的最新研究及 Shen 等人的相关工作均对此进行了深入探讨)。而通过检索增强型生成技术整合外部知识被视为有望解决这些挑战的技术 (Guu 等人在初步探索的基础上提出了具体的实现框架;Lewis 等人则进一步完善了算法细节)。这种技术的核心在于利用外部资源进行信息检索与整合,并以此提升生成内容的质量与准确性。
然而
本研究
• 抗噪声能力(noise robustness)是LLM的一个重要特性,在本文中我们将其定义为指模型在处理包含干扰信息的情况下依然能够准确提取关键知识的能力。为了验证这一特性,在实验设计中我们采用了以下方法:首先构建了一个包含多个真实案例的数据集;其次通过人工引入不同级别的干扰信息来模拟实际应用场景;最后通过对比分析模型在不同干扰水平下的表现来量化其抗噪声能力。
无效检索结果即为负面拒绝状态,在此情况下LLM应当主动放弃回答问题。该类测试平台设计有具体实例供参考,在这些场景下外部文档均为高度干扰的信息集合。LLMs应显示"信息不足"或其他明确否定性反馈。
考察LLMs的信息整合能力是否能处理涉及多源数据整合的复杂查询。案例图1展示了针对问题"ChatGPT iOS应用程序及其实现版本何时发布?"及"ChatGPT API什么时候推出?"等复杂查询的需求。LLMs应输出相关信息。测试平台设计了若干案例(如案例图1所示),仅允许基于多源数据进行处理。
反事实稳健性是评估LLMs在指令引导下识别检索文档潜在错误方向能力的重要指标。其测试平台涵盖具体案例,并能直接由LLMs生成相关建议。值得注意的是,在外部数据集可能包含真实存在的偏差的情况下进行评估。
基于红绿色光(RGB),我们系统性地对当前最领先的大型语言模型进行了全面评估。该研究涵盖了以下六种代表性模型:ChatGPT(OpenAI 2022)、ChatGLM-6B(THUDM 2023a)、ChatGLM2-6B(THUDM 2023b)、Vicuna-7b(Chiang及其团队 2023年)、Qwen-7B-Chat(Bai等人 2023年)以及BELLE-7B(BELLEGroup 2023年)。研究结果表明:虽然生成式检索增强的方法(RAG)有助于提升大语言模型的回答准确性;但这些方法仍面临诸多挑战:具体而言;我们发现;尽管LLMs在一定程度上表现出抗噪声能力;但它们容易混淆相似的信息;并在存在相关信息时频繁生成不准确的答案。例如;当涉及诺贝尔文学奖问题时;如果外部文档中包含与之相关的嘈杂文档;LLMs可能会混淆并提供不准确的答案。此外;当外部文档中缺乏相关信息时;LLMs往往未能拒绝回答而产生错误答案。再者;LLMs缺乏从多源文档汇总信息的能力;因此在需要多个来源共同回答问题时;现有方法往往无法提供准确的答案。最后;即使LLMs具备所需的知识储备;并能通过指令提示注意检索信息潜在风险;它们仍倾向于优先考虑检索到的信息而非自身的已有知识库。这些实验结果凸显出现有RAG方法体系中仍需解决的关键瓶颈问题:因此需要审慎应对并精心设计其应用方案以期取得理想效果
总的来看,本文的主要贡献在于:
• 我们开发了一种方法来评估LLMs检索增强型生成的能力,并构建了一个包含英语和中文版本的新颖基准体系;目前认为这是首个针对这四种能力构建专门基准的研究。
• 我们基于RGB框架进行评估,并发现了现有模型在这四个关键能力方面存在的局限性。
• 我们研究了LLMs在RGB框架下的表现,并揭示出现有模型在四个关键指标方面仍存在明显缺陷,并指明未来改进的方向。
2 相关工作
增强型检索模型
LLMs的评估机制 由于LLMs展现出显著的通用能力(Chang 等人 2023),其评估逐渐受到学术界和产业界的广泛关注。这一机制使我们得以深入了解LLMs在特定能力和局限性方面的表现,并为其未来发展提供了重要的理论指导。
在过去的几年中,基于GLUE(Wang 等人 2019b)和SuperCLUE(Wang 等人 2019a)等标准的设计始终聚焦于对自然语言处理任务进行评估,尤其是自然语言理解领域的问题解决能力。然而,这些传统评估指标往往无法全面捕捉到LLMs的实际能力。随后提出的MMLU(Hendrycks 等人 2021)旨在衡量语言模型在预训练阶段积累的知识量。随着LLMs技术的进步,在这一领域出现了多个通用性更强的评价基准体系:例如AGIEval(Zhong 等人 2023)、C-Eval(Huang 等人 2023)、AlpacaEval(Li 等人 2023b)、以及OpenLLM排行榜(Edward Beeching 2023)。这些新方法不仅关注通用能力的表现形式,并且逐步细化到模型在特定任务上的应用效果上。除了上述通用性评价体系外,在特定任务领域还出现了多种专门的设计:例如CValues(Xu 等人 2023a)专注于模型的安全性和责任归属问题;M3Exam(Zhang � 等人 2023)则聚焦于模拟人类考试场景;而ToolBench(Qin 等人 2023)则专门研究模型在调用外部工具过程中的表现能力。最近的研究还扩展到了RAG相关的领域:Adlakha等人的工作主要集中在现有问答数据集上进行RAG评价研究。与他们的研究不同,在本工作中我们重点考察了RAG所需的核心能力,并在此基础上构建了专门针对该场景的检索增强型生成基准系统来全面评估LLMs的能力表现

图2展示了数据生成的过程。首先,在第一步中是利用模型从新闻文章中提取出事件、问题和答案。其次,在第二步中是通过搜索引擎检索相关的网页内容。最后,在第三步中是应用密集检索模型来重新排序这些网页内容。
3 检索增强型生成基准
在当前章节中,首先阐述了我们旨在考察的特定检索增强型生成能力。随后详细说明了构建RAG基准构建过程的步骤与方法。最后部分介绍了评估指标的具体情况。
RAG所需能力
外部知识是解决LLMs问题的关键因素之一
噪声鲁棒性指的是模型在面对包含大量噪声数据的情况下依然能够有效提取关键信息的能力
负面拒绝能力则是指模型在无法从现有文档中获取有用信息时能够主动拒绝作答而不产生误导回答的能力
信息整合能力则涉及模型如何从多个来源中提取并综合运用相关信息以形成全面的答案
反事实鲁棒性则衡量了模型在面对外部知识错误或偏差时能否保持稳定性能的能力
数据构建
参考现有LLMs评估标准的基础上
参考现有LLMs评估标准
评估指标
该基准的核心在于评估LLMs是否能够有效利用外部文档获取知识并生成合理答案的能力。我们通过对其响应质量进行系统性评估来考察上述四项关键能力。
准确度指标则用于衡量模型在处理噪声文档时的表现以及其信息整合能力。
针对负面拒绝表现的测定,则采用严格的测试方法:仅提供噪声文档时 LLMs 应当输出特定提示——"该文档中缺乏相关信息"。(我们已明确指导模型)若模型生成此提示,则表示成功避开了无效回答。
事实错误检测能力则通过以下方式测定:当输入包含事实性错误时 LLMs 应当返回指定反馈——"文档中存在事实性错误"。(我们已指示模型)若模型生成此反馈,则表明其具备反事实检验能力。
事实性错误纠正能力则体现在模型能否基于先前识别的事实性错误提供正确答案的能力上:当系统发现文档中的事实性错误后要求生成修正回答,则观察其输出结果如何。
鉴于LLMs可能难以完全遵循指令规定,在测定拒绝对标和事实性错误检测指标时我们另辟蹊径引入 ChatGPT 进行辅助评测工作。
具体而言我们对 ChatGPT 发出指令:"请判断以上回答是否反映了文档中不存在的信息或者是否存在任何事实性错误"。
4实验
在这一段里,我们考察了各类LLMs的表现情况,并探讨和归纳了他们的优缺点。最后得出了现有LLMs在利用外部知识方面存在的主要问题。
设置
任务格式。对于每个问题而言,在我们的研究中包含了5个外部文档来源。
模型

表2:在不同噪声比例下的准确性(%)评估结果构成了表2的基础。从实验结果可以看出,在LLMs中引入高噪声率会对RAG系统带来显著的影响。

表2阐述了噪声鲁棒性方面的错误案例研究,在展示正样本文档与负样本文档的对比中采用ChatGLM2-6B作为生成模型。通过加粗显示匹配部分,并采用斜体突出显示不匹配的内容以增强对比效果。
噪声鲁棒性结果
我们基于外部文档中的不同噪声比例测试了准确性,并将数据结果整理在表1中。通过引入RAG机制,LLMs的响应质量得到了显著提升。尽管存在噪声干扰,在LLMs中引入RAG机制并未显著削弱其性能。当噪声比例超过80%时,在LLMs中引入RAG机制的效果显著下降(具体数据见下文)。例如,在ChatGPT模型中准确率从96.33%降至76.00%,而在ChatGLM2-6B模型中则从91.33%降至57.33%。
错误分析 为了深入分析噪声如何影响模型生成过程,我们回顾了错误回答,并发现这些错误通常源于三个关键因素(如表2所示)。
(1) 远距离信息:当问题相关信息与答案相关信息相距较远时(如表2所示),LLMs往往难以准确识别正确答案。这种现象在网络中较为常见(因为经常需要处理较长的文本),在这种情况下(如表2所示),问题的信息通常在文档开头首次提出后才被引用(如表2所示)。
(2) 不确定性证据:在某些情况下(如新品发布或重大事件宣布),网络上充斥着各种猜测性信息。尽管相关文档明确指出这些信息具有不确定性特征(如表2所示),但它们仍可能干扰LLMs的检索增强型生成过程(如表2所示)。
(3) 概念混淆:外部文档中某些概念可能与问题中的关键词存在相似性但又有所不同(如表2所示)。这种差异可能会导致LLMs产生误解并生成错误结果(如表2所示)。
基于以上分析的结果表明,在检索增强型生成方面存在一定的局限性。为了更好地应对互联网上的大量噪声信息内容需求, 我们建议对模型进行更加细致地强化, 包括但不限于提升长文本建模能力以及深入理解基本概念等措施。
负面拒绝测试平台结果
我们评估了仅提供噪声文档时的拒绝率。结果如表3所示。除了通过完全匹配评估拒绝率(表3中的Rej)外,我们还利用ChatGPT确定LLMs的响应是否包含任何拒绝信息(表3中的Rej*)。我们可以看到:负面拒绝对LLMs中的RAG构成挑战。LLMs在英语和中文中的最高拒绝率分别为45%和43.33%。这表明LLMs容易被噪声文档误导,导致错误答案。
此外,通过比较Rej和Rej*,我们发现LLMs未能严格遵循指令,它们经常生成不可预测的响应,这使得它们难以用作状态触发器(例如,用于识别拒绝)。
我们在表4中进行了案例研究。第一个错误是因为证据不确定性。尽管文档只提到与“Adam McKay”的接触,并没有明确说明他是电影的导演,但模型仍然得出他担任此角色的结论。第一个错误是因为概念混淆。答案中提供的信息涉及的是“2018年冬奥会”,而不是问题中提到的“2022年奥运会”。
相较于直接回答问题而言,在处理负面案例时检索增强型生成面临更大的挑战。其可能导致LLMs误用相关文档从而产生错误响应。未来的发展重点在于提高LLMs准确匹配问题与适当文档的能力。

表3展示了负面拒绝的结果。其中Rej代表(%)的拒绝率,在此标记中使用了斜体以突出显示;而Rej*则指的是由ChatGPT评估得到的具体数值。由此可见,在LLMs中基于RAG的技术体系下实施负面影响reject策略将会遇到诸多挑战

表4:由ChatGLM2-6B生成的负面拒绝错误案例。粗体文本突出显示了错误答案。
信息整合测试平台结果
基于外部文档中设定的不同噪声比例进行准确性评估的结果展示于表5。相较于表1中的模型而言,在信息整合能力方面本研究表现出相对不足。由此可见:
错误分析 我们对ChatGLM2-6B(噪声比例为0)进行了错误分析。除了在噪声鲁棒性实验中发现的类似错误(占总数的38%)外,还有三种独特的错误类型。我们在表6中展示了这些案例。
(1) 合并错误(占总数的28%)。模型有时会合并两个子问题的答案,导致错误。它错误地使用一个问题的答案来回答两个问题。在这一点上,模型将忽略与一个子问题的任何相关文档。例如,在表6中,它错误地声明D组是法国和德国的世界杯小组,而实际上德国实际上被分配到E组。
(2) 忽略错误(占总数的28%)。有时,模型可能会忽略其中一个子问题,只回答另一个。当模型缺乏对问题的完整理解并且未能认识到它包含多个子问题时,就会发生这种错误。结果,模型只考虑一个子问题的相关问题的相关文档来生成答案,忽略了另一个子问题所提出的问题。例如,在表6中,模型只提供了2022年超级碗的MVP的答案,并没有考虑2023年。
(3) 错位错误(占总数的6%)。有时,模型错误地将一个子问题的文档识别为另一个子问题的文档,导致答案错位。例如,在表6中,第三个答案有两个错误:一个忽略错误和一个错位错误。首先,模型只提到了2023年(第95届)奥斯卡最佳影片,完全忽略了2022年的颁奖典礼。此外,它错误地声明“CODA”是2023年的最佳影片,而实际上它是在2022年获得最佳影片奖。
此错误主要源于对复杂问题认识不足所致,并影响到不同子领域间信息的有效整合能力。重点在于增强模型推理能力以避免此类缺陷。一种可能的方法是通过思维链将复杂问题拆解开来以实现高效分析。然而这些策略不仅降低了推理效率还导致无法在短时间内产生有效的回应
反事实鲁棒性测试平台结果
为了使LLMs获得所需的知识背景信息,我们采用了直接询问的方法进行检验。经测试发现绝大多数模型在回答这些问题时表现不佳。为了提高评估的合理性,我们选择准确率达到70%以上的模型作为样本(这个标准相对较高),以涵盖足够多的模型类型。具体包括以下几个方面:不带参考文献的准确率、含反事实文献的准确率、误检率以及纠错能力(如表7所示)。
值得注意的是,检索增强型生成并非旨在自动解决给定上下文中的事实错误的问题。这一设计与模型既缺乏知识又依赖于外部文档以获取额外信息的基本假设直接冲突。然而,在实际应用中这一问题变得愈发突出和紧迫。现有的大语言模型(LLMs)缺乏针对由错误信息导致的回答不准确性的防范机制;实际上,在这种情况下它们仍然严重依赖于检索到的信息。即便这些模型包含有关问题内部知识的信息库;在某些情况下也会信任来自外部来源的错误信息。
这对于LLMs中RAG的未来发展构成了重大挑战。

表5:不同噪声比例下,通过准确性(%)测量的信息整合实验结果。

The table presents the evaluation results of counterfactual robustness. The accuracy (ACC) represents the correctness of LLMs without access to external documents, while document accuracy (ACCdoc) reflects the correctness when LLMs are provided with counterfactual documents. The error detection rates (ED and ED*) are calculated based on exact matching and evaluation using ChatGPT, respectively. The error correction rate (CR) indicates the system's ability to rectify errors.
5 结论
本文探讨了大型语言模型(LLMs)在检索增强型生成任务中的四项关键能力:抗噪声能力、消极拒绝机制、信息整合能力和反事实推理能力。为了展开这项研究和比较分析,在本研究中构建了一个新的检索增强型生成基准(RGB)。该基准(RGB)采用了最新发布的新sp.info新闻文章以及通过搜索引擎获取到的相关外部文档作为数据集。实验结果揭示,在当前技术条件下,在上述四个核心能力方面仍存在显著的性能瓶颈。这些发现进一步表明,在现有技术基础上有效实现检索增强型生成对现有大型语言模型来说仍是一个具有挑战性的研究课题。为了确保大型语言模型能够输出准确且可靠的回答,并且实现对检索增强型生成的有效支持,在设计此类系统时必须谨慎考量各项技术细节并进行深入优化。
