【人工智能时代】-斯坦福新研究:RAG能帮助LLM更靠谱吗?
大语言模型(LLM)虽然功能强大,但容易出现幻觉。
此外,在受到其训练语料库中所包含的知识限制的情况下,它们因而无法回应与近期事件或公开受限信息相关的查询。
为了应对上述问题,在LLM提示中使用检索增强生成(RAG)框架能够呈现相关检索内容,并为获得相关信息的参考文档或数据库提供帮助。该方法不仅能够显著提高模型的准确性,在实际应用中也表现出较高的稳定性和可靠性。
大多数商业LLM包括ChatGPT、Gemini以及Perplexity.ai等都已经开始在它们的Web界面中采用基于RAG的技术这表明该技术正在逐渐成为主流方法之一
例如,ChatGPT使用Bing搜索,而Gemini访问Google搜索结果。
当语言模型内部知识与外部信息之间存在不一致时,在网络结果不断变化并且可能包含过时、错误或有害信息的情况下
基于此,在评估具有检索增强机制(RAG)的人工智能生成内容时(简称LLM),与其生成内容进行系统性评估同样重要的是通过对比其非RAG版本来验证其性能。值得注意的是,在当前环境下,这类系统的运行 heavily relies on vast repositories of factual information across diverse domains.
量化LLM和RAG之间的关系
斯坦福大学最近的一份研究报告指出,该研究报告致力于衡量LLM内部的知识体系与其在RAG架构下展现出来的检索信息之间的相互作用关系

在缺乏背景知识的情况下,在进行测试时,语言模型的平均正确回答率为34.7%。借助于检索增强的生成式模型(RAG),语言模型的准确率提升至94%。

未带上下文的情况下,默认GPT-4会输出其生成的回答;而当使用「带RAG」时,则表示在提示中包含了相关检索到的信息作为输入依据
此外也包含先验概率与RAG偏好率之间关系的比率。例如平均比率为-0.23意味着每当先验token的概率提升10%时RAG偏好率的下降可能性为2.3%
为了辨别这两种相互对抗的力量的研究者们进行了测试,在采用包含六组不同类型的共超过1200个问题的问题集后评估了GPT-4及其他大型语言模型(LLMs)。
当提供正确的参考信息时,这些模型正确回答了94%的问题。
然而,在参考文档逐渐因被错误赋值而发生更改时, 如果模型基于自身的预训练知识对该主题了解较弱, 则LLM重复错误信息的可能性就会显著增加.
当预训练知识更强时,模型更能抵抗错误的参考信息。

基于参考文档中所记载信息的错误程度,大语言模型(LLM)通常会利用检索增强生成技术进行引用,并在知识库中查找与查询结果不符的预设答案
当修改后的信息与模型预期相符时偏离越大,则出现了一种相似的模式:当偏离程度越高且越不切实际时
虽然RAG系统能够明显增强语言模型的事实准确性,但它们并非对抗错误信息的完美 solution
上述实验说明使用高质量参考数据的RAG可以显著提高LLMs的准确性。
此外,模型的良好训练先前知识有助于识别和忽略不切实际的信息。
RAG提示强度和模型先验知识之间的博弈
另外除了增强对参考信息的遵守之外,“更强的提示促使模型趋向于遵循参考信息。”
与此相反,在提示相对宽松的情况下(即不那么严格),模型在评估其先验知识与参考文献时具有更大的灵活性。

大语言模型(LLM)利用检索增强生成(RAG)数据的方式将会影响其对信息提取过程的影响。
为了确保最大限度的准确性, 必须明确指示LLM仅依赖参考数据.
让RAG能更好地辅助LLM
RAG系统在性能上显现出显著的优势,在处理复杂信息时展现出明显的能力。相比于传统的搜索引擎系统而言, 该技术能够有效利用先验知识体系, 填补知识缺口, 并通过系统的推理能力帮助用户获取所需信息
但这伴随着权衡——即,这样的先验知识可以覆盖文档中提供的信息。
虽然强大的先验知识通常能够起到保护作用(如模型),但没有明确预期模型如何融合RAG参考文档及其先验知识时,在某些情况下可能会导致下游推断结果不够准确的问题
举个例子来说,在算法应用中,RAG系统会被用来解析复杂的财务数据结构,以支持后续的分析流程,假设财务文档中出现了一个错别字,会发生什么情况?模型是否能察觉到错误,如果是的话,它将如何替代这些信息?
考虑到LLM即将在包括医学和法律在内的许多领域广泛部署,用户与开发者都应预见到它们可能带来的意外效果,并制定相应的应对方案.
用户需要深入了解模型在处理潜在的矛盾或错误数据上的方式,并且与现有的LLM系统类似,也可能出现失误。
参考资料:
https://arxiv.org/pdf/2404.10198
https://the-decoder.com/study-shows-tension-between-llm-prior-knowledge-and-reference-data/
