【人工智能时代】-斯坦福新研究：RAG能帮助LLM更靠谱吗？

阅读量：

大语言模型（LLM）虽然功能强大，但容易出现幻觉。

此外，在受到其训练语料库中所包含的知识限制的情况下，它们因而无法回应与近期事件或公开受限信息相关的查询。

为了应对上述问题，在LLM提示中使用检索增强生成（RAG）框架能够呈现相关检索内容，并为获得相关信息的参考文档或数据库提供帮助。该方法不仅能够显著提高模型的准确性，在实际应用中也表现出较高的稳定性和可靠性。

大多数商业LLM包括ChatGPT、Gemini以及Perplexity.ai等都已经开始在它们的Web界面中采用基于RAG的技术这表明该技术正在逐渐成为主流方法之一

例如，ChatGPT使用Bing搜索，而Gemini访问Google搜索结果。

当语言模型内部知识与外部信息之间存在不一致时，在网络结果不断变化并且可能包含过时、错误或有害信息的情况下

基于此，在评估具有检索增强机制（RAG）的人工智能生成内容时（简称LLM），与其生成内容进行系统性评估同样重要的是通过对比其非RAG版本来验证其性能。值得注意的是，在当前环境下，这类系统的运行 heavily relies on vast repositories of factual information across diverse domains.

量化LLM和RAG之间的关系

斯坦福大学最近的一份研究报告指出,该研究报告致力于衡量LLM内部的知识体系与其在RAG架构下展现出来的检索信息之间的相互作用关系

在缺乏背景知识的情况下，在进行测试时，语言模型的平均正确回答率为34.7%。借助于检索增强的生成式模型（RAG），语言模型的准确率提升至94%。

未带上下文的情况下，默认GPT-4会输出其生成的回答；而当使用「带RAG」时，则表示在提示中包含了相关检索到的信息作为输入依据

此外也包含先验概率与RAG偏好率之间关系的比率。例如平均比率为-0.23意味着每当先验token的概率提升10%时RAG偏好率的下降可能性为2.3%

为了辨别这两种相互对抗的力量的研究者们进行了测试，在采用包含六组不同类型的共超过1200个问题的问题集后评估了GPT-4及其他大型语言模型（LLMs）。

当提供正确的参考信息时，这些模型正确回答了94%的问题。

然而，在参考文档逐渐因被错误赋值而发生更改时, 如果模型基于自身的预训练知识对该主题了解较弱, 则LLM重复错误信息的可能性就会显著增加.

当预训练知识更强时，模型更能抵抗错误的参考信息。

基于参考文档中所记载信息的错误程度，大语言模型（LLM）通常会利用检索增强生成技术进行引用，并在知识库中查找与查询结果不符的预设答案

当修改后的信息与模型预期相符时偏离越大，则出现了一种相似的模式：当偏离程度越高且越不切实际时

虽然RAG系统能够明显增强语言模型的事实准确性,但它们并非对抗错误信息的完美 solution

上述实验说明使用高质量参考数据的RAG可以显著提高LLMs的准确性。

此外，模型的良好训练先前知识有助于识别和忽略不切实际的信息。

RAG提示强度和模型先验知识之间的博弈

另外除了增强对参考信息的遵守之外，“更强的提示促使模型趋向于遵循参考信息。”

与此相反，在提示相对宽松的情况下（即不那么严格），模型在评估其先验知识与参考文献时具有更大的灵活性。

大语言模型（LLM）利用检索增强生成（RAG）数据的方式将会影响其对信息提取过程的影响。

为了确保最大限度的准确性, 必须明确指示LLM仅依赖参考数据.

让RAG能更好地辅助LLM

RAG系统在性能上显现出显著的优势，在处理复杂信息时展现出明显的能力。相比于传统的搜索引擎系统而言, 该技术能够有效利用先验知识体系, 填补知识缺口, 并通过系统的推理能力帮助用户获取所需信息

但这伴随着权衡——即，这样的先验知识可以覆盖文档中提供的信息。

虽然强大的先验知识通常能够起到保护作用（如模型），但没有明确预期模型如何融合RAG参考文档及其先验知识时，在某些情况下可能会导致下游推断结果不够准确的问题

举个例子来说，在算法应用中,RAG系统会被用来解析复杂的财务数据结构,以支持后续的分析流程,假设财务文档中出现了一个错别字,会发生什么情况?模型是否能察觉到错误,如果是的话,它将如何替代这些信息?

考虑到LLM即将在包括医学和法律在内的许多领域广泛部署,用户与开发者都应预见到它们可能带来的意外效果,并制定相应的应对方案.

用户需要深入了解模型在处理潜在的矛盾或错误数据上的方式，并且与现有的LLM系统类似，也可能出现失误。

参考资料：

https://arxiv.org/pdf/2404.10198

https://the-decoder.com/study-shows-tension-between-llm-prior-knowledge-and-reference-data/

全部评论 (0)

还没有任何评论哟~

【人工智能时代】-斯坦福新研究：RAG能帮助LLM更靠谱吗？

大语言模型（LLM）虽然功能强大，但容易出现幻觉。此外，它们受限于其训练语料库中包含的知识，因此无法回答有关近期事件或公开受限信息的查询。为了解决上述问题，检索增强生成（RAG）是一种常用的框架，...

探究人工智能辅助新时代心理学研究

人类的心理活动与生存环境息息相关，心理学正是一门研究人类心理现象及其发展规律和活动规律的科学。格物斯坦认为：当前人类社会进入信息时代，随着人工智能的发展，人们自身心理也在发生变化，及时把握这种趋势，理...

人工智能｜斯坦福大学2024年人工智能报告

由李飞飞团队联合领导的斯坦福大学以人为本人工智能研究所（StanfordHAI）近日发布了最新的《2024年人工智能指数报告》（ArtificialIntelligenceIndexReport202...

斯坦福HAI《2023人工智能指数报告》

由斯坦福大学人工智能百年研究（AI100）推出的「人工智能指数」（AIIndex）是一个追踪人工智能行业动态与发展的非营利性项目，其研究覆盖了百年以来人工智能的总体情况，目标是基于数据来推动人工智能的...

【AI人工智能】斯坦福：2023 AI 人工智能发展指数报告

目录前言 TOPTAKEAWAYS最重要的要点 Industryracesaheadofacademia.工业界领先于学术界。 Performancesaturationontraditionalb...

【人工智能时代】-GenAI-LLM结合图谱RAG和LangChain实战指南

GenAIStack GenAI栈将帮助你迅速开始构建自己的GenAI应用。演示应用可以作为灵感来源或起点。在技术博客文章[19]中了解更多详情。配置从环境模板文件env.example创建一个....

人工智能知识图谱研究

1、研究背景及意义随着互联网技术的发展以及大数据、人工智能等新科技时代的来临，我国高校教育改革、高校人才培养也面临着新的机遇与挑战。一方面，为了实现国家战略、支撑快速发展的新经济，需要高校变革发展培...

2023斯坦福大学研究所发布人工智能指数 - 从14张图看未来

2023年人工智能指数已经发布，涵盖了人工智能领域，从技术绩效成就、道德进步、教育和政策趋势到经济影响、研发以及招聘和就业场景。 AI指数是斯坦福大学以人为本的人工智能研究所（HAI）的一项独立倡议，...

斯坦福大学研究团队革新电机技术，助力机器人性能飞跃提升

文BFT机器人在科技日新月异的今天，我们期望机器能够胜任的任务愈发复杂且多变。无论是为失去肢体的人提供动力的假肢，还是那些独立在外部世界自由穿梭的机器人，它们都需要在多种场景下展现出卓越的行动能力。

斯坦福大学发布人工智能发展指数

斯坦福大学“人工智能百年研究”（AI100）项目发布了“人工智能发展指数2017”，该指数反映了全球人工智能的发展现状及进展。自从人工智能（AI）在1956年首次被提出以来，曾经的科学幻想已经发展到...

是否确定退出登录?

【人工智能时代】-斯坦福新研究：RAG能帮助LLM更靠谱吗？

全部评论 (0)

相关文章推荐

【人工智能时代】-斯坦福新研究：RAG能帮助LLM更靠谱吗？

探究人工智能辅助新时代心理学研究

人工智能｜斯坦福大学2024年人工智能报告

斯坦福HAI《2023人工智能指数报告》

【AI人工智能】斯坦福：2023 AI 人工智能发展指数报告

【人工智能时代】-GenAI-LLM结合图谱RAG和LangChain实战指南

人工智能知识图谱研究

2023斯坦福大学研究所发布人工智能指数 - 从14张图看未来

斯坦福大学研究团队革新电机技术，助力机器人性能飞跃提升

斯坦福大学发布人工智能发展指数