Advertisement

Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence

阅读量:

本文是LLM系列文章,针对《Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence》的翻译。

生成人工智能时代大型语言模型基准的不足

  • 摘要
  • 1 引言
  • 2 背景和相关工作
  • 3 LLM基准的统一评估框架
  • 4 技术方面
  • 5 程序性要素
  • 6 人类动态性
  • 7 讨论
  • 8 结论

摘要

具有新兴功能的大型语言模型(LLM)的迅速流行激发了公众对评估和比较不同LLM的好奇心,导致许多研究人员提出了他们的LLM基准。注意到这些基准的初步不足,我们开始了一项研究,在功能和安全的支柱下,通过人员、流程和技术的视角,使用我们新颖的统一评估框架,对23个最先进的LLM基准进行批判性评估。我们的研究发现了重大的局限性,包括偏见、难以衡量真正的推理、适应性、实施不一致性、提示工程的复杂性、评估者的多样性,以及在一次全面评估中忽视文化和意识形态规范。我们的讨论强调迫切需要标准化的方法、监管确定性和基于人工智能(AI)进步的道德准则,包括倡导从静态基准到动态行为分析的演变,以准确捕捉LLM的复杂行为和潜在风险。我们的研究强调了LLM评估方法范式转变的必要性,强调了合作努力对制定普遍接受的基准和加强人工智能系统融入社会的重要性。

1 引言

2 背景和相关工作

3 LLM基准的统一评估框架

4 技术方面

5 程序性要素

6 人类动态性

7 讨论

8 结论

这项研究对LLM基准中的主流方法进行了严格的检查,发现了跨越技术、过程和人类动力学的重大不足,这可能会破坏这些基准的准确性、全面性和安全性。与汽车和航空行业中严格的、共识驱动的基准实践不同,高级人工智能领域缺乏这样的标准化框架,导致许多研究人员提出的LLM基准未能解决现代LLM固有的复杂性,并强调了面对生成型人工智能的快速发展,增强和普遍认可的评估协议的迫切必要性。我们对这一讨论的贡献包括:(i)制定一个以网络安全原则为基础的统一评估框架,旨在识别和解决技术、过程和人为因素方面的不足之处,加强功能和安全评估;(ii)对23个最先进的LLM基准进行彻底的批判,使用反例来确定和展示现有不足的程度和特征;以及(iii)倡导扩大LLM基准,包括LLM行为分析和审计,并辅以制定标准化评估指南。
随着我们离实现AGI越来越近,解决当前基准不足变得至关重要。采用行为分析、独特的功能和安全审计来扩展此类基准可以确保LLM在其应用程序中有效,并增强其安全威胁。实际的下一步可以是建立新的基准,这些基准体现了本文讨论的行为分析和安全审计框架。此外,LLM评估标准化指南的制定也至关重要。为了促进这些进步成为未来的研究方向,我们建议启动一项国际合作倡议,专注于LLM基准的不断发展和完善,确保它们在快速的技术进步中保持相关性和有效性。这一举措将汇集学术界、行业和监管机构的集体专业知识,促进创建创新、值得信赖并有益地融入社会的人工智能系统。

全部评论 (0)

还没有任何评论哟~