Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models
本文是LLM系列文章,针对《Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models》的翻译。
超越概率:揭示大型语言模型评估中的错位
- 摘要
- 1 引言
- 2 评估大语言模型
- 3 经验证据
- 4 向前推进
- 5 相关工作
- 6 结论
- 局限性
摘要
大型语言模型(LLM)在各种应用程序中表现出了非凡的能力,从根本上重塑了自然语言处理(NLP)研究的格局。然而,最近的评估框架通常依赖LLM的输出概率进行预测,这主要是由于计算限制,与现实世界的LLM使用场景不同。尽管这些基于概率的评估策略被广泛使用,但其有效性仍然是一个悬而未决的研究问题。本研究旨在在使用LLM进行多项选择题(MCQ)的背景下,仔细审查这种基于概率的评估方法的有效性,强调其固有的局限性。我们的实证研究表明,流行的基于概率的评估方法与基于生成的预测不完全一致。此外,由于计算限制,当前的评估框架通常通过基于输出概率的预测任务来评估LLM,而不是直接生成响应。我们说明了这些基于概率的方法不能有效地与生成预测相对应。我们的研究结果可以增强对LLM评估方法的理解,并为该领域的未来研究提供见解。
1 引言
2 评估大语言模型
3 经验证据
4 向前推进
5 相关工作
6 结论
这项工作严格检查了LLM基于概率的评估方法与其在生成文本方面的实际性能之间的一致性,特别是在MMLU、TruthfulQA和Belebele等基准测试上。我们的发现突显了这些预测方法与LLM的实际效用之间的巨大差距,表明当前的方法可能无法准确反映模型的真实世界能力。这些差异要求转向更全面的评估框架,优先考虑生成文本的质量以及模型以类似人类的方式理解和响应的能力。未来的研究应侧重于开发评估指标,以便在实际场景中更准确地捕捉LLM性能的本质。总之,我们的研究强调了修改LLM评估实践的必要性,以确保它们准确估计模型在现实应用中的有效性。通过采用更相关的评估标准,我们可以更好地衡量LLM进步的进展和效用。
