Advertisement

Pragmatic Competence Evaluation of Large Language Models for Korean

阅读量:

本文是LLM系列文章,针对《Pragmatic Competence Evaluation of Large Language Models for Korean》的翻译。

大型韩语语言模型的语用能力评价

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 方法
  • 4 实验
  • 5 案例研究:LLM对OEQS反应的深入分析
  • 6 结论与未来工作

摘要

目前对大型语言模型(LLM)的评估主要依赖于通过多项选择题(MCQ)进行测试来关注其嵌入知识的基准,这是一种天生适合自动评估的格式。我们的研究扩展了这一评估,以探索LLM的语用能力——在复杂的LLM出现之前,特别是在韩语的背景下,这一方面以前没有得到充分的研究。我们采用了两种不同的评估设置:适用于自动评估的传统MCQ格式和由人类专家评估的开放式问题(OEQ),以在没有预定义选项的情况下检查LLM的叙述性反应能力。我们的研究结果表明,GPT-4表现出色,在MCQ和OEQ设置中分别获得81.11分和85.69分,HyperCLOVA X是一种针对韩语优化的LLM,紧随其后,尤其是在OEQ设置下,与GPT-4相比,得分为81.56分,边际差为4.13分。此外,虽然少镜头学习策略通常会提高LLM的性能,但思维链(CoT)提示引入了对字面解释的偏见,阻碍了准确的语用推理。考虑到人们对LLM理解和产生符合人类交际规范的语言的期望越来越高,我们的研究结果强调了提高LLM掌握和传达复杂含义的能力的重要性,而不仅仅是字面解释。

1 引言

2 相关工作

3 方法

4 实验

5 案例研究:LLM对OEQS反应的深入分析

6 结论与未来工作

在这项研究中,我们解决了LLM评估中一个未被充分探索的方面——LLM的语用评估,特别关注韩语。我们开发了一个包含120个测试单元的测试集,这些测试单元植根于Gricean会话含义理论,旨在严格评估LLM的语用能力,包括专门用于韩语的LLM。
我们的研究结果表明,GPT-4在MCQ和OEQ设置中都超过了所有竞争机型,HyperCLOVA X和Gemini Pro紧随其后。值得注意的是,MCQ和OEQ格式之间的比较分析展示了HyperCLOVAX显著缩小MCQ测试中观察到的性能差距的能力。同样,LDCC Solar,一种开源LLM,在MCQ设置中表现出优于GPT-3.5的性能,但在OEQ设置中却不足。这些发现突出了LLM能力取决于问题格式的可变性,强调了将OEQ格式纳入整体评估的关键重要性。
此外,我们对上下文学习技术的探索结果喜忧参半;小样本学习通常会提高LLM的性能,而CoT提示会产生负面影响。我们将其主要归因于语用表达的性质,而语用表达往往没有在语义层面上明确说明,导致CoT无意中强调字面解释。
虽然我们的研究对LLM的语用能力进行了全面评估,但我们确定了未来工作中需要改进的两个主要领域。首先,尽管120个单元的测试集(每个Gricean格言30个)产生了有意义的见解,但与LLM评估常用的其他基准相比,这个数量仍然适中。此外,尽管对韩语的关注已经揭示了重要的发现,但LLM的多语言能力仍有待充分探索。这突出了将我们的基准扩展到其他语言的必要性。然而,这种扩展需要的不仅仅是翻译;它需要仔细考虑与每种语言相关的文化细微差别。将这项研究视为一个试点,我们的目标是在未来的工作中解决这些考虑因素,努力为LLM的语用能力的多语言评估开发一个更强大和可靠的框架。

全部评论 (0)

还没有任何评论哟~