Advertisement

OMGEVAL:An Open Multilingual Generative Evaluation Benchmark for Large Language Models

阅读量:

本文是LLM系列文章,针对《OMGEVAL:An Open Multilingual Generative Evaluation Benchmark for Large Language Models》的翻译。

OMGEVAL:一个开放的大型语言模型多语言生成评估基准

  • 摘要
  • 1 引言
  • 2 背景
  • 3 数据收集
  • 4 实验
  • 5 相关工作
  • 6 结论
  • 8 局限性

摘要

现代大型语言模型(LLM)通常应使来自世界各地不同文化背景的个人受益。然而,最新的LLM高级生成性评估基准主要集中在英语上。为此,我们介绍了OMGEval,这是第一个开源多语言生成测试集,可以评估LLM在不同语言中的能力。对于每种语言,OMGEval提供了804个开放式问题,涵盖了LLM的广泛重要功能,如一般知识、逻辑推理等。每个问题都经过人工注释器的严格验证。值得注意的是,为了充分反映LLM在不同文化背景下的兼容性,我们对每种非英语语言进行了本地化。具体而言,OMGEval的当前版本包括5种语言(即Zh、Ru、Fr、Es、Ar)。继AlpacaEval之后,我们使用GPT-4作为评判器来自动对不同的模型输出进行评分,这与人类评估密切相关。我们在建议的OMGEval上评估了几个具有代表性的多语言LLM,我们相信这将为社区进一步了解和提高LLM的多语言能力提供宝贵的参考。OMGEval可在https://github.com/blcuicall/OMGEval访问.

1 引言

2 背景

3 数据收集

4 实验

5 相关工作

6 结论

在这项工作中,我们提出了一个开放的LLM多语言生成性评估基准,该基准可以为不同文化背景下的LLM提供自动定量评估。我们在OMGEval上评估了几种多语言LLM,包括封闭源代码和开源LLM。

8 局限性

在本文中,我们提出的数据集只包含五种不同文化背景的语言类型。然而,该方法可以很容易地扩展到其他语言。我们把它留给未来的工作,包括更多的语言。

全部评论 (0)

还没有任何评论哟~