OMGEVAL:An Open Multilingual Generative Evaluation Benchmark for Large Language Models
发布时间
阅读量:
阅读量
本文是LLM系列文章,针对《OMGEVAL:An Open Multilingual Generative Evaluation Benchmark for Large Language Models》的翻译。
OMGEVAL:一个开放的大型语言模型多语言生成评估基准
- 摘要
- 1 引言
- 2 背景
- 3 数据收集
- 4 实验
- 5 相关工作
- 6 结论
- 8 局限性
摘要
现代大型语言模型(LLM)通常应使来自世界各地不同文化背景的个人受益。然而,最新的LLM高级生成性评估基准主要集中在英语上。为此,我们介绍了OMGEval,这是第一个开源多语言生成测试集,可以评估LLM在不同语言中的能力。对于每种语言,OMGEval提供了804个开放式问题,涵盖了LLM的广泛重要功能,如一般知识、逻辑推理等。每个问题都经过人工注释器的严格验证。值得注意的是,为了充分反映LLM在不同文化背景下的兼容性,我们对每种非英语语言进行了本地化。具体而言,OMGEval的当前版本包括5种语言(即Zh、Ru、Fr、Es、Ar)。继AlpacaEval之后,我们使用GPT-4作为评判器来自动对不同的模型输出进行评分,这与人类评估密切相关。我们在建议的OMGEval上评估了几个具有代表性的多语言LLM,我们相信这将为社区进一步了解和提高LLM的多语言能力提供宝贵的参考。OMGEval可在https://github.com/blcuicall/OMGEval访问.
1 引言
2 背景
3 数据收集
4 实验
5 相关工作
6 结论
在这项工作中,我们提出了一个开放的LLM多语言生成性评估基准,该基准可以为不同文化背景下的LLM提供自动定量评估。我们在OMGEval上评估了几种多语言LLM,包括封闭源代码和开源LLM。
8 局限性
在本文中,我们提出的数据集只包含五种不同文化背景的语言类型。然而,该方法可以很容易地扩展到其他语言。我们把它留给未来的工作,包括更多的语言。
全部评论 (0)
还没有任何评论哟~
