FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models
发布时间
阅读量:
阅读量
本文是LLM系列文章,针对《FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models》的翻译。
FoundaBench:评估大型语言模型的中文基础知识能力
-
摘要
-
1 引言
-
2 相关工作
-
3 中文基础知识基准
-
4 实验
-
- 4.4 结论
-
5 局限性
摘要
在新兴的大型语言模型(LLMs)领域,基础知识的评估仍然是一个关键的挑战,特别是对于适合中国语言和文化的模型。本文介绍了FoundaBench,这是一个旨在严格评估中文LLM基础知识能力的开创性基准。FoundaBench包含3354道常识和K12教育科目的多项选择题,经过精心策划,反映了日常和学术知识的广度和深度。我们使用FoundaBench对12种最先进的LLM进行了广泛的评估,采用传统的评估方法和我们的CircularEval协议来减轻模型响应中的潜在偏差。我们的研究结果突出了在中文语料库上预训练的模型的优越性能,并揭示了模型的推理和记忆回忆能力之间存在显著差异。从FoundaBench评估中获得的见解为理解LLM的基础知识设定了新的标准,为该领域的未来发展提供了强有力的框架。
1 引言
2 相关工作
3 中文基础知识基准
4 实验
4.4 结论
本文介绍了FoundaBench,这是一个全面的基准,用于评估常识和K-12教育科目中大型语言模型的基础知识能力。这一基准通过跨越五个主要类别、18个子类别、35个学科和150个知识点的分类法得到了丰富,并得到了严格的多维质量标准和手动质量控制的支持,以确保与人类基础知识保持一致。通过应用各种评估方法,包括对14个不同模型的零样本、少搜索和循环比较,我们建立了评估LLM基础知识能力的基线。
5 局限性
本研究基于中文情景,为数据集的整理和基础知识的评估设计了一种策略。然而,同样的方法可用于为其他场景策划评估数据集。
全部评论 (0)
还没有任何评论哟~
