A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Mode
发布时间
阅读量:
阅读量
本文是LLM系列文章,针对《CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models》的翻译。
CIF基准:评估大型语言模型泛化能力的汉语指令遵循基准
- 摘要
- 1 引言
- 2 相关工作
- 3 挑战性的语文指令遵循基准
- 4 实验
- 5 结果分析
- 6 结论
- 局限性
摘要
大型语言模型(LLM)的进步通过以下说明增强了在各种看不见的自然语言处理(NLP)任务中进行泛化的能力。然而,在中文等资源匮乏的语言中,它们的有效性往往会降低,数据泄露带来的偏见评估加剧了这种情况,使人们怀疑它们在新的语言领域的真实可推广性。作为回应,我们介绍了汉语指令跟随基准(CIF-Bench),旨在评估LLM对汉语的零样本可推广性。CIF Bench由150个任务和15000个输入输出对组成,由母语人士开发,用于测试20个类别的复杂推理和中国文化的细微差别。为了减轻评估偏差,我们只公开发布了一半的数据集,其余的数据集保密,并引入了多样化的指令来最大限度地减少得分差异,共有45000个数据实例。我们对28个选定的LLM的评估显示出明显的性能差距,最佳模型的得分仅为52.9%,这突出了LLM在不太熟悉的语言和任务环境中的局限性。这项工作旨在揭示LLM在处理中文任务方面的当前局限性,利用发布的数据和基准,推动开发更具文化信息和语言多样性的模型。
1 引言
2 相关工作
3 挑战性的语文指令遵循基准
4 实验
5 结果分析
6 结论
总之,CIF Bench不仅揭示了当前LLM在处理汉语指令后续任务的复杂性方面的局限性,而且为LLM可推广性研究的未来发展提供了一个基础平台。通过这项工作,我们的目标是促进更具适应性、文化意识和语言多样性的语言模型的发展,能够真正理解人类语言的全球织锦并与之互动。
局限性
全部评论 (0)
还没有任何评论哟~
