A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Mode

阅读量：

本文是LLM系列文章，针对《CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models》的翻译。

CIF基准：评估大型语言模型泛化能力的汉语指令遵循基准

摘要
1 引言
2 相关工作
3 挑战性的语文指令遵循基准
4 实验
5 结果分析
6 结论
局限性

摘要

大型语言模型（LLM）的进步通过以下说明增强了在各种看不见的自然语言处理（NLP）任务中进行泛化的能力。然而，在中文等资源匮乏的语言中，它们的有效性往往会降低，数据泄露带来的偏见评估加剧了这种情况，使人们怀疑它们在新的语言领域的真实可推广性。作为回应，我们介绍了汉语指令跟随基准（CIF-Bench），旨在评估LLM对汉语的零样本可推广性。CIF Bench由150个任务和15000个输入输出对组成，由母语人士开发，用于测试20个类别的复杂推理和中国文化的细微差别。为了减轻评估偏差，我们只公开发布了一半的数据集，其余的数据集保密，并引入了多样化的指令来最大限度地减少得分差异，共有45000个数据实例。我们对28个选定的LLM的评估显示出明显的性能差距，最佳模型的得分仅为52.9%，这突出了LLM在不太熟悉的语言和任务环境中的局限性。这项工作旨在揭示LLM在处理中文任务方面的当前局限性，利用发布的数据和基准，推动开发更具文化信息和语言多样性的模型。

1 引言

2 相关工作

3 挑战性的语文指令遵循基准

4 实验

5 结果分析

6 结论

总之，CIF Bench不仅揭示了当前LLM在处理汉语指令后续任务的复杂性方面的局限性，而且为LLM可推广性研究的未来发展提供了一个基础平台。通过这项工作，我们的目标是促进更具适应性、文化意识和语言多样性的语言模型的发展，能够真正理解人类语言的全球织锦并与之互动。

局限性

全部评论 (0)

还没有任何评论哟~

A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Mode

本文是LLM系列文章，针对《CIFBench:AChineseInstructionFollowingBenchmarkforEvaluatingtheGeneralizabilityofLargeL...

CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

本文是LLM系列文章，针对《CLongEval:AChineseBenchmarkforEvaluatingLongContextLargeLanguageModels》的翻译。

RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models

本文是LLM系列文章，针对《RefuteBench:EvaluatingRefutingInstructionFollowingforLarge LanguageModels》的翻译。

Evaluating the Generation Capabilities of Large Chinese Language Models

文章目录题目摘要相关工作 CGEval 实验题目评估大型中文语言模型的生成能力论文地址：https://arxiv.org/abs/2308.04823 项目地址：http://cgeva...

MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models

本文是LLM系列文章，针对《MANGO:ABenchmarkforEvaluatingMappingandNavigationAbilitiesofLargeLanguageModels》的翻译。

[BELLE] Towards better instruction following language models for chinese: investigating the impact .

introduction 大部分工作基于llama，GPT3.5和GPT4被用来生成高质量对齐数据，stanfordalpaca利用selfinstruct，基于175个种子任务使用gpt3.5生成了...

Argument Quality Assessment in the Age of Instruction-Following Large Language Models

本文是LLM系列文章，针对《ArgumentQualityAssessmentintheAgeofInstructionFollowingLargeLanguageModels》的翻译。

CyberMetric: A Benchmark Dataset for Evaluating Large Language Models Knowledge in Cybersecurity

本文是LLM系列文章，针对《CyberMetric:ABenchmarkDatasetforEvaluatingLargeLanguageModelsKnowledgeinCybersecurity》...

A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Model

本文是LLM系列文章，针对《LHMKE:ALargescaleHolisticMultisubjectKnowledgeEvaluation BenchmarkforChineseLargeLangu...

FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models

本文是LLM系列文章，针对《FineMath:AFineGrainedMathematicalEvaluationBenchmarkfor ChineseLargeLanguageModels》的翻译...

是否确定退出登录?

A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Mode

CIF基准：评估大型语言模型泛化能力的汉语指令遵循基准

摘要

1 引言

2 相关工作

3 挑战性的语文指令遵循基准

4 实验

5 结果分析

6 结论

局限性

全部评论 (0)

相关文章推荐

A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Mode

CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models

Evaluating the Generation Capabilities of Large Chinese Language Models

MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models

[BELLE] Towards better instruction following language models for chinese: investigating the impact .

Argument Quality Assessment in the Age of Instruction-Following Large Language Models

CyberMetric: A Benchmark Dataset for Evaluating Large Language Models Knowledge in Cybersecurity

A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Model

FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models