Advertisement

CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

阅读量:

本文是LLM系列文章,针对《CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models》的翻译。

CLongEval:一个评估长上下文大语言模型的中文基准

  • 摘要
  • 1 引言
  • 2 CLongEval中的评估框架
  • 3 CLongEval基准
  • 4 实验
  • 5 相关工作
  • 6 结论

摘要

开发具有强大长上下文能力的大型语言模型(LLM)是近年来的研究热点,导致了精通汉语的长上下文LLM的出现。然而,由于缺乏基准,对这些模型的评估仍不完善。为了解决这一差距,我们提出了CLongEval,这是一个评估长上下文LLM的综合中文基准。CLongEval的特点有三个:(1)数据量充足,包括7个不同的任务和7267个例子;(2) 广泛的适用性,适用于上下文窗口大小从1K到100K的模型;(3) 高质量,除了自动构建的标签外,还有2000多个手动注释的问答对。通过CLongEval,我们对6个开源长上下文LLM和2个领先的商业同行进行了全面评估,这些LLM既具有长上下文能力,又精通中文。我们还根据实证结果进行了深入分析,试图阐明在长期环境中提出挑战的关键能力。

1 引言

2 CLongEval中的评估框架

3 CLongEval基准

4 实验

5 相关工作

6 结论

我们提出了一个中文长上下文LLM的基准CLongEval,它包含7个任务和7267个例子。据我们所知,CLongEval是这方面的第一个基准。基于长上下文LLM的两个基本能力,即信息获取和推理,我们收集了相应的任务和数据集进行综合评估。我们以8个长上下文LLM为基准,并对每个细粒度功能进行了深入分析。

全部评论 (0)

还没有任何评论哟~