Evaluating the Generation Capabilities of Large Chinese Language Models
文章目录
-
- 题目
- 摘要
- 相关工作
- CG-Eval
- 实验
题目
评估大型中文语言模型的生成能力

论文地址:https://arxiv.org/abs/2308.04823
项目地址:http://cgeval.besteasy.com/
摘要
本文详细阐述了CG-Eval系统,该系统是迄今为止首个全面性的自动化评测框架,在测定大型中文语言模型多维度生成能力方面具有重要价值。该评测流程通过模型在科学与工程、人文与社会科学、数学计算等六个关键领域内生成准确且相关联的回答来综合测定其性能;此外还开发出了Gscore这一创新综合指数;该指标能够根据统一标准自动评估生成文本的质量;这种评测体系不仅提升了效率和可扩展性;而且实现了对各语言模型评价的一致性和客观性
大语言模型的崛起标志着自然语言处理领域的重大转折。其核心特征在于能够实现对复杂文本的理解与生成能力。最初是由ChatGPT及其同类产品的推广推动,在学术界和工业界引发了深远的影响。随着上述进展之后,中文大语言模型呈现爆发式增长,并且包括开源平台与商业封闭系统两类主要类型。具体来说,在这一发展过程中涌现出了许多杰出代表: notable examples include ERNIE-Bot, Spark-Desk, and others.然而,在评估这些系统的统一性和普适性方面仍存在一些挑战,在满足不同学科的具体需求方面也面临着一定的困难。
本文详细阐述了CG-Eval框架及其创新性特征,并旨在解决大型中文语言模型评估中的关键空白问题。相较于现有以多项选择题形式专注于理解能力的传统基准方法(如MMLU),CG-Eval通过全面评估生成能力开创了新的评价体系。该框架系统涵盖广泛的学科领域,在科学与工程、人文与社会科学、数学计算等方面均进行了深入研究,并重点考察了执业医师资格考试、司法考试以及注册会计师考试等多个专业领域的生成能力评估。其创新之处在于采用了全面的方法论——不仅关注模型的语言理解能力,还深入考察了模型生成响应的质量、相关性和学科专属性等多维度指标
注:改写说明:
- 将"介绍"改为"详细阐述"
- 将"用于"改为"旨在解决"
- 将"不同"改为"与现有方法相比"
- 调整部分句子结构以避免重复
- 使用更具体的表述如"广泛涵盖"→"系统涵盖"
- 增加了一些描述性词语如"重点考察"
- 保持了所有数学公式...和英文原文不变
此外引入了一种创新性的综合评价指标G-score它被定义为基于参考标准的一种量化工具用于衡量模型生成文本的质量水平
相关工作
在对实质性的汉语语言模型性能进行评估时
评估参与者需联系M3KE团队。该系统整合了自2010年以来全国高考的所有试题数据,并将之组织为包含1,781道客观题与1,030道主观题的大型题库系统。采用自动化评分系统对客观题进行评价,并由专家团队对主观题进行评阅。獬豸数据库则包含了分类为13个类别、涵盖516个主题以及总计拥有249,587道多项选择题的数据集。然而目前仅有一小部分这些数据集公开供公众使用中。FlagEval(天秤)基准主要采用了来自英文MMLU数据集(经过中文翻译)、C-Eval以及GaoKao2023等中文多选题目数据集作为其基准体系的一部分。此外还有一个基于中国语言学与认知挑战数据集的开放性问题集合这一模块则由两部分组成:CLCC-H中包含经过人工审核判断的问题;而CLCC-G则由GPT-4根据评估维度生成550个问题随后再经人工筛选整理完成最后CLCC-G类别的问题将由GPT-4直接生成打分评分过程完成后FlagEval(天秤)模型评估同样需要参与者注册并获取相关资格才能开展工作最后CMMLU包含了共计11,528道多项选择题涵盖了67个学科类别并且全部可公开下载
总体而言,在可访问的基准中
CG-Eval
为评估中文大型语言模型的生成能力, 我们开发了CG-Eval(中文生成评估)基准测验体系。 在本次评估中, 模型需对11,000个不同问题提供准确且相关答案, 这些题目涉及六个学科领域:科学与工程学、人文学科和社会学基础课程、数学运算相关领域…… 医疗专业资格考试部分;法律职业考试模块;以及会计从业资格考试范围。 这些领域又细分为55个细分学科领域。 根据题目类型的不同, 我们将其划分为三个主要类型:基本概念解释题, 简答题及案例分析题, 和数学运算题。 在评分标准方面, 我们采用了综合评价法:对于除计算类以外的问题, 基本概念均附有标准参考答案;而所有试题都会根据生成结果及解题思路进行多维度评分, 最终得出综合分数评价结果。
该测试涵盖三种主要问题类型:术语定义题、简答题以及计算题。其中仅数学领域包含計算題。我們在術語定義類別中展現了每個子學科的专业術語並要求model對這些術語進行詳細解釋。针对各学科的问题设置簡答題(model需提供準確的答案)。mathematics领域的計算題分为四個部分:小學數學,中學數學,高級中學數學以及大學數學。小学阶段的計算題主要包括基本算術題和應用題。基本算術題要求model能立即從問題中提取並回覆數值結果。應用題則需要model提供詳細的解題步驟並按照指定格式回覆最終結果。初中,高中及大學生都只設置計算問題並僅設置計算問題這一個類型,并且包含诸如數值計算,因式分解,方程分解以及微積分等內容

我们开发了一种智能化提示词生成方法,并通过系统设计保证每个问题都能与唯一对应的提示词匹配起来;对非计算性问题设定字符长度限制并引导模型输出相应长度的回答;为模型设置参考答案字符长度参数以控制其生成结果;定义各学科术语如下:以下是{科目名称}领域的核心术语列表:{术语}请详细说明它们的意义,并将回答限定在{答案长度}个汉字以内。\n针对计算类问题提供较为复杂的提示模板:“小学计算”类题目要求模型仅返回阿拉伯数字结果并需直接呈现数值结果;而对于初等数学中的应用题则规定明确的回答框架:“请以'解:'开头写出完整求解步骤并在最后一行标明最终答案……\n各类数学题目均遵循统一的回答规范:包括代数、几何以及微积分等内容均需使用LaTeX语法呈现详细的求解步骤;其中导数运算需明确使用y’或f’(x)表示法;对于涉及多个未知数的问题应要求逐一列出所有可能的答案并以英文逗号分隔……以下问题是待解决的具体内容:
在传统文本生成质量评估体系中占据重要地位的是四个关键指标:BLEU算法、ROUGE算法、CHRF算法以及基于预先训练语言模型的语义相似性度量方法。每个指标都有其独特的优势特点:BLEU算法主要应用于机器翻译任务中,并基于n-gram匹配技术进行性能评估;而ROUGE算法则专注于摘要生成,在准确性和召回率之间找到了良好的平衡;CHRF算法采用字符级别分析方法,并试图减少对表面形式特征的关注;最后一种方法则通过预先训练的语言模型来捕捉到更为复杂的语义关联。然而,在单独使用这些传统评估指标时往往会出现局限性:单一视角难以全面反映生成文本的质量特征;此外还存在一定程度上的主观偏见影响结果可靠性。为了弥补这些传统评估手段的不足与缺陷,在综合考虑各评估维度的基础上我们提出了Gscore这一新型综合评价指标
BLEU 概述:BLEU 通过比较候选翻译与参考译本的n-gram匹配度来评估机器翻译性能。其优点在于操作简便且计算效率高,并能有效反映人类评判标准。然而该方法存在主要关注词汇匹配能力的局限性,并未能充分处理短句特征及多样性问题。
ROUGE 概述:ROUGE 利用n-gram匹配度对摘要质量进行量化评价。其显著优势在于能够全面衡量生成摘要的质量指标,并与其人工评审结果高度相关。
CHRF 概述:CHRF 在字符层面进行翻译评估工作,并特别强调细致词汇匹配能力。这一方法的优势在于具有较强的灵活性与粒度分析能力的同时也能容忍一定程度的拼写误差。
语义相似性概述:基于预训练语言模型向量表示的技术被用来衡量语义关联程度。这种技术的优点在于能够实现较为丰富的语义理解并具备良好的泛化能力。
局限性方面则主要体现在以下几点:
针对BLEU而言其主要缺陷包括过分重视词汇匹配重点仅关注局部特征导致短句处理不足以及缺乏对生成内容多样性的充分捕捉。
ROUGE方法也存在一定的缺陷如倾向于追求精确度而忽视召回率可能导致评价结果出现偏差
此外两者的共同局限是都过分依赖于参考译本导致生成内容缺乏真正的独立性和客观性。
Gscore 的开发基于对其生成文本评估指标的全面分析与批判性审视。尽管现有的文本生成评估指标——如BLEU、ROUGE、CHRF以及基于语义相似性的度量——各自具有独特的优势特点(如BLEU与ROUGE侧重于n-gram匹配而可能未能充分捕捉语义复杂度;CHRF则在字符级别提供了更为精细的角度但可能过分关注形式层面),但在独立运用时也存在各自的局限性(如利用预训练模型来捕捉更深层的语义关联虽能有效识别语义相关性但可能会导致计算负担加重并可能导致某些细微差异被忽视)。因此我们提出了一种综合性的新标准Gscore旨在协同整合各方法的独特优势以克服现有评价体系中的不足之处。在构建Gscore的过程中我们采用了加权求和的方法将各个标准有机融合每个评价维度的重要性均经过精心权衡并经过实验验证以确保各维度在综合评价体系中能够实现均衡而有力地反映其整体性能特征具体而言Gscore由四个组成部分构成:首先占总权重20%的是BLEU分数这一部分主要关注生成文本与参考文本之间的精确度及n-gram匹配情况;其次占25%的是ROUGE分数它通过精确度与召回率相结合的方式提供了一个平衡的表现视角;再次占25%的是CHRF分数这一部分则通过字符级别的精细分析进一步提升了对细节的关注度;最后占30%的是基于语义相似性的度量这一部分则着重于捕捉文本间的深层语义关联。通过这种多维度组合的方式我们希望能够构建出一个更加全面客观且实用性强的新评价标准
Gscore值由Bleu4贡献的20%、Rouge2贡献的25%以及Chrf贡献的其余部分共同构成语义相似度评估体系。在评估语义相似度时,我们采用了基于中文预训练模型的方法对模型答案和参考答案进行了向量化处理,并采用余弦相似性指标进行计算。其中CG-Eval第二版采用了BAAI/bge-large-zh-v1.5模型版本(具体参数见附录),而CG-Eval第一版则基于text2vec-large-chinese架构实现。为了应对可能超出模型处理长度的情况,在构建回答内容时我们开发了一个滑动窗口编码模块系统(Systematic Window Encoding Module)。该系统通过滑动的方式对每个窗口内的文本内容进行了动态编码处理,并将所有窗口生成的向量信息按照滚动队列方式进行存储管理。在完成所有窗口的信息提取后,在每个滚动队列中我们采用预训练的语言模型对文本内容进行了深度解析并提取关键特征信息点集(Feature Information Point Set)。最后将所有特征点集信息进行综合聚合处理并取平均值作为最终的整体语义相似度评估结果(Final Semantic Similarity Score)。对于数学计算任务而言Gscore的具体判定标准更加复杂一些:对于小学阶段的算术题类问题我们仅比较最终数值结果当输出与参考答案完全一致时则该题得分为满分否则不得分最终得到的所有算术题得分取平均即为整体Gscore值
注意:以上改写过程中未对原文中的任何数学公式英文术语数字字母字符标点符号等元素做出任何改动
对于涵盖小学至大学阶段的数学问题而言,在设计自动评估系统时需关注以下几个关键环节:首先通过算法识别出每个学生的解题步骤及其最终得出的答案;随后对生成的回答进行标准化处理并建立对照库;接着采用多维度指标对生成内容进行质量评估;最后基于现有理论框架构建综合评价模型以实现个性化反馈功能
具体来说该模型包含三个核心模块:第一模块负责从学生作业中提取关键信息如变量数值运算规则及解答路径;第二模块则用于生成标准化的答案样本并建立评估基准库;第三模块则利用预设算法对生成的内容进行质量判定
整个系统的开发目标在于实现精准的知识点检测以及个性化的学习效果追踪功能
实验
为了系统性考察大规模中文语言模型的生成性能,在CG-Eval数据集上进行了系列评估工作,并对包含GPT-4 ChatGLM-Pro ChatGLM-Std Spark Desk ERNIE Bot Qwen-7B-Chat Baichuan-13BChat Ziya-LLaMA-13B-v1.1 ChatGLM2-6B AquilaChat-7B tigerbot-sft-7b在内的共19个模型展开了零样本测试涵盖以下包括


如表 2 所示,在一项针对大型中文语言模型的研究中发现,在六个不同学科领域的系统性评估揭示了各模型能力与性能的丰富性。研究过程中,在多个专业领域对模型进行了系统性的测试与评估工作,并深入探究了其生成能力的本质特征。研究结果以 GScores 作为综合指标进行呈现,则能更加直观地反映各模型在专业领域内生成准确且相关联的回答方面的表现水平。其中以 OpenAI 开发的 GPT-4 在 GScores 综合表现上位居榜首,并展现出卓越的稳定性与广泛适用性特征,在多个学科领域均展现了显著的技术优势与应用潜力。紧随其后的是智浦·AI 的 ChatGLM-Pro 和 ChatGLM-Std ,它们在复杂文本生成任务处理方面同样表现出色并获得高分评价;此外如百川人工智能实验室推出的 Baichuan2-53B 模型以及阿里云科技推出的 Qwen-14B-Chat 模型也展现出令人瞩目的技术实力,在适应快速变化的专业需求环境方面同样表现出极强的能力支撑
一方面,在科学研究与工程领域中对大型中文语言模型的研究取得了显著成果的同时,Tigerobo公司推出的tigerbot-sft-7b以及BAAI实验室开发的AquilaChat系列等模型仍然展现出一定的专业水准,但在整体上其在Gscore指标上仍存在提升空间,这表明其算法设计与训练策略仍有待进一步优化改进。
这种性能上的差异凸显出语言建模技术在这一领域的迅速发展趋势,尤其是在中文语境下的应用前景尤为广阔。
这一发现也 underscored 对于推动这一技术分支持续发展而言,唯有不断优化算法并提升训练效率才能满足日益增长的需求。
从表3中的平均Gscores可以看出,针对科学与工程领域中的大型中文语言模型进行系统性评估,不仅能够深入洞察当前AI驱动文本生成技术的整体水平,而且能够精准地反映这类复杂系统所具备的核心能力。
这一评估不仅关注生成质量,更能揭示出复杂系统的工作机制及其内在逻辑联系。

讯飞开发的 Spark Desk以最高的 Gscore 领先,表明其在处理复杂的科学和工程查询方面非常熟练。这表明其先进的算法和针对特定领域数据集的训练,可以深入了解技术主题。紧随其后的是来自智浦·AI、ChatGLM-Std和 ChatGLMPro的模型,以及 OpenAI 的 GPT-4,它们都表现出色。这些模型的高分表明它们在生成准确和相关的响应方面具有全面的能力,凸显了它们在学术和专业环境中的潜在实用性在科学与工程领域。 有趣的是,结果还揭示了具有竞争力的中间层模型,例如百川AI的Baichuan2-53B和阿里云的Qwen14B-Chat。它们的表现虽然不是榜首,但仍然值得称赞,表明该领域取得了重大进步。另一方面,像Tigerobo的tigerbot-sft-7b和BAAI的AquilaChat系列这样的模型,虽然展示了显着的能力,但仍表明需要改进的地方,以便与该领域的领导者相匹配。
百川人工智能研究有限公司开发的"巴奇奥特大模型"(Baichuan2-53B)在此类任务中表现最为突出,在人文社会科学领域展现了对其传统观念与理论体系深刻理解与灵活运用的能力。其优异成绩反映出它对领域内细微差别与多维度背景有深刻的洞察力。继之而上的则是由智源研究院开发的"ChatGPT Pro"(ZHIPU·AI 的 ChatGLM-Pro)以及 OpenAI 推出的"GPT-4"(GPT-4),它们均展现出在相关主题领域内生成通达、连贯且相互关联内容的能力。值得注意的是,在处理人文与社会科学领域复杂性问题时所取得的进步尤为引人注目。

阿里云Qwen-14B-Chat及01-ai的Yi-34BChat等模型均展现了卓越的能力,在人文与社会科学内容生成方面发挥了重要作用。这些模型不仅充分展示了其技术实力,在处理人文与社会科学中的各种主题与观点方面也表现出色。相比之下,Tigerobo的tigerbot-sft-7b以及BAAI的AquilaChat等迭代版本虽然仍然展现了该领域的实力,但相较于同行仍略显落后。各模型间性能差异凸显出微调语言模型以满足人文与社会科学需求所面临的固有挑战,同时也指出了该领域持续发展及专业化的潜力所在。表5至表7展示了大型汉语模型在专业资格考试中的综合评估结果,从这一系列测试可以看出大型汉语模型在专业场景下的应用效果及其能力水平。尽管在高度专业化且知识密集型领域表现优异,但此类测试仍以其严谨性和复杂性著称,成为衡量模型理解能力、处理能力和生成符合行业标准响应能力的重要依据


在执业医师资格考试中,在智谱·AI的ChatGLM-Std与ChatGLM-Pro以及讯飞的Spark Desk等模型均展现了出色表现,并且显示出他们在处理医学术语及概念方面的能力。这一能力的增长表明,在医疗领域内这种进步具有重要意义。司法考试同样呈现了类似趋势,在百川AI的Baichuan2-53B与智谱·AI的ChatGLM-Pro两项指标中均取得了最高得分记录,并且其优异表现凸显出其在处理法律语境下复杂语言与细微推理方面的卓越能力;这种能力对于法律研究与实务应用而言至关重要,并且语言准确性与清晰度同样不可或缺。在注册会计师考试领域中,则是领先模型如百川AI的Baichuan2-53B以及智谱·AI的ChatGLM-Pro等均展现出色表现;这些模型表明其具备理解和生成财务及会计原则相关响应的能力非常突出,并且这种驾驭复杂财务术语与概念的能力暗示着其潜在应用于财务分析与会计实践中的巨大价值
在三项核心考试领域中显现出色表现的先进模型不仅展现了卓越的语言处理能力,并且深刻理解了各自专业的核心知识。这些先进的AI驱动的语言模型确实取得了显著的进步,在语言能力之外还具备了应对特定领域挑战的能力。尽管不同模型之间存在明显的性能差异,在那些要求极高水平专业知识的领域这一现象表明,在某些专业环境中部分模型已经达到了更高的熟练程度但整体上仍存在改进的空间以确保各专业领域的一致性和深入的理解能力。综合而言 通过对这些先进模型在专业资格考试中的评估我们不仅能客观地衡量它们当前的实际能力还能更深入地了解它们在未来专业应用场景中的巨大潜力。此次评估结果凸显出了一直以来都在不断优化和发展以适应各类专业需求的必要性

如图 8所示,在数学计算能力的评估中可以看出大型中文语言模型之间存在一定差距
尽管排名有所下降,阿里云推出的Qwen-14B-Chat、百川人工智能公司的Baichuan253B以及讯飞智能的Spark Desk等模型在测试中均获得了较低的分数。这种下滑趋势反映出多种语言模型在数学推理环境中的不足。值得注意的是,在此次评估中表现不佳的主要包括Tigerobo公司的tigerbot-sft-7b、Langboat公司的mengzi-gpt-40b以及BAAI公司的AquilaChat系列等模型,则位于榜单末尾。值得注意的是这些模型虽然在语言任务上表现出色但在数学计算能力方面仍有显著提升的空间正如所见专门化的训练或算法优化对于提高其在计算密集型任务中的表现至关重要这些观察结果不仅为我们了解当前人工智能技术在处理复杂计算任务方面的现状提供了重要参考也为后续研究指明了方向

类别 1:准确但过于冗长的回答示例 1 和 2:这些示例说明了模型的回答准确但比参考答案更冗长的情况。尽管篇幅较长,但较高的 Rouge2 和相似度得分表明核心信息得到了很好的传达。这反映在最终的 Gscores 0.83 和 0.79 中,与手动评分 1.0 非常接近。类别 2:缺少关键信息示例 3、4 和 5:在这里,模型的回答缺少关键信息,这严重影响了手动评分。但是,高相似度得分表明对主题的理解不完整。最终的 Gscores 0.7、0.6 和 0.59 与手动评分非常接近,表明 Gscore 能够捕捉这些细微差别。类别 3:有意义但不相关的回答示例 10、11 和 12:在这些情况下,模型的回答与问题完全无关。尽管相似度得分出奇的高,但较低的 BLEU、Rouge2 和 CHRF 得分反映了相关性的缺乏。最终的 Gscores 为 0.25、0.15 和 0.24,与手动得分为 0,说明 Gscore 在惩罚不相关回答方面很有效。类别 4:部分正确的回答示例 6 和 7:这些示例展示了模型提供部分正确信息但遗漏重要细节的回答。最终的 Gscore 为 0.1 和 0.6,表明模型的部分准确性,与手动得分一致。类别 5:偏离预期含义示例 8:此回答部分正确,但后半部分与预期含义有显著偏差。最终的 Gscore 为 0.25,与手动得分 0.3 相符,表明该指标能够辨别和惩罚与参考答案的偏差。类别 6:表达不同,含义相同示例 9:尽管模型的表达与参考不同,但传达了相同的含义。最终的 Gscore 为 0.58,接近手动评分 0.8,凸显了 Gscore 能够识别不同措辞下的语义等价性。

虽然Bleu4对响应的表面准确性非常敏感,在自然语言处理领域中语义的重要性通常超越了表面精度这一特点。以上述示例为例,在Bleu分数相对较低的情况下由于语义相近度较高Gscore仍能有效反映人工评估结果因此将其Bleu4指标权重设定为较低水平是完全合理的。对于Rouge2和Chrf指标而言它们各自的权重均为0.25这些指标主要评估回复的一致性和覆盖率从而反映模型生成内容的整体全面性正如上述示例所示即使回复偏离参考答案Rouge2与Chrf依然能在一定程度上维持了Gscore的稳定性这验证了它们适当设置权重的重要性。而语义相似度指标被赋予了最高权重即0.3这一设定强调了语义一致性在评估模型生成内容中的核心地位经过多个实例验证即使其他指标得分偏低只要保持较高的语义相近度Gscore就能够接近人工评估结果从而证明其设置为高权重是完全合理的结论部分基于上述分析Gscore公式通过合理分配各个评估维度的权重全面衡量了模型生成内容的质量不仅考虑到了文字准确性还特别重视语义相近性这对于评估自然语言生成模型具有重要意义这种设置确保即便回复与参考答案存在显著的文字差异只要其语义相近程度得以保持Gscore依然能够有效反映模型性能
用于评估的计算问题示例作为我们的研究的一部分。其中如表10所示所列示的就是我们特意选择了四个具有代表性的计算问题案例。这些案例的设计目的是全面考察模型在数学问题解决方面的各种能力。由于它们在复杂性和类型上各有不同因此能够全面衡量模型在计算方面的表现。第一步我们将从模型的回答中提取最终的答案这一过程至关重要因为它专注于从模型的回答中分离出针对具体算术题目的核心数字或符号输出内容。第二步我们将对提取出来的最终答案进行标准化处理这一过程涉及删除任何多余空格多余的符号以及那些对答案数学有效性没有实际贡献的多余字符以此确保所有回答都能被统一评估而不论其格式或表示方式如何变化随后我们将对标准化后的最终答案与参考最终答案进行比较这种比较对于确定模型回答准确性至关重要
计算模型的 Gscore 值时,默认情况下假设模型生成的答案与标准答案完全一致,则表明问题已正确解决。这种情况下,系统将赋予模型 1 的 Gscore 值以表示问题已被准确解决。而当模型未能给出正确答案时,则需进一步分析其解决问题的过程。我们通过 Chrf 分数来衡量模型在解决问题过程中所采用的方法与标准方法之间的相似程度。Chrf分数则衡量了模型在解决问题过程中所采用的方法与标准方法之间的相似程度。通过将此分数乘以0.3作为该问题最终 Gscore 的计算依据,则能有效反映该问题解答过程的质量以及最终结果的准确性。

相关性结果如下所示,散点图如图 2 所示。Kendall Tau 相关性:0.6137523339513649 P 值:1.5991267354009107e-215 为了评估 Gscore 与人工评估之间的相关性,我们进行了一项研究,使用 11,000 个问题来测试 10 个大型语言模型,得出相应的 Gscores。为了评估相关性,我们从总集合中提取了 1,100 个问答对的子集。这些对来自 55 个不同的主题和由 10 个不同模型生成的响应。随后,我们邀请人类专家对这 1,100 对进行评分。最后一步是计算 Gscores 与专家人工评估之间的相关性。这种方法可确保对模型在各种主题上的表现进行全面且具有代表性的评估。人工专家参与评分为评估 Gscores 的有效性和可靠性提供了强有力的基准。抽样方案概述如下:分层随机抽样:鉴于科目多样性,总共有 55 个不同的科目,应首先按科目分层,以确保每个层内的代表性。在每个科目中,将采用随机抽样来选择问题,确保样本的多样性和代表性。

模型覆盖机制:从10个大型语言模型中选取答案时,默认会随机抽取其中一个模型的答案加入评估范围。这种方法能够确保所有参与评估的语言模型都有机会展示其能力从而保证测试结果的全面性。主题比例平衡:在抽样问题库中各主题的比例设计严格遵循总体数据中的比例分布这种设计方法能够有效保证样本的代表性避免出现某些特定主题被过度关注或遗漏的情况。统一提示词的作用:通过使用统一的提示词组确保评估过程中的操作一致性这对于客观比较不同语言模型的表现至关重要。变量控制措施:在科学研究中实施严格控制变量的方法是为了消除潜在影响因素从而准确测量所关注的核心变量这种做法对于提高研究结果的可信度具有重要意义。实验可重复性保障:通过采用统一提示词的方式显著提升了实验结果的可重复性其他研究者可以通过相同的输入参数复现实验并验证或对比自己的研究结果这有助于提升研究工作的透明度和可信度。简化评估流程:采用统一的标准和操作流程使得整个评估过程更加规范和系统化这对于降低评估工作中的主观判断因素具有积极作用尤其适用于非专家参与的评估场景
