A Survey on Evaluation of Large Language Models
与LLM相关的系列内容,是为对《A Survey on Evaluation of Large Language Models》进行翻译而编写的。
大型语言模型评价综述
-
摘要
-
1 引言
-
2 背景
-
- 2.1 大语言模型
- 2.2 AI模型评估
-
3 评估内容涉及哪些方面
-
3.1 自然语言处理任务涵盖哪些内容
-
3.1.1 自然语言理解任务包括哪些内容
-
3.1.2 推理能力的实现
-
3.1.3 自然语言生成任务的实现
-
3.1.4 多语言处理任务的实现
-
3.1.5 事实处理
-
3.2 健壮、道德、偏见和可信度
-
- 3.2.1 健壮性
- 3.2.2 道德和偏见
- 3.2.3 可信度
-
3.3 社会科学
-
3.4 自然科学与工程
-
- 3.4.1 数学
- 3.4.2 一般科学
- 3.4.3 工程
-
3.5 医学应用
-
- 3.5.1 医学QA
- 3.5.2 医学检验
- 3.5.3 医学教育
- 3.5.4 医学助手
-
3.6 代理应用
-
3.7 其他应用
-
- 3.7.1 教育
- 3.7.2 搜索与推荐
- 3.7.3 人格测试
- 3.7.4 特定应用
-
4 在哪里评估:数据集与基准
-
- 4.1 一般任务基准
- 4.2 特定下游任务基准
-
5 如何评估
-
- 5.1 自动评估
- 5.2 人类评估
-
-
6 总结部分
-
-
6.1 任务:LLM成功与失败的案例分析
-
- 6.1.1 LLM在哪些方面表现优异
- 6.1.2 LLM在什么情况下会失败
-
6.2 基准和评估协议
-
-
-
7 重大挑战
-
7.1 评估AGI的基础标准
- 7.2 全面的行为测试
- 7.3 抗干扰能力测试
- 7.4 动态适应性测试
- 7.5 原则执行测试
- 7.6 适用于所有LLM任务的统一测试
- 7.7 超越评估:LLM增强
-
8 结论
-
摘要
大型语言模型(LLM)凭借其在各领域展现出的卓越性能,已逐渐成为学术界和工业界的热门研究对象。随着LLM在科研探索和日常应用中发挥着越来越重要的作用,对其评估体系的建立愈发显得必要,这不仅关乎技术层面的性能评估,更涉及社会层面的风险考量,以便更全面地了解其潜在风险。过去几年里,我们通过多维度的调研探索LLM的发展方向。本文系统回顾了LLM的评估方法,重点考察了三个关键维度:评估内容、评估场景以及评估手段。首先,我们从评估任务的视角进行了概述,涵盖语言理解、推理能力、医学应用、伦理考量、教育领域、自然科学、社会科学、代理系统等多个方面。其次,我们深入研究了评估方法和基准体系,以回答"评估在哪里"和"如何评估"这两个核心问题。这些方法和基准体系构成了评估LLM性能的重要框架。接着,我们总结了LLM在不同任务中的成功与不足案例。最后,我们探讨了LLM评估面临的主要挑战。我们的目标是为LLM评估领域的研究者提供有价值的参考,从而推动LLM技术的进一步完善。我们强调,评估过程应被视为一门基础学科,以更有效地促进LLM的发展。为此,我们将所有相关开源资源统一整理至:https://github.com/MLGroupJLU/LLM-eval-survey。
1 引言
深入探讨智能的本质,以确定机器是否具备这种能力,这一直是科学家们深思的问题。人类普遍认为,具备推理能力是智力的重要特征,这种能力使我们能够验证假设,并为未来可能的发展做出准备。值得注意的是,人工智能(AI)领域的研究者们更关注的是基于机器的智能发展,而非模仿生物智能结构。为了量化智力,正确的方法有助于深入理解这一概念。例如,衡量人类个体的一般智力通常采用智商测试等方法。
- 1) 我们从三个方面全面概述了LLM评估:评估什么、在哪里评估以及如何评估。我们的分类是一般性的,涵盖了LLM评估的整个生命周期。
- 2) 关于评估内容,我们总结了各个领域的现有任务,并就LLM的成功和失败案例得出了有见地的结论(第6节),为未来的研究提供了经验。
- 3) 至于在哪里进行评估,我们总结了评估指标、数据集和基准,以深入了解当前的LLM评估。在如何评估方面,我们探索了当前的协议,并总结了新的评估方法。
- 4) 我们进一步讨论了评估LLM的未来挑战。我们开源并维护LLM评估的相关材料https://github.com/MLGroupJLU/LLM,以促进合作社区进行更好的评估。
本文的结构安排如下。在第2节,我们介绍了LLM和人工智能模型评估的基础信息。接着,第3节从“评估内容”的视角回顾了现有的研究工作。随后,第4节讨论了“评估位置”,并综述了现有的数据集和基准测试。第5节探讨了评估的方法和流程。在第6节,我们总结了本文的核心发现。第7节和第8节分析了未来研究面临的重要挑战。


2 背景
2.1 大语言模型
语言模型(LMs)是一种具备理解和生成人类语言能力的计算模型类。LMs通过预测后续单词序列的可能性或基于给定输入生成新文本的转换能力,实现语言的处理功能。其中,N-gram模型作为LM的典型代表,基于前面的上下文信息来估计每个单词的概率。然而,LMs也面临着诸多挑战,包括稀有或不可见单词的处理问题、模型过拟合的困扰,以及对复杂语言现象建模的局限性。针对这些挑战,研究人员不断优化LM的架构设计和训练方法,以提升模型的性能和适用性。
大型语言模型(LLMs)凭借其在自然语言处理任务中的卓越性能,近年来受到了广泛关注。许多LLM(如GPT-3、Instruct GPT和GPT-4)的核心组件是基于Transformer中的自注意力机制设计的,这种机制构成了语言建模任务的基本框架。通过Transformer架构,LLMs实现了对顺序数据的高效处理,并成功捕捉到了文本中的长距离依赖关系。LLMs的另一个显著特点是无需大量文本训练,模型能够基于上下文或提示生成连贯且上下文相关的文本输出。此外,LLMs还通过结合人类反馈进行强化学习(RLHF)进行优化,利用人工提供的反馈作为奖励信号,帮助模型从错误中学习并逐步提升性能。

2.2 AI模型评估
人工智能模型评估是评估模型性能的重要环节。现有多种标准化评估协议,其中包括K-fold交叉验证、Holdout验证、Leave One Out交叉验证(LOOCV)、Bootstrap和Reduced Set等方法。以k次交叉验证为例,其基本原理是将数据集划分为k个子集,每个子集依次作为测试集,其余子集作为训练集,这样可以有效减少训练数据的损失,从而获得更为准确的模型性能评估结果。相比之下,Holdout验证方法将数据集划分为训练集和测试集两部分,计算量相对较低,但可能因数据划分不均而导致评估结果偏差较大。LOOCV作为一种特殊的K-折叠交叉验证方法,仅使用单个数据点进行测试,虽然操作简便,但其泛化性能评估效果通常不够理想。Reduced Set方法则采用单一数据集进行训练,剩余数据用于测试,计算过程较为简单,但其适用性受限。因此,在实际应用中,应根据具体问题特征和数据分布情况,合理选择评估方法,以确保获得更加可靠的模型性能指标。

图3详细描绘了涵盖LLM在内的各种人工智能模型的评估流程。基于大规模的数据集训练,一些现有的评估协议可能无法有效评估深度学习模型的性能。因此,长期而言,静态验证集的评估已成为深度学习模型的标准选择。例如,计算机视觉模型通常采用静态测试集,如ImageNet和MS COCO进行评估,而LLM则主要使用GLUE或SuperGLUE作为测试集。随着LLM日益受到重视,其解释性更为不足,现有的评估协议可能无法全面反映其真实能力。我们将深入探讨LLM的最新评估方法,具体介绍将在第5节进行详细阐述。
3 评估什么
在哪些任务中,我们可以评估LLM的性能?在哪些任务上,我们可以明确LLM的优势与劣势?在本节中,我们将现有任务划分为以下类别:自然语言处理任务、伦理与偏见、医学应用、社会科学、自然科学与工程任务、代理应用(以LLM作为代理)和其他类别。
3.1 自然语言处理任务
构建语言模型,尤其是大型语言模型的主要目标是提升自然语言处理任务的性能,涵盖理解和生成两大核心功能。由此可见,大多数评价研究主要关注于自然语言任务的性能评估。表2系统地总结了现有研究在评估方面的现状,我们重点分析了这些研究的核心结论。

3.1.1 自然语言理解
自然语言理解旨在更好地理解输入序列的任务。我们对LLM评估的最新进展进行了多方面总结。
3.1.2 推理
从表2可以发现,评估LLM的推理能力是一个流行的方向,越来越多的文章专注于探索其推理能力。对于智能人工智能模型来说,推理任务是一项极具挑战性的任务。它要求模型不仅要理解给定的信息,还要在没有直接答案的情况下,从现有的上下文中推理和推断。目前,对推理任务的评价大致可以分为数学推理、常识推理、逻辑推理、专业领域推理等。
ChatGPT在大多数算术推理任务上优于GPT-3.5,表明ChatGPT具有较强的算术推理能力,但ChatGPT仍缺乏数学推理能力。在符号推理任务中,ChatGPT大多比GPT-3.5差,这可能是因为ChatGPT容易产生不确定的响应,导致性能差。在逻辑推理方面,刘等人指出,ChatGPT和GPT-4在大多数逻辑推理基准上都优于传统的微调方法,证明了它们在逻辑推理中的优越性。然而,这两种模型在处理新数据和分布外数据时都面临挑战。ChatGPT的性能不如其他LLM,包括GPT3.5和BARD。这是因为ChatGPT是专门为聊天而设计的,所以它在保持理性方面做得很好。FLANT5、LLaMA、GPT-3.5和PaLM在一般演绎推理任务中表现良好。GPT-3.5不善于在归纳环境中保持面向推理。对于多步骤推理,Fu等人表明,PaLM和Claude2是仅有的两个实现了与GPT模型族类似性能(但仍比GPT模型家族差)的模型族。此外,LLaMA-65B是迄今为止最强大的开源LLM,其性能与代码-davinci-002非常接近。一些论文分别评估了ChatGPT在一些推理任务上的性能:ChatGPT通常在常识推理任务上表现不佳,但相对优于非文本语义推理。同时,ChatGPT也缺乏空间推理能力,但表现出更好的时间推理能力。最后,虽然ChatGPT在因果推理和类比推理方面的性能是可以接受的,但它在多跳推理能力方面表现不佳,这与其他LLM在复杂推理方面的弱点相似。在专业领域推理任务中,zeroshot InstructionGPT和Codex能够完成复杂的医学推理任务,但仍需进一步改进。在语言洞察力问题方面,证明了ChatGPT解决语言洞察力问题的潜力,因为ChatGPT的表现与人类参与者相当。需要注意的是,上述结论大多是针对特定数据集得出的。总体而言,LLM在推理方面显示出巨大的潜力,并呈现出持续改进的趋势,但仍面临许多挑战和局限,需要更深入的研究和优化。
3.1.3 自然语言生成
自然语言生成(NLG)评估LLM生成特定文本的能力,该文本由几个任务组成,包括摘要、对话生成、机器翻译、问答和其他开放式生成应用程序。
摘要是一项生成任务,旨在学习给定句子的简明摘要。在这条评估线中,梁等人表明,TNLG v2(530B)在两种情况下得分最高,OPT(175B)排名第二。令人失望的是,ChatGPT有时会生成比输入文档更长的摘要。微调Bart仍优于零样本ChatGPT。具体而言,ChatGPT与text-davinci-002具有相似的零样本性能,但性能不如GPT-3.5。在可控文本摘要中,Pu和Demberg表明,与人类摘要相比,ChatGPT摘要的提取性略强(即包含更多直接从源复制的内容)。以上表明,LLM,尤其是ChatGPT,在总结任务方面表现一般,但总结和概括能力仍有待提高。
评估LLM在对话任务中的性能对于开发对话系统和改善人机交互至关重要。通过这样的评估,可以提高模型的自然语言处理能力、上下文理解能力和生成能力,从而实现更智能、更自然的对话系统。与GPT-3.5相比,Claude和ChatGPT通常在所有维度上都实现了更好的性能。在比较Claude和ChatGPT模型时,这两个模型在不同的评估维度上都表现出了竞争力,其中Claude在特定配置上略优于ChatGPT。Bang等人测试了ChatGPT在各种对话设置中的响应生成:1)基于知识的开放领域对话和2)面向任务的对话。自动评估结果显示,与在基于知识的开放域对话数据集上微调的GPT2相比,ChatGPT的性能相对较低。在面向任务的对话中,ChatGPT的性能是可以接受的,但当出现以下问题时,它很容易出错:长期多回合依赖、基本推理失败和外在幻觉。
虽然LLM没有针对翻译任务进行明确的训练,但它确实可以显示出强大的性能。王等人表明,与商业机器翻译(MT)系统相比,ChatGPT和GPT-4在人类评估方面表现出了优越的性能,并且在sacreBLEU方面优于大多数文档级NMT方法。在对比测试中,将ChatGPT与传统翻译模型进行比较时,其准确性较低。另一方面,GPT-4在解释话语知识方面表现出强大的能力,尽管可能会选择不正确的翻译候选者。(Bang等人)中的结果表明,ChatGPT可以执行X\rightarrow \text{Eng}翻译不错,但仍缺乏能力执行\text{Eng}\rightarrow X翻译。总之,尽管LLM在翻译任务中表现令人满意,但仍有改进的空间。具体而言,应优先提高从英语到非英语的翻译能力。
问答是人机交互领域的关键技术之一,已广泛应用于搜索引擎、智能客服、智能问答等应用场景。测量QA模型的准确性和效率将对这些应用具有重要意义。梁等人表明,在所有评估的模型中,InstructionGPT davinci v2(175B)在9个问答场景的准确性、稳健性和公平性方面表现最好。GPT-3.5和ChatGPT在回答一般知识问题的任务上比GPT-3有了显著的改进。ChatGPT在大多数领域的表现优于GPT3.5超过2%。然而,ChatGPT在CommonsenseQA和Social IQA方面略微落后于GPT3.5。这是因为ChatGPT可能很谨慎,在没有足够信息的情况下拒绝给出答案。包括Vicuna和ChatGPT在内的微调模型在得分方面表现出近乎完美的性能,远远优于没有监督微调的模型。总体而言,LLM在QA任务上表现完美,未来可以进一步提高社交、事件和时间常识知识的表现。
还有其他生成任务。在句子风格迁移领域,Pu和Demberg表明,ChatGPT通过在同一子集上训练进行小样本学习,表现优于先前的监督SOTA模型,这从较高的BLEU分数中可以明显看出。在控制句子风格的正式性方面,与人类行为相比,ChatGPT的表现仍然表现出显著差异。在写作任务中,Chia等人发现LLM在基于写作的任务中表现一致,包括信息性、专业性、议论文和创造性写作类别,显示了他们的一般写作能力。在文本生成质量方面,Chen等人表明,在没有参考文本的情况下,ChatGPT能够从各种角度有效评估文本质量,并且优于大多数现有的自动化指标。在各种测试方法中,使用ChatGPT生成文本质量的数字分数被认为是最可靠和有效的方法。
3.1.4 多语言任务
许多LLM是根据混合语言训练数据进行训练的。虽然英语是主要语言,但多语言数据的结合确实有助于LLM获得用不同语言处理输入和生成响应的能力,使其在全球范围内被广泛采用和接受。然而,鉴于这项技术的出现相对较晚,LLM主要根据英语数据进行评估,而评估其多语言性能是一个不可忽视的重要方面。几篇文章以不同的非英语语言对LLM在各种NLP任务中的表现进行了全面、开放和独立的评估,为未来的研究和应用提供了适当的视角。
Abdelali等人评估了ChatGPT在标准阿拉伯语NLP任务中的性能,发现在大多数任务的零样本设置中,ChatGPT的性能低于SOTA。Bang等人;赖等人张等人在更多的数据集上使用了更多的语言,涵盖了更多的任务,并对LLM进行了更全面的评估。结果显示,LLM(包括BLOOM、Vicuna、Claude、ChatGPT和GPT-4)在非拉丁语言和低资源语言中的表现更差。尽管语言资源丰富,Bang等人强调,ChatGPT在翻译非拉丁文字语言的句子方面面临限制。上述情况表明,LLM在多语言任务方面存在许多挑战和充足的机会。未来的研究应该关注多语言的平衡,努力解决非拉丁语言和低资源语言的问题,以更好地支持世界各地的用户。同时,应注意语言的公正性和中立性,以避免模型的英语偏见或其他偏见对多语言应用程序的影响。
3.1.5 事实
在LLM框架下,事实性衡量的是模型输出的信息与真实世界真相的一致程度。事实性对问答系统、信息提取、文本摘要、对话系统和自动事实核查等各类任务产生了显著影响。然而,模型中存在不正确或不一致的信息,这可能导致严重误解。因此,评估模型的真实性显得尤为重要。这不仅要求模型能够与已知事实保持一致,避免产生误导或虚假信息(称为“事实幻觉”),还需确保其能够有效学习和记忆事实知识。为此,已提出了一系列方法来评估和提升LLM的真实性。
王等人通过让大型模型直接回答基于自然语言的问题和TriviaQA数据集中的开放式问题,评估其对内部知识的掌握程度,重点关注InstructionGPT、ChatGPT-3.5、ChatGPT-4和BingChat等模型。评估过程主要依赖人工评估。研究发现,虽然ChatGPT-4和BingChat在回答80%以上的问题时表现优异,但要实现完全准确,仍存在15%以上的差距。
Honovich等人回顾了现有的事实一致性评估方法,指出现有方法在统一性上存在不足,且相关分数的参考值有限。他们将现有方法转换为二进制标签,仅考虑与输入文本存在事实冲突的情况,而忽视外部知识。研究发现,基于自然语言推理(NLI)和问题生成问答(QG-QA)的事实评价方法表现最佳,并且这些方法之间具有互补性。
Pezeshkpour提出了一种基于信息论的新度量标准,用于评估LLM中特定知识的存在。该方法通过计算LLM回答中答案的概率分布,利用知识中的不确定性来衡量真实性。研究还探讨了两种注入知识的方法:一种是显式地在提示中加入知识,另一种是通过微调知识库来隐式注入知识。结果表明,该方法在准确性上优于传统排名方法,提升了30%以上。
3.2 健壮、道德、偏见和可信度
LLM的评估涵盖稳定性、伦理、偏差和可靠性等核心指标。这些因素逐渐成为全面评估LLM性能的关键考量。

3.2.1 健壮性
鲁棒性研究系统在面对异常输入时展现出的稳定性表现。具体而言,分布外(OOD)和对抗性鲁棒性构成了当前鲁棒性研究的两大热点领域。王等人提出了一项具有里程碑意义的研究,通过现有基准数据集如AdvGLUE、ANLI和DDXPlus,从对抗性和面向对象的角度对ChatGPT等大型语言模型(LLM)进行了评估。卓等人则聚焦于语义解析的稳健性,通过扩展GLUE数据集来评估OOD场景下的模型表现。杨等人进一步研究了OOD鲁棒性,通过扩展GLUE数据集深入分析了模型在视觉输入干扰下的稳定性。对于视觉语言模型,赵等人系统性地评估了LLM在视觉输入处理中的鲁棒性表现,并将其迁移至其他视觉语言模型,揭示了视觉输入的潜在脆弱性。李等人则对语言模型的面向对象评价框架进行了全面概述,系统性地总结了对抗性鲁棒性、领域泛化和数据集偏差等关键研究方向。研究者们通过比较分析三条主要研究路径,统一明确了每条路径的数据生成过程和评估标准,并对未来研究工作提出了展望。在对抗性鲁棒性领域,朱等人提出了一个统一的基准框架PromptBench,通过多维度评估(字符、单词、句子和语义层面)对LLM的抗干扰能力进行了系统性研究。研究结果表明,现有LLM在对抗性提示输入下表现出显著的脆弱性,这凸显了在实际应用中提升模型鲁棒性的紧迫性。
3.2.2 道德和偏见
LLM被发现会内化、传播并潜在地放大爬取训练语料库中存在的有害信息,通常是有毒语言,如攻击性、仇恨言论和侮辱,以及社会偏见,如对具有特定人口身份(如性别、种族、宗教、职业和意识形态)的人的刻板印象。最近,Zhuo等人使用传统的测试集和指标对ChatGPT的毒性和社会偏见进行了系统评估,发现它在一定程度上仍然表现出有害内容。更进一步,Deshpande等人在模型中引入了角色扮演,并观察到产生的毒性增加了6倍。此外,这种角色扮演也造成了对特定实体的偏见毒性。与简单地测量社会偏见不同,Ferrara调查了ChatGPT可能产生的这些偏见的来源、潜在机制和相应的伦理后果。除了社会偏见之外,LLM还通过政治倾向和人格特征进行了评估,基于政治指南针测试和MBTI测试等问卷,证明了进步观点的倾向和ENFJ人格类型。此外,GPT-3等LLM被发现在道德基础理论方面存在道德偏见;还观察到ChatGPT对文化价值观表现出一定的偏见。所有这些道德问题都可能引发严重风险,阻碍LLM的部署,并对社会产生深远的负面影响。
3.2.3 可信度
在当前研究领域中,除了关注模型性能之外,一些工作侧重于探索模型的可信度问题。王等人(2023)系统性研究了GPT模型中的可信度漏洞,揭示了其容易受到误导影响,并可能产生有害且具有偏见的输出,这些输出可能会泄露隐私信息。尽管GPT-4在标准化测试中通常优于GPT-3.5在可信度评估上,但其也更容易遭受攻击。在Hagendorff和Fabi(2023)的另一项研究中,研究团队对增强认知能力的LLM进行了系统评估。研究发现,这类模型能够有效避免人类常见的直觉错误和认知偏差,展现出超乎常理的判断力。通过认知反射测试和语义错觉实验,研究团队深入探讨了LLM的心理特征。这种方法为发现模型潜在的偏见和道德问题提供了新的视角,而这些问题在以往的研究中可能尚未被充分识别。
3.3 社会科学
社会科学涉及对人类社会和个人行为的研究,包括经济学、社会学、政治学、法学等学科。评估LLM在社会科学领域的表现对学术研究、政策制定和社会问题解决具有重要意义。这种评价有助于提高社会科学模型的适用性和质量,增进对人类社会的了解,促进社会进步。
吴等人评估了LLM在解决社会科学中的缩放和测量问题方面的潜在用途,发现LLM可以产生关于政治意识形态的有意义的反应,并显著改进社会科学中文本作为数据的方法。
在计算社会科学(CSS)任务中,Ziems等人对几个CSS任务的LLM进行了全面评估。在分类任务中,LLM在事件论点提取、人物比喻、隐含仇恨和移情分类方面表现出最低的绝对性能,准确率低于40%。这些任务要么涉及复杂的结构(事件自变量),要么涉及语义与LLM预训练过程中学习到的语义不同的主观专家分类法。相反,LLM在错误信息、立场和情绪分类方面的绝对表现最高。当涉及到生成任务时,LLM通常会产生超过众包工作者提供的黄金参考质量的解释。总之,虽然LLM可以极大地增强传统的CSS研究管道,但它们不能完全取代它。
一些文章还对法律任务方面的LLM进行了评估。LLM在案件判决总结中的零样本表现平庸。LLM有几个问题,包括不完整的句子和单词,多个句子被毫无意义地合并,以及更严重的错误,如信息不一致和产生幻觉。研究结果表明,LLM有必要进一步改进,以便于法律专家对案件判决进行总结。Nay等人指出,LLM,特别是与提示增强和正确的法律文本相结合时,可以表现得更好,但还没有达到税务律师的专业水平。
总之,尽管这些模型在各种任务中表现出了出色的性能,但现有的模型主要是为单任务系统设计的,缺乏足够的表达和交互能力,这在它们的能力与实际临床需求之间造成了差距。尽管这些模型为交互式医疗系统带来了希望,但它们仍然面临着产生错误输出和幻觉等挑战,这使得它们目前不适合在现实世界场景中直接应用。
3.4 自然科学与工程

分析LLM在科学领域中的自然科学和工程学性能,有助于指导科学研究、技术开发和工程研究的实践应用。
3.4.1 数学
对于基本的数学问题,大多数大型语言模型(LLM)都表现出加减法的熟练程度,并具有一定的乘法能力。然而,当涉及到除法、求幂、三角函数和对数函数时,它们面临着挑战。另一方面,LLM在处理十进制数、负数和无理数方面表现出能力。就性能而言,GPT-4和ChatGPT显著优于其他模型,显示了它们在解决数学任务方面的优势。这两个模型在处理大量(大于1e12)和复杂、冗长的数学查询时具有明显的优势。GPT-4优于ChatGPT,由于其卓越的除法和三角运算能力、对无理数的正确理解以及对长表达式的一致逐步计算,其精度显著提高了10个百分点,相对误差减少了50%。当面对复杂且具有挑战性的数学问题时,LLM表现出较差的性能。具体而言,GPT3表现出几乎随机的性能,而GPT-3.5表现出改进,GPT-4表现最好。然而,即使在新模型上取得了进步,最高性能仍低于40%。代数运算和计算的具体任务继续给GPT带来挑战。GPT-4在这些任务中性能低下的主要原因是代数操作中的错误和检索相关领域特定概念的困难。吴等人评估了GPT-4在高中竞赛难题上的使用,GPT-4对一半类别的准确率达到60%。中间代数和前微积分只能以大约20%的低准确率求解。ChatGPT不擅长回答有关导数和应用、Oxyz空间微积分和空间几何等主题的问题。表明,ChatGPT的表现随着任务难度的增加而恶化:它在识别水平上正确回答了83%的问题,在理解水平上正确答复了62%,在应用水平上正确解答了27%,在最高认知复杂度水平上仅正确回答了10%。鉴于这些问题在更高的知识水平上往往更复杂,需要深入的理解和解决问题的技能,这样的结果是意料之中的。这些结果表明,LLM的能力很容易受到问题复杂性的影响。它对设计用于处理此类具有挑战性任务的优化人工智能系统具有重要意义。
3.4.2 一般科学
在化学领域,LLMs仍处于初级应用阶段。Castro Nascimento和Pimentel在化学的不同亚领域提出了五个简单的任务,以评估ChatGPT在化学领域的理解能力,结果显示准确率从25%到100%不等。研究表明,LLMs在物理问题上的表现优于化学问题,这可能源于在此情境下,化学问题的推理复杂度低于物理问题。在普通科学领域,对LLMs的评价研究相对较少,现有研究结果表明LLMs在该领域的应用水平仍有提升空间。
3.4.3 工程
在工程领域,任务从简单到复杂可以依次分为代码生成、软件工程和常识规划任务。在代码生成任务中,微调后的CodeT5模型展现出显著的性能优势,其在16B参数规模下的表现与大型语言模型ChatGPT相当,匹配度达到约78%。在软件工程任务方面,ChatGPT通常展现出较高的可靠性和详尽性,其输出结果往往优于人工专家或当前的最优模型(SOTA)。然而,在某些特定任务如代码漏洞检测和基于信息检索的测试优先级分析中,现有ChatGPT版本的准确性不足,因此不适合作为此类任务的解决方案。在常识规划任务领域,LLM的表现尚待理想,即使面对人类擅长的简单规划任务,LLM也未能表现出色。Pallagani等研究者证实,经过微调的CodeT5模型在所有评估指标上均表现最优,且推理速度最快。此外,该模型还被用于探索LLM是否具备计划概括能力,但研究结果表明,这种概括能力较为有限。尽管LLM在处理基础工程任务时表现出色,但在复杂工程问题求解方面仍显不足。
3.5 医学应用
近年来,LLM在医学领域的应用受到了广泛关注。在本节,我们回顾了现有医疗应用中LLM的应用努力。具体而言,我们将其划分为四个领域,如表5所示:医疗质量保障、医疗检查工具、医疗评估体系和医疗教育体系。

3.5.1 医学QA
表格5呈现了医学领域LLM评估的主要趋势。这一趋势的出现,主要源于医学领域的广泛应用以及对准确可靠答案的需求。在医学问答任务中,LLM展现出显著的评估能力,这与其强大的自然语言处理和推理能力密不可分。基于这些优势,LLM已被广泛应用于医疗问答系统,以提供及时准确的医疗信息。已有研究表明,对ChatGPT在医学问答系统中的性能进行了多方面的评估。在人类受访者和减肥手术患者中的问答表现尤为突出。然而,尽管ChatGPT在某些领域表现优异,但其局限性也不容忽视。Thirunavukarasu等人对ChatGPT在基础医疗保健领域的表现进行了评估,发现ChatGPT在学生综合评估中的平均得分低于及格线,这表明其在某些应用领域仍需进一步优化。Chervenak等人则强调,尽管ChatGPT在与精液相关的临床提示任务中能够生成与现有来源相似的回答,但其在可靠引用来源方面的局限性以及潜在的信息编造能力限制了其在临床实践中的实际应用效果。
3.5.2 医学检验
Gilson等、Kung等及Sharma等研究者对LLM在医学考试评估中的应用进行了系统评估,旨在探索其在美国医学执照考试(USMLE)中的潜在应用前景。在这一研究框架下,ChatGPT在回答USMLE第1步和第2步考试问题时,其表现被评估为基于新颖的多项选择题集进行测试。研究结果表明,ChatGPT在不同数据集上展现出较高的准确性,但与NBME-Free-Step1和NBME-Free Step2数据集中的正确答案相比,其在处理文本外信息时的能力仍有提升空间。研究表明,Kung等人的研究发现,即使在未经专门训练的情况下,ChatGPT也能够达到或接近USMLE考试的及格标准。此外,该模型在一致性与洞察力方面表现突出,这表明其在医学教育和临床决策支持方面具有广阔的应用前景。ChatGPT不仅能够回答医学问题,还能提供专业的解释和决策支持,这为医学生和临床医生的教育与实践提供了额外的教学资源。Sharma等人的研究表明,与谷歌搜索结果相比,ChatGPT生成的答案更具上下文相关性,其推理能力也更为出色。
3.5.3 医学教育
多篇研究探讨了ChatGPT在医学教育领域的应用前景。Oh等人的一项研究重点分析了其对外科临床信息的理解能力及其对外科教育和培训的影响。通过对其GPT-3.5和GPT-4模型的性能评估,发现两者的准确率分别为46.8%和76.4%,显示出显著的性能差异。值得注意的是,GPT-4在多个细分领域表现尤为出色,这表明其具备处理复杂临床信息的能力,并能有效提升外科教育和培训质量。Lyu等人则研究了ChatGPT在临床教育中的可行性,特别关注其在放射学报告翻译方面的应用。研究结果表明,ChatGPT不仅成功将专业术语翻译成易于理解的语言,还提供了实用的指导建议。与GPT-4相比,ChatGPT在翻译质量上已实现显著提升。这些研究结果表明,采用大规模语言模型进行临床教育是可行的,但需要进一步优化模型性能并充分释放其潜力。
3.5.4 医学助手
评估LLM在医疗援助方向上的研究主要包括以下四个方面:(1)LLM在胃肠病领域的潜在应用场景:Lahat团队对chatGPT在胃肠道疾病研究重点识别方面的潜力进行了系统研究。通过对比与专家委员会对关键议题的评估结果,chatGPT不仅提出了相关且具指向性的研究问题,但其在创新性方面仍显不足。(2)LLM在医疗保健领域的应用与局限性:Cascella研究团队关注LLM在卫生保健领域的潜在应用场景及其局限性。他们强调,基于ChatGPT的智能辅助系统在支持临床医生的日常任务、科学知识生产以及预防潜在医疗滥用和公共卫生事件推理方面具有一定的可行性,但同时也指出了现有技术的局限性。(3)LLM在痴呆症诊断中的潜力:王团队对LLM(如GPT-4)在痴呆症诊断领域的潜力进行了深入探讨。研究结果表明,与传统的人工智能工具相比,当前的LLM模型(如GPT-4)在痴呆症诊断任务上表现出显著的优势,尤其是在复杂文本理解和细节分析方面。(4)LLM在加速新冠肺炎文献评估中的潜力:Khan研究团队通过利用新冠肺炎开放研究数据集(CORD-19)构建了两个相关数据集:合成新冠肺炎摘要和真实摘要。基于这些数据集,他们训练了一个名为covLLM的LLM模型,旨在通过该模型加速对新冠肺炎相关文献的评估工作。
3.6 代理应用
LLM不仅专注于一般的语言任务,还能够作为多种领域的强大工具加以运用。为LLM配备外部工具能够显著地增强模型的功能。KOSMOS-1能够理解一般模式,遵循指令,并基于上下文进行学习。Karpas等人强调,掌握何时以及如何有效使用这些外部符号工具至关重要,而这方面的知识主要由LLM的能力所决定。此外,TALM和Toolformer等研究则致力于对LMs进行微调,以便学习使用外部工具API的技巧。根据API调用注释是否有助于提升模型输出质量,对数据集进行了扩展。提出了HuggingGPT框架,该框架利用LLM连接机器学习社区内的各种人工智能模型,如Hugging Face的模型,旨在解决人工智能任务。
3.7 其他应用
此外,还对LLM在教育、搜索与推荐、个性测试以及特定应用场景进行了评估。

3.7.1 教育
LLM在教育领域的革命中显示出了希望。它们有可能在几个领域做出重大贡献,例如帮助学生提高写作技能,促进对复杂概念的更好理解,加快信息的传递,以及提供个性化反馈以提高学生的参与度。这些应用程序旨在创造更高效和互动的学习体验,为学生提供更广泛的教育机会。然而,为了充分利用LLM在教育中的潜力,需要进行广泛的研究和不断完善。
(1) 教育助理:评估LLM的教育援助旨在调查和评估其对教育领域的潜在贡献。这种评价可以从各种角度进行。根据Dai等人的说法,ChatGPT展示了产生详细、流畅和连贯反馈的能力,超过了人类教师。它可以准确评估学生的作业,并提供任务完成情况的反馈,从而有助于学生技能的发展。然而,正如王和Demszky所提到的,ChatGPT的回应可能缺乏新颖性或对教学改进的深刻见解。此外,Hellas等人进行的研究表明,LLM可以成功识别学生代码中的至少一个实际问题,尽管也观察到误判的情况。总之,LLM的使用在解决程序逻辑问题方面显示出了希望,尽管在熟练掌握输出格式方面仍然存在挑战。值得注意的是,尽管这些模型可以提供有价值的见解,但它们仍可能产生与学生所犯错误类似的错误。
(2) 学术考试:在教育测试领域,研究人员旨在评估LLM在教育评估中的应用效果,包括自动评分、问题生成和学习指导。de Winter显示,ChatGPT在1至10分的范围内获得了7.18分的平均成绩,与所有参与学生的平均成绩相当。随后,使用较新版本的ChatGPT(GPT-4)进行评估,获得8.33分。此外,该研究证明了使用通过“温度”参数结合随机性的自举方法诊断错误答案的有效性。张等人声称,GPT-3.5可以解决麻省理工学院数学和EECS考试,GPT-4可以获得更好的成绩。然而,这并不公平,因为他们不小心在提示中输入了正确的答案。
3.7.2 搜索与推荐
在搜索与推荐领域对LLM的评估大致可分为两个方向:
首先,在信息检索方面,Sun团队对生成排名算法(如ChatGPT和GPT-4)在信息检索任务中的有效性进行了研究。实验结果显示,引导式ChatGPT和GPT-4在流行的基础测试中展现出很强的性能,甚至超过了监督式方法。此外,在使用BEIR数据集中的40万MS MARCO注释数据进行训练时,与仅在1万ChatGPT生成数据上训练的模型相比,将ChatGPT的排序功能提取到专用模型中,表现出更卓越的性能。
其次,在推荐系统中,LLM借助自然语言处理技术,能够理解用户偏好、项目描述和上下文信息,从而在推荐系统中发挥着至关重要的作用。将LLM整合到推荐流程中,系统能够提供更精准和个性化的推荐,从而提升用户体验并优化推荐质量。张等人指出,使用ChatGPT进行推荐可能带来潜在的风险,因为这会导致不公平的推荐结果。为此,评估LLM在推荐中的公平性变得尤为重要。此外,Xu等人通过随机在线实验,比较了不同工具在信息检索任务中的表现。实验将参与者分为两组:一组使用类似于ChatGPT的工具,另一组使用类似于谷歌搜索的工具。结果显示,ChatGPT组在所有任务上花费的时间较少,但两组之间的表现差异并不显著。
3.7.3 人格测试
人格特征评估旨在系统性测量个体的心理特质和行为倾向,作为强大的自然语言处理模型,LLM已广泛应用于相关研究领域。GPT3 Davinci-003被选作聊天机器人的测试平台,研究发现其回答一致性存在显著差异,尽管普遍表现出亲社会特质。然而,该聊天机器人的反应机制究竟是由有意识自我反思驱动,还是单纯算法过程主导,仍存在较大争议。Safdari等人系统考察了人格在语言模型中的表征,发现多数模型在自我评估测试中存在不可靠性,并带有明显偏见。因此,开发专门的机器人格测量工具显得尤为必要,以提升评估的可靠性。这些研究为LLM在人格测试中的应用提供了重要参考和理论依据。Jentzsch和Kersting深入探讨了将幽默元素融入LLM的技术挑战,尤其是ChatGPT的表现。尽管该模型在NLP任务中展现出卓越能力,但在生成幽默反应方面仍显不足。幽默作为人类交流的核心元素,其在LLM中的捕捉和生成,尤其是基于上下文的复杂性,仍面临诸多限制。文章深入分析了现有技术的局限性,并强调了开发更复杂模型的必要性,以更有效地理解和生成幽默内容。
3.7.4 特定应用
此外,一些研究者对大型语言模型(LLM)在不同任务中的应用与评估进行了深入探讨,包括游戏设计、模型性能评估以及日志解析等多个方面。这些研究不仅揭示了LLM的潜力与局限,还提供了提升其性能和可靠性策略的思路。综上所述,这些发现不仅有助于我们更深入地理解LLM在各任务中的实际应用价值,也为优化其性能和可靠性提供了宝贵的思路。
4 在哪里评估:数据集与基准
LLM评估数据集用于评估和比较不同语言模型在各种任务上的性能,如第3节所述。这些数据集,如GLUE和SuperGLUE,旨在模拟真实语言处理场景,包括文本分类、机器翻译、阅读理解和对话生成等多种任务。本节将不讨论单个语言模型的数据集,而是讨论LLM的基准测试。
随着LLM基准的不断发展,表7列出了13个流行的基础框架。每个框架侧重于不同的评估维度和评估标准,为各自领域提供了重要参考。为了更好地总结,我们将这些框架分为两大类:一般语言任务的基础框架和特定下游任务的基础框架。

4.1 一般任务基准
LLM旨在解决大部分任务。为此,现有的基准通常专注于评估特定任务的表现。
4.2 特定下游任务基准
在除了通用任务基准之外,还专门设计了若干针对特定下游任务的基准。MultiMedQA是一个医学问答基准,专注于医学检查、医学研究和消费者医疗保健问题。它由七个与医疗QA相关的数据集组成,包括六个现有数据集和一个新数据集,共七个数据集。该基准的目标是评估大型语言模型在临床知识和问答能力方面的表现。Big Bench则介绍了来自132个机构的204项具有挑战性的任务,这些任务涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见和软件开发等多个领域。Big Bench的主要目标是评估现有语言模型无法完成的任务。其他具体的基准包括C-Eval,这是一个旨在评估中国背景下基础模型的高级知识和推理能力的综合评估套件。M3Exam提供了一个独特而全面的评估框架,该框架包含多种语言、模式和级别,以测试大型语言模型在不同背景下的通用能力。SOCKET是一个专注于评估大型语言模型在学习和识别社会知识概念方面表现的NLP基准,它通过多项任务和案例研究揭示了大型语言模型在社交能力方面的局限性。除了现有的评估基准外,在评估大型语言模型工具的有效性方面还存在研究空白。为此,引入了API-Bank基准,这是第一个专为工具增强型大型语言模型设计的基准。它包括一个全面的Tool-Augmented LLM工作流,包含53个常用API工具和264个带注释的对话,共568个API调用。此外,ToolBench项目旨在授权开发能够有效利用通用工具功能的大型语言模型。通过提供一个平台,该平台创建优化指令数据集,旨在推动语言模型的进步并增强其实际应用能力。
5 如何评估
在本节中,我们介绍了两种常见的评估方法:自动评估和人工评估。
5.1 自动评估
LLM的自动化评估是一种常见的评估方法。自动化评估通常采用多种指标和评估工具,如BLEU、ROUGE、BERTScore等,以量化模型生成文本与参考文本之间的相似度和质量。与人工评估相比,自动化评估无需人工参与,显著降低了评估成本和所需时间。Qin等以及Bang等人均采用了自动化评估方法来评估大量任务。近年来,随着LLM技术的快速发展,一些先进的自动化评估技术也被开发出来辅助评估工作。LLM-EVAL被提出,这是一种专门用于LLM在开放领域会话中的统一多维自动化评估方法。该方法能够实现评估过程的可复制性和自动化。
5.2 人类评估
在某些非标准场景下,自动评估机制并不适用。以开放生成任务为例,基于BERTScore等嵌入相似性度量的方法在该场景下表现不足,人工评估更为可靠。在LLM领域,人工评估是指由人工参与对模型生成内容的质量和准确性进行主观判断的过程。与自动评估相比,人工评估更贴近真实应用场景,能够提供更为全面和精确的反馈。在LLM的人工评估实践中,通常会组建评估小组(由专家、研究人员或普通用户组成)对模型输出进行评估。例如,Ziems等人采用了专家注解的方式进行生成评估。在实际操作中,Bang等人对6个模型的摘要和虚假信息生成内容进行了人工评估,而Bubeck等人则对类比推理任务进行了评估。值得注意的是,即使是人工评估也存在较高的方差和不稳定性,这可能与评估者的文化背景和个体差异有关。在实际应用中,人们需要综合考虑这两种评估方法的优缺点,并根据具体情况作出权衡。
6 总结
在本节中,我们根据第3、4和5节中的综述总结了主要发现。
6.1 任务:LLM成功和失败的案例
我们归纳了LLM在各任务中的长项与局限。这些结论是基于现有评估得出的,结果仅受特定数据集的影响。
6.1.1 LLM能做得好的地方
LLM通过其生成能力展现出自然流畅的语言表达,从而体现生成文本的能力。
LLM在语言理解任务方面展现出卓越的表现,包括情感分析和文本分类。
LLM凭借强大的上下文理解能力,能够生成连贯且符合预期的响应。
在多个自然语言处理任务中,LLM展现了令人 impressions的性能,涉及机器翻译、文本生成和问答。
6.1.2 LLM什么时候会失败
LLM在生成过程中可能表现出偏差和不准确,导致其输出出现偏差。LLM在理解复杂逻辑和推理任务方面的能力有限,常在复杂环境中遇到困惑或出现错误。LLM在处理大量数据集和长期记忆方面存在局限性,这可能对处理涉及长期依赖的冗长文本和任务带来挑战。LLM在整合实时或动态信息方面存在局限性,这使其不太适合需要最新知识或快速适应不断变化的环境的任务。LLM对提示非常敏感,尤其是对抗性提示,这会触发新的评估和算法来提高其稳健性。在文本摘要领域,据观察,大型模型可能在特定的评估指标上表现出较差的性能,这可能归因于这些特定指标中的固有局限性或不足之处。
6.2 基准和评估协议
随着LLM的快速发展和广泛应用,评估LLM在实际应用和研究中的重要性变得愈发显著。该评估过程不仅应在任务层面进行评估,还应在社会层面深入分析其潜在风险。在本节中,我们对表8进行了详细分析,总结了现有基准测试和评估协议的主要内容。

首先,从客观计算转向人在环测试,促进更广泛的意见参与。AdaVision作为一个动态交互平台,通过用户标注少量数据以确保模型准确性,帮助识别和修复连贯的故障模式。在AdaTest过程中,用户需通过选择高质量测试并将其组织成主题来筛选LLM建议的测试样本。其次,从静态测试集转向众包测试集的实践越来越普遍。DynaBench、DynaBoard和DynaTask等工具依赖众包者进行高质量测试样本的生成和评估,而DynamicTempLAMA则支持动态构建时间相关的测试。第三,在评估机器学习模型时,从无偏测试集转向针对特定任务的具有挑战性的测试环境。DeepTest等工具利用种子生成策略构建测试集,CheckList基于模板化方法构建测试集,AdaFilter则采用反向构建策略。值得注意的是,AdaFilter的公平性存疑,因为它依赖对抗性例子。HELM从多维度对LLM进行评估,而Big Bench则专注于设计机器学习模型需处理的复杂任务。PromptBench通过生成对抗性提示来测试LLM的抗性能力,这一方法更具挑战性,研究结果表明现有LLM在对抗性提示上的抗性能力仍有待提升。
7 重大挑战
评估领域:基于LLM评估研究的总结,引导我们对LLM设计的多个方面进行重新审视。在本节中,我们提出了几个关键性挑战。我们的核心观点是,评估应被视为促进LLM和其他人工智能模型取得成功的重要基础学科。现有的标准无法满足LLM评估的全面需求,这将为未来LLM评估研究提供新的研究方向。
7.1 设计AGI的基准
正如我们前面所探讨的,尽管各种任务都有可能作为LLM的评估工具,但核心问题仍然是:谁可以真正衡量AGI能力?正如我们期望LLM能够展示AGI能力一样,全面了解人类与AGI能力之间的差异对于创建AGI基准至关重要。主流趋势似乎将AGI表征为超人实体,基于教育、心理学和社会科学等多学科领域的知识来设计创新性基准。尽管如此,仍然存在许多尚未解决的问题。例如,将人类价值观作为测试构建的基础是否具有意义?还是应该从其他角度出发?制定AGI基准这一过程本身提出了许多尚待进一步探索的悬而未决的问题。
7.2 完整的行为评估
一种观点认为,AGI评估不仅应包含基于标准基准的常见任务测试,还应延伸至开放任务的评估,例如全面的行为测试。行为测试的定义是,AGI模型应在开放环境中进行评估。例如,通过将LLM视为中心控制器,我们可以对LLM操作的机器人进行评估,以检验其在实际情境中的行为表现。此外,将LLM视为一个完全智能的系统,还应对其多模态能力进行评估。实际上,全面的行为评估是对传统AGI基准的补充,它们应协同运作以实现更有效的测试。
7.3 鲁棒性评估
除了常规任务外,LLM还广泛融入了现代生活的方方面面,因此必须保持对各种输入的鲁棒性,以确保最终用户获得最佳性能。例如,相同的提示尽管具有不同的语法和表达方式,可能导致ChatGPT和其他LLM生成不同的结果,这表明当前LLM对输入不够鲁棒。尽管先前有关鲁棒性评估的工作已取得了一定成果,但仍存在很大的提升空间,例如,可以考虑使用更多样化的评估集,全面检查更多的评估方面,以及开发更有效的评估机制来生成鲁棒性任务。同时,鲁棒性的概念和定义也在不断演变。因此,更新评价体系变得尤为重要,以便更好地适应与道德标准和偏见相关的最新要求。
7.4 动态和演化评估
现有评估协议主要基于静态和公共基准,这种做法在一定程度上限制了评估的动态性。尽管这种做法在短期内提高了评估效率,但随着LLM的快速发展,这种静态评估机制已无法有效跟踪其不断进化的能力。随着时间的推移,LLM的能力可能会持续增强,而现有的静态基准无法提供一致的评估。另一方面,随着LLM的规模和训练数据量的增加,其能力不断提升,可能会过度依赖静态和公共基准,导致训练数据质量下降。因此,构建动态且不断进化的新评估体系成为确保LLM公平评估的关键。
7.5 原则和可信评估
在引入评估系统时,确保其完整性和可靠性至关重要。这不仅有助于提升可信计算的整体效能,也为可靠评估系统奠定了基础。该研究课题涉及测量理论、概率论以及众多相关领域,具有极大的挑战性。例如,如何确保动态测试能够有效生成分布外的示例?这一领域目前的研究尚处于起步阶段,未来研究不仅需要深入分析算法的性能,还需对评估系统本身进行系统性评估。
7.6 支持所有LLM任务的统一评估
LLM在多个研究方向上还有待拓展,我们计划构建能够满足多种任务需求的评估体系,涵盖价值评估、安全防护、性能验证、跨学科探索以及模型微调等多个方面。例如,PandaLM作为一项评估体系,基于开源评估模型为LLM的微调提供支持,其独特的自动评估功能显著提升了微调效率。未来,我们有望开发出更加通用的评估系统,适用于LLM的多种任务。
7.7 超越评估:LLM增强
从根本上说,评价虽不是研究的最终目标,却是研究的起点。在完成评估后,毫无疑问,我们能够得出一系列关于模型性能、稳健性、稳定性和其他相关因素的结论。一个成熟的评估系统不仅应该提供基准数据,还应该为未来的研究和开发工作提供具有洞察力的分析、建议和指导。例如,PromptBench不仅提供了对抗性提示稳健性评估的结果,还通过注意力可视化进行了深入分析,从而阐明了对抗性文本如何导致模型的错误反应。此外,该系统还提供了词频分析,以识别测试集中的鲁棒和非鲁棒单词,从而为提示工程提供了详细的分类依据。基于这些发现,后续研究可以进一步增强大语言模型(LLM)的能力。需要注意的是,这项任务超出了单一协议评估设计的范畴。
8 结论
评估在人工智能模型发展进程中具有重要的战略意义,尤其是在大型语言模型的背景下显得尤为必要。本文首次从评估内容、评估方式和评估地点三个维度对LLM的评估进行了系统梳理。通过整合评估任务、协议和基准,我们旨在深化对LLM现状的理解,揭示其优势与局限性,并为LLM未来的发展提供理论支持。研究结果表明,当前LLM在多数任务中仍显现出一定的能力缺失,尤其是在推理和稳健性任务方面存在明显不足。同时,现代评估体系的建立与完善仍面临着迫切的需求,以确保能够全面、客观地评估LLM的固有能力与局限。为此,我们确定了几个关键研究课题,希望未来研究能够逐步提升LLM对人类的综合服务能力。
