Advertisement

论文翻译:AAAI-2024.Liangtai Sun.SciEval: A Multi-Level Large Language Model Evaluation Benchmark for

阅读量:

https://ojs.aaai.org/index.php/AAAI/article/view/29872

SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research

SciEval 是一个基于科学原则设计的多层次评估基准,结合静态和动态数据,全面评估大型语言模型在基础知识、知识应用、科学计算和研究能力四个维度的科学研究能力。

文章目录

  • SciEval:用于科学研究的大型语言模型多级评估基准

  • 摘要

  • 1 引言

  • 2 相关工作

    • 2.1 针对LLMs的通用基准
    • 2.2 针对LLMs的特定基准
  • 3 SciEval数据集

    • 3.1 科学研究评估体系
    • 3.2 数据收集
    • 3.3 数据统计
  • 4 实验

    • 4.1 实验设置
    • 4.2 实验结果
    • 4.3 讨论
    • 5 结论
  • GPT解析

SciEval:用于科学研究的大型语言模型多级评估基准

摘要

最近,使用大型语言模型(LLMs)进行科学研究的兴趣日益增长。为了评估LLMs在科学研究中的能力,已经提出了许多基准。然而,当前的基准大多基于预先收集的客观问题。这种设计存在数据泄露问题,并且缺乏对主观问答能力的评估。在本文中,我们提出了SciEval,一个全面且多学科的评估基准,以解决这些问题。基于布鲁姆分类法,SciEval涵盖了四个维度,系统地评估科学研究能力。特别是,我们设计了一个基于科学原理的“动态”子集,以防止评估中潜在的数据泄露。SciEval中既包括客观问题,也包括主观问题。这些特点使SciEval成为评估LLMs科学研究能力的更有效的基准。在最先进的LLMs上的全面实验表明,尽管GPT-4与其他LLMs相比实现了SOTA性能,但仍有很大的改进空间,特别是在动态问题上。代码和数据可在https://github.com/OpenDFM/SciEval上公开获取。

1 引言

大型语言模型(LLMs),如ChatGPT(Schulman等人,2022年),在一般场景中引起了广泛关注,包括信息搜索、代码生成等。在科学领域,LLMs也显示出了提高科学研究效率和转变科学研究范式的初步潜力(Blanco-Gonzalez等人,2023年;WANG和MIAO,2023年)。与此同时,研究人员提出了几个科学LLMs(Taylor等人,2022年;Luo等人,2022年;Frey等人,2022年)。在一般领域,已经有许多评估基准来评估LLMs的语言理解、语言生成和推理能力,如MMLU(Hendrycks等人,2020年)、AGIEval(Zhong等人,2023年)和C-EVAL(Huang等人,2023年),如表1所示。尽管这些基准涵盖了科学领域的数据,但数据来源通常限于教育材料,这不能充分评估LLMs的研究能力,也与现实生活的科学研究场景不符。此外,一些基准被提出来评估LLMs的科学能力,如MultiMedQA(Singhal等人,2023年)、ChemLLMBench(Guo等人,2023年)和MATH(Hendrycks等人,2021年),而这些基准限于特定的科学学科,缺乏一个更通用的科学评估基准。

此外,这些基准:
(1)缺乏科学能力的评估系统,(2)全部基于客观问题,这不足以评估科学能力,(3)面临数据泄露的风险。

为了填补这一空白,我们提出了SciEval,这是一个旨在评估LLMs在科学领域高级能力的英文基准。SciEval总共包含约18000个具有挑战性的科学问题,涵盖三个重要的基础科学领域:化学、物理和生物学,每个领域进一步细分为多个子主题。
SciEval主要有以下三个特点:

• 多级和全面的评估LLMs在科学领域能力。需要从多个方面评估LLMs的科学能力。利用布鲁姆分类法的认知领域(Krathwohl,2002年;Forehand,2010年),涵盖六个层次,SciEval在四个维度上评估大型语言模型的科学能力:基本知识、知识应用、科学计算和研究能力,每种能力对应一个或多个认知层次。

• 客观和主观问题的结合。SciEval主要基于客观问题,这允许快速和标准化的模型评估,涉及多项选择、填空和判断问题。这些问题可以帮助我们了解模型是否能够正确理解和记忆科学知识。然而,客观问题不足以全面评估科学能力。为了更好地评估科学推理和应用能力,SciEval引入了少量主观问题,涉及总共十二个基础科学实验,被称为实验数据。

• 基于基本科学原理的动态数据生成。用于预训练LLMs的大量训练数据可能会导致评估中的数据泄露风险。为了解决这个问题,SciEval的一个主要特点是使用动态数据,可以防止潜在的数据泄露,并确保评估结果的公平性和可信度。动态数据将定期更新,我们将维护一个稳定版本,以便公平比较模型性能。除了动态数据之外的客观问题被称为静态数据。

我们在SciEval上对LLMs进行了实验评估,包括仅答案、思维链和少量样本设置。结果表明,GPT-4是最强大的模型,只有GPT-4、GPT-3.5-turbo和Claude-v1.3在静态数据上的平均准确率超过60%,这表明有很大的改进机会。随着动态数据的结果,我们发现这些LLMs对分子知之甚少,大多数模型在物理子集上只能保持接近随机的准确率。至于实验数据,一些顶级模型可以在实验原理和设计上表现令人满意,而几乎所有模型都在分析实验结果上遇到困难。通过实验结果的分析,我们声称在大规模科学语料库上的训练有助于LLMs的科学能力,大多数LLMs在计算问题上表现不佳,尤其是在物理领域。我们希望SciEval能为评估LLMs的科学能力提供一个优秀的基准,并促进在科学领域的广泛应用。
在这里插入图片描述

表1:SciEval与其他涵盖科学领域的数据集的比较。“BK”代表基本知识,“KA”代表知识应用,“SC”代表科学计算,“RA”代表研究能力。

2 相关工作

2.1 针对LLMs的通用基准

为了评估LLMs在不同任务中的表现,已经提出了几个基准。

MMLU(Hendrycks等人,2020年)旨在开发一个全面的测试,用于评估多任务背景下的文本模型。HELM(Liang等人,2022年)提供了一个全面的评估,评估LLMs在各个方面的表现,如语言理解和常识推理。

Big-Bench(Srivastava等人,2022年)引入了204个涵盖各个领域的具有挑战性的任务,旨在评估超出现有语言模型能力的任务。

AGIEval(Zhong等人,2023年)作为一个评估框架,用于评估基础模型在以人为中心的标准化考试中的表现。C-Eval(Huang等人,2023年)评估基础模型在中文中的高级知识和推理能力。

2.2 针对LLMs的特定基准

除了通用任务外,还为某些下游任务设计了特定的基准。MultiMedQA(Singhal等人,2023年)专注于医学问答,评估LLMs在临床知识和问答能力方面的表现。

MATH(Hendrycks等人,2021年)评估LLMs在数学中的推理和问题解决能力。ScienceQA(Lu等人,2022年)提出了一个多模态基准,包含一系列科学主题,并用相应的讲座和解释标注它们的答案,这些内容收集自小学和高中的科学课程。

SCIBENCH(Wang等人,2023年)考察了解决复杂科学问题所需的推理能力,并提出了两个大学级别的科学问题数据集。与这些基准相比,SciEval(1)从多个方面评估科学能力,覆盖范围更广,(2)使用社区问答的数据,更加灵活和多样,(3)设计了一个动态数据子集,努力减少数据泄露。

3 SciEval数据集

3.1 科学研究评估体系

科学研究需要不同维度的知识,比如理解和计算,因此对科学能力的评估应该在多个层面进行。布鲁姆分类法是一套三个层次的方法,用于分类教育学习目标,涵盖认知、情感和心理运动领域。认知领域常用于构建课程学习目标、评估和活动,并且被划分为六个层次:记忆、理解、应用、分析、评价和创造,如图1所示,这些层次适合评估科学能力。
基于布鲁姆分类法的认知领域,SciEval的评估体系由四个知识维度组成:基本知识(BK)、知识应用(KA)、科学计算(SC)和研究能力(RA)。如图1所示,BK主要评估LLMs的基本科学知识。KA专注于如何应用基础知识解决科学问题,要求模型具备理解、应用和分析能力。SC是知识的专门应用,进一步基于它们通常的知识应用能力检验LLMs的复杂推理能力。RA在更高的认知层面评估评价能力,要求模型参与科学研究的各个方面,包括问题制定、实验设计、数据分析和总结。
基于评估体系,我们设计了三种不同类型的数据:静态数据、动态数据和实验数据。静态数据涵盖所有这四个知识维度,并将保持不变,而动态数据从知识应用和科学计算方面进行考察,并将定期更新以防止任何数据泄露。实验数据包括十二个科学实验的一组问题,可用于评估研究能力。

3.2 数据收集

静态数据 静态数据的收集步骤如图2所示。静态数据的主要来源是Socratic Q&A2,这是一个社区驱动的网站,涵盖科学和文学等广泛主题。具体来说,我们从生物学、化学和物理学领域收集数据。为确保质量,我们使用基于规则的方法预处理抓取的数据。在收集问题时,我们发现并非所有问题都适合作为标题。为解决这个问题,我们使用GPT-4和“任务1”提示,如图2所示,来处理这些问题。由于大多数收集到的问题都是开放式的,并且难以评估,我们使用GPT-4简化正确答案并生成三个错误答案,将它们制定为多项选择题。此外,我们将问题分类到它们各自的知识领域。在这个过程中,我们手动检查GPT-4生成的内容以确保数据质量。

为使数据集更加多样化和全面,我们进一步整合了一些公开可用的数据集:

• MedQA(Jin等人,2021年)是一个自由形式的多项选择OpenQA数据集,用于解决医学问题,收集自专业医学考试。我们使用USMLE的测试集,这是MedQA的英文子集。

• PubMedQA(Jin等人,2019年)是一个从PubMed摘要中收集的生物医学问答数据集。PubMedQA的任务是使用相应的摘要回答研究问题,可以用是/否/也许来回答,适合评估文献理解能力。我们整合了其中的1000个专家标注数据,并将它们制定为判断问题。

• 试剂选择(Guo等人,2023年)涉及识别和提出最适合特定化学反应或过程的试剂,这是ChemLLMBench的一个子集。我们随机选择40%的数据,并将它们制定为多项选择题。
在这里插入图片描述
图1:评估体系的说明。SciEval涵盖了三个学科及其众多子主题,并探究了与六个认知层次相对应的四种能力。

动态数据 当前LLMs的训练通常使用大量数据,导致评估中存在数据泄露的风险。为了解决这个问题,我们设计了一个“动态”子集,可以根据科学原理动态生成数据。动态子集涵盖了化学和物理两个学科。对于化学数据,我们利用从PubChem3抓取的分子基本信息和属性来创建数据。对于物理数据,我们根据物理公式手动编写了一些Python脚本。在获取评估数据集时,我们将向用户提供一个重新生成的版本,并且我们会定期更新它,同时,我们会维护一个稳定的动态数据版本,以进行公平比较。

实验数据 为了更好地评估LLMs的科学思维和能力,SciEval引入了一个实验数据子集,涉及12个不同的基础科学实验。这些实验收集自大学的基础教育实验课程,每个实验从实验原理、过程以及实验结果的分析和总结的角度,全面考察LLMs在科学研究和实验中的能力。
在这里插入图片描述
在这里插入图片描述

图2:静态数据的收集步骤

3.3 数据统计

总结统计数据如表2所示,我们仅计算了静态数据。对于动态数据,化学部分考察KA能力,包含2000个数据,而物理部分评估SC能力,涉及890个数据。所有这些问题都是英文的,我们在附录D中展示了一些数据示例。
在这里插入图片描述
表2:静态数据的统计信息

对于静态数据,我们进一步将数据划分为开发集(dev)、验证集(valid)和测试集(test)。对于每个数据源、每个知识领域和每个学科,我们随机选择5个数据形成开发集,这些数据可用于少量样本学习,我们将剩余数据按照1:9的比例划分,分别构建验证集和测试集。
在这里插入图片描述
图3:我们在AO设置中使用的提示示例。红色文本是模型的响应,而黑色文本是输入的提示。
在这里插入图片描述
图4:我们在CoT设置中使用的提示示例。红色文本是模型的响应,而蓝色文本和黑色文本是输入的提示。

4 实验

4.1 实验设置

提示 我们在仅答案(Answer-Only,AO)和思维链(Chain-Of-Thought,CoT)(Kojima等人,2022年)两种设置中评估LLMs。我们在图3和图4中分别展示了使用的提示。此外,我们还使用3次样本设置进行评估,其中三个示例是从开发集中选取的。

模型 为了全面评估大型语言模型(LLMs)的科学能力,我们评估了15个广泛可访问的高性能LLMs。这些模型被选中是为了代表不同的组织,并且在规模上有所不同。这些模型的详细信息在表3中总结。
在这里插入图片描述
表3:本文评估的模型。“访问”列显示我们是否拥有模型权重的完整访问权限,或者我们是否只能通过API或网络访问。SD代表静态数据,DD代表动态数据,ED代表实验数据。标记“√”表示我们在该子集上评估相应的模型。
在这里插入图片描述
表4:仅答案设置下的模型表现。排行榜按静态数据的平均准确率排序。
在这里插入图片描述
图5:每个LLMs在静态数据的仅答案、思维链和3次样本设置中的准确率。

  • GPT-3.5-turbo和GPT-4(Schulman等人,2022年;OpenAI,2023年)是OpenAI训练出的最强大的GPT模型变体,它们经历了预训练、指令调整和来自人类反馈的强化学习(RLHF,Ouyang等人,2022年)。
  • Claude4由Anthropic开发,通常被认为是与GPT-3.5-turbo相当的模型。我们评估了Claude-v1.3和较轻量级的版本Claude-instant-v1.1。
  • ERNIE Bot5由百度开发,拥有跨模态和语言的深层语义理解和生成能力。SparkDesk6由科大讯飞提出,具有跨领域知识和语言理解能力,能够基于自然对话理解和执行任务。
  • LLaMa(Touvron等人,2023年)由Meta开发,可能是迄今为止最好的开放权重基础模型。Vicuna(Zheng等人,2023年)和Alpaca(Taori等人,2023年)都是从LLaMa进行监督指令微调的。据信Vicuna的性能优于Alpaca。
  • Galactica(Taylor等人,2022年)也是由Meta开发,它在大规模科学语料库上进行训练。它被开发用于研究语言模型在科学自动组织中的使用,并且可以执行许多科学任务,如引用预测、科学问答和分子属性预测。
  • 由清华大学创建的ChatGLM和ChatGLM2基于GLM架构(Du等人,2022年),并进一步适应于对话数据。由复旦大学开发的MOSS(Sun等人,2023年)是第一个公开可用的中文LLM,它遵循与ChatGPT类似的训练程序。

我们评估了GPT-3.5-turbo、GPT4和Claude在所有三个子集上的表现,包括静态数据、动态数据和实验数据。由于我们只能通过Web界面评估ERNIE Bot和SparkDesk,因此我们仅在实验数据上评估这两个模型。对于其他具有数十亿参数的LLMs,由于实验数据的长度超出了这些模型的长度限制7,我们在静态数据和动态数据上评估它们,如表3所示。

评估指标 在静态数据的情况下,所有问题都是客观的,因此准确率是适当的评估指标。对于动态数据,物理问题以多项选择题的形式呈现,也可以使用准确率进行评估。相反,化学问题涉及复杂的组成部分,如“A的分子量是多少?”和“B的SMILES表达式是什么?”。因此,对于有数值答案的问题,我们采用均方误差(MSE)8作为评估指标,而对于有字符串答案的问题,我们使用BLEU分数(Papineni等人,2002年)。此外,我们还计算提取匹配分数。至于实验数据,每个实验包含多个开放式问题。因此,我们手动评估模型生成的响应。

以下是您提供的英文文本的中文翻译:

4.2 实验结果

仅答案设置 所有模型在测试集上的仅答案结果如表4所示,不同知识领域静态数据的详细结果见附录B。分析静态数据的结果,GPT4的表现明显优于其他模型。而且只有GPT-4、GPT-3.5-turbo和Claude-v1.3的平均准确率超过60%,这突显了SciEval所带来的挑战。
对于动态数据的结果,GPT-4在平均准确率和BLEU分数方面表现最佳。然而,在计数和计算问题上,Galactica-30B取得了最佳结果,表明其在科学领域的强大能力。相反,数十亿参数的模型在化学子集上表现不佳,表明它们对分子的了解有限。关于模型在物理子集上的表现,由于所有问题都是四选一的问题,准确率至少应该是25%。然而,这些模型在该子集上都没有取得令人满意的结果。
至于实验数据,GPT系列模型和Claude系列模型取得了良好的结果,而其他两个模型则没有。模型在每个实验中达到的详细分数见附录C。然而,尽管一些模型能够取得出色的表现,在实验中,我们发现这些模型擅长实验原理和设计,但在分析实验结果时,表现并不令人满意。

思维链设置和3次样本设置 仅答案、思维链和3次样本设置之间的实验结果比较如图5和表5.9所示。详细结果请参考附录A和B。

静态数据的实验结果揭示,仅有GPT系列LLMs在思维链设置中因其他LLMs有限的思维链能力而获得性能提升。至于3次样本设置,大约一半的LLMs表现出相对于仅答案设置更优越的性能。其余LLMs的性能与仅答案设置中观察到的非常相似。

从动态数据的实验结果来看,CoT和3次样本显著提升了大多数LLMs在化学子集中的性能。然而,达到的性能仍然不尽人意。在物理子集中,CoT和3次样本对大多数LLMs的影响较小,导致几乎随机的性能。在思维链设置下,GPT-3.5-turbo达到了47.19的准确率,表明其对物理原理有稳固的理解。相反,GPT-4的性能明显较差,我们发现尽管它对物理原理有广泛的了解,但经常使用错误的公式来解决问题。尽管如此,GPT-4在3次样本设置下达到了51.01的准确率,是所有模型中最高的,展示了其从仅有的三个样本中学习的能力。
在这里插入图片描述
表5:每个LLM在动态数据的仅答案、思维链和3次样本设置中的结果。↑表示性能略优于仅答案设置,↓表示更差,∼表示性能几乎相同。

4.3 讨论

在大规模科学语料库上训练是有帮助的。

基于实验结果(表4),在广泛的科学语料库上训练的Galactica(Taylor等人,2022年),显著优于其他参数数量相当的LLMs,尽管Galactica训练的数据量要小得多。值得注意的是,在动态数据的测试中,Galactica在计算问题上超越了GPT系列和Claude系列LLMs。

大多数LLMs在计算问题上表现不佳,尤其是在物理领域。静态数据上不同知识领域的详细结果(见附录B)揭示了大多数LLMs在科学计算领域表现不佳,而在其他领域则表现出相对优越的性能,这在物理领域尤为明显。在动态数据和实验数据中也观察到类似问题。在动态数据的背景下,用于评估化学子集中计算能力的均方误差对大多数LLMs来说异常高,几乎所有LLMs在物理子集中只能达到接近随机的性能。关于实验数据,我们的发现表明这些LLMs在分析实验结果方面存在困难。

5 结论

在本文中,我们介绍了SciEval,这是一个旨在评估LLMs科学能力的基准。SciEval包含大约18,000个具有挑战性的科学问题,涵盖三个基础科学领域。SciEval从四个维度评估LLMs的科学能力。它结合了客观和主观问题,并采用动态数据生成来减少潜在的数据泄露。我们使用SciEval对各种先进的LLMs进行了全面的实验,并进行了深入分析。我们的实验结果揭示了大多数LLMs在我们的基准测试中表现不佳,GPT系列和Claude系列LLMs除外。我们希望SciEval能作为一个评估LLMs科学能力的强有力的基准。

GPT解析

在这里插入图片描述
这篇论文确实提到了动态数据生成的过程。以下是其关键内容总结:

动态数据设计的目的
动态数据生成的主要目的是解决由于LLM(大型语言模型)使用大量训练数据而导致的数据泄漏风险。通过动态数据,可以防止可能的数据泄漏,确保评估结果的公平性和可信性【4】。

动态数据生成的方式

复制代码
 * **化学领域** :利用PubChem等平台抓取分子的基本信息和性质,然后基于这些信息生成相关数据。
 * **物理领域** :通过手动编写Python脚本,根据物理公式生成动态数据【4】。

动态数据的特点
动态数据涵盖了化学和物理两个学科,包含知识应用(KA)和科学计算(SC)两个评估维度。每次获取评估数据时,都会提供一个重新生成的版本,并定期更新,同时也维护一个稳定版本以确保公平比较【4】。

如需更详细的信息,欢迎进一步讨论!

全部评论 (0)

还没有任何评论哟~