Advertisement

大模型-Qwen2.5 技术报告解读

阅读量:

Abstract

主要是在介绍通义千问2.5(Qwen2.5)这一大型语言模型系列,涵盖了它在不同训练阶段的改进、多样化配置、可获取途径以及在各项性能评测中的出色表现等多个方面,旨在展示其先进性与实用性。

训练阶段改进

预训练阶段 *

说明了Qwen2.5在预训练时对数据集进行了大规模的扩充,将高质量预训练数据集的词元数量从之前的7万亿提升到了18万亿。词元可以理解为语言模型学习时的基本语言单位(比如单词、汉字等),更多的高质量词元数据意味着模型能够接触到更丰富的语言表达和知识内容,进而为其积累常识、掌握专业知识以及提升推理能力筑牢根基。例如,更多的科学文献、新闻报道等文本数据中的词元,能帮助模型学习到不同领域的专业术语和逻辑关系等。

后训练阶段 *

采用了较为复杂且有效的训练手段,先是利用超过100万个样本开展监督微调。监督微调就是在已有预训练模型基础上,根据带有标注(比如正确答案、期望输出等)的样本进一步调整模型参数,让模型朝着更符合人们期望的方向优化。

同时运用多阶段强化学习,包含离线学习的直接偏好优化(DPO)和在线学习的广义奖励策略优化(GRPO)。强化学习旨在通过奖励机制引导模型做出更符合期望的行为(在这里就是生成更符合人类偏好的文本等),不同的学习方式从不同角度来优化模型对人类偏好的契合度,最终实现增强人类偏好这一目标,并且显著提升了像长文本生成、对结构化数据进行分析以及准确遵循指令等方面的能力。比如,在生成长篇文章或者分析表格数据并按照要求给出结论等任务中,模型能有更好的表现。

模型配置与获取途径

丰富配置 *

为了适应各种各样的实际使用场景,Qwen2.5以多种不同的配置推出。其中开源权重版本涵盖了从0.5B到72B等不同参数量的基础模型和指令微调模型 。参数数量在一定程度上体现了模型的规模和复杂度,不同规模的模型适用于不同的应用场景,小型模型可能更适合资源受限的设备或者对简单任务的处理,大型模型则能应对更复杂、要求更高的任务。

还提供了指令微调模型的量化版本,量化可以降低模型存储和运算时对资源的需求,便于更广泛的部署和应用。

获取途径 *

使用者可以通过多个知名平台获取相关模型,像Hugging Face Hub、魔搭(ModelScope)和Kaggle等,能从中获取超过100个模型,方便研究人员、开发者等不同群体使用。另外,对于托管解决方案,专有模型里有Qwen2.5 - Turbo和Qwen2.5 - Plus这两种混合专家(MoE)变体,可在阿里云模型平台(Alibaba Cloud Model Studio)获取,这种托管的专有模型可能会针对特定用户需求和服务场景提供更定制化的功能与保障。

性能表现

基准测试表现优异 *

Qwen2.5在众多基准测试中都展现出顶尖水平,这些基准测试涉及语言理解(比如能否准确理解语句含义、篇章主旨等)、推理(像根据给定条件推出合理结论等)、数学(例如解决数学运算、数学应用题等)、编码(比如编写代码片段、理解代码逻辑等)以及人类偏好对齐(生成的内容是否符合人们期望的风格、逻辑等)等多个重要方面。

具体来看,开源权重旗舰模型Qwen2.5 - 72B - 指令微调模型性能突出,胜过许多其他开源和专有模型,并且和当前规模比它大5倍左右的先进开源权重模型Llama - 3 - 405B - 指令微调模型相比,也有着很有竞争力的表现,这充分体现了它的高性能优势。

性价比优势明显 *

Qwen2.5 - Turbo和Qwen2.5 - Plus这两个模型在与类似的竞品(分别对应GPT - 4o - mini和GPT - 4o)竞争时,不仅性能表现不逊色,而且在成本效益方面有着突出优势,意味着使用它们能以相对较低的成本获得较好的使用效果,对于企业、开发者等在考虑成本投入的情况下选择合适的语言模型有着很大吸引力。

助力专项模型训练 *

作为基础模型,Qwen2.5还在训练其他专用模型方面发挥了关键作用,像通义千问2.5 - 数学(专注于数学相关任务处理)、通义千问2.5 - 编码者(针对编码相关任务优化)、QwQ(可能有其特定的应用侧重)以及多模态模型(融合了图像、语音等不同模态信息与语言处理的模型)等,进一步拓展了其在不同专业领域和应用场景中的影响力与应用价值。

1 Introduction

1.1 通用人工智能与大型语言模型发展背景

AGI曙光初现 :当前,随着大型基础模型特别是大型语言模型(LLMs)的迅猛发展,人工通用智能(AGI)已逐渐展现出希望的曙光。众多机构和团队(如文中提及的布朗等人、OpenAI、Gemini团队等所开展的相关研究)都在推动这一进程,这些大型语言模型的发展成果正让AGI的轮廓变得越来越清晰。

能力提升的关键因素 :模型和数据规模的持续扩大起着基础性作用,而且还采用了先大规模预训练,再接着进行高质量监督微调(SFT)以及基于人类反馈的强化学习(RLHF)这样的模式。在这样的发展模式下,大型语言模型逐渐具备了在语言理解、生成以及推理方面的新能力,也就是所谓的“涌现能力”,这些能力并非简单的叠加,而是在模型发展到一定程度后自然出现的较为复杂和高级的能力表现。例如,模型能更好地理解一段复杂文本的深层含义、生成逻辑连贯且符合语境的回复,或者依据给定条件进行合理的推理推导等。

推理能力的进一步突破 :在上述基础之上,近期像OpenAI展示的o1在推理时间扩展方面实现了新突破,使得大型语言模型可以通过逐步推理和反思的方式,像人类进行深度思考那样来处理问题,这进一步挖掘了语言模型的潜力,让人们看到其在未来科学探索等领域有望达成重大突破,因为这些能力越来越接近人们对通用人工智能的期望,比如能够自主去探索新知识、解决复杂科学问题等。

1.2 开源大型语言模型的影响

开源模型涌现 :在过去两年间,大型语言模型社区里出现了大量开源(开放权重)的大型语言模型,像Llama系列、Mistral系列以及本文着重介绍的通义千问系列等。这些开源模型的出现意义重大,改变了大型语言模型以往相对局限的使用格局。

对用户和开发者的积极作用 :它们让普通用户和开发者更容易接触和使用大型语言模型,不再受限于以往只有少数特定群体能使用的情况。这样一来,更多的人能够参与到相关研究当中,不同背景的开发者、研究者可以汇聚在社区里交流协作,共同为模型的改进、创新应用的开发出谋划策,进而推动人工智能在各个不同领域(如医疗、教育、金融等)的应用能够加速发展,为各行各业带来更多基于人工智能的解决方案。

1.3 通义千问2.5的相关情况介绍

模型发布情况

开源权重部分 :通义千问2.5公布了其详细信息,在开源权重方面推出了7种不同规模的预训练模型和指令微调模型,涵盖从0.5B到72B多种参数量级别,满足不同使用场景和需求。并且提供了不同精度的版本,除了bfloat16精度的原始模型外,还有其他精度的量化模型,量化模型有助于降低模型对存储和计算资源的要求,便于更广泛地部署和应用。其旗舰模型通义千问2.5 - 72B - 指令微调模型表现出色,和同领域规模更大(约为其5倍)的先进开源权重模型Llama - 3 - 405B - 指令微调模型相比,性能也毫不逊色,具备很强的竞争力。

专有模型部分 :还发布了基于混合专家(MoE)技术的专有模型,即通义千问2.5 - Turbo和通义千问2.5 - Plus1,这两个模型在和类似竞品(分别对应GPT - 4o - mini和GPT - 4o)竞争时,展现出了良好的竞争力,说明它们在性能和成本等综合考量方面有自身优势,能在市场中占据一席之地。

关键特性展现

规模更优方面 :对比之前的通义千问2版本,通义千问2.5扩充了模型规模的选择,重新纳入了3B、14B和32B这几种模型。这些中间规模的模型在资源有限的应用场景中性价比更高,例如一些计算资源相对匮乏的小型服务器或者边缘计算设备等场景下,使用它们既能满足一定的性能需求,又不会占用过多资源。而且在当前开放基础模型领域中,这类规模的模型相对来说还不够丰富,通义千问2.5的这一举措正好填补了部分空白,同时通义千问2.5 - Turbo和通义千问2.5 - Plus在准确性、处理延迟以及成本这几个关键要素之间找到了很好的平衡,能为用户提供更优质的综合使用体验。

数据更优方面 :数据层面有了显著改进,预训练数据从7万亿词元大幅增加到18万亿词元,并且着重聚焦知识、编码以及数学这些重要领域,这意味着模型在学习过程中能接触到更海量且更具针对性的信息,有助于提升其在对应领域的知识储备和处理能力。预训练还采用分阶段的方式,方便实现不同内容混合之间的平滑过渡,使模型学习更加系统和高效。而后训练阶段的数据量达到了100万个示例,覆盖了监督微调(SFT)、直接偏好优化(DPO)以及群组相对策略优化(GRPO)等多个重要环节,通过这些全面且精细的后训练操作,能进一步优化模型的性能,使其输出更符合人们的期望和实际应用需求

使用更优方面 :通义千问2.5解决了通义千问2在实际使用中存在的一些关键局限。比如,文本生成长度有了很大提升,从原来的2000词元增加到8000词元,这使得它在处理长文本相关任务(如长篇文章创作、长篇故事生成等)时更具优势;对结构化输入和输出(像表格、JSON格式这类有特定结构的数据)的支持变得更好,方便在涉及数据处理、信息整合等应用场景中使用,例如可以更好地解析表格数据并生成相应结构化的回复;在工具使用方面也更加便捷,可能是与外部工具(如数据库查询工具、特定的专业软件等)的交互更顺畅,更易于借助外部工具来拓展自身功能,提升整体实用性。此外,通义千问2.5 - Turbo还支持长达100万词元的上下文长度,这在处理超长文本、复杂对话场景等需要长时间记忆和关联上下文信息的情况下,能发挥很大的作用,保证模型输出的连贯性和准确性。

2 Architecture & Tokenizer

通义千问2.5系列涵盖了不同类型的模型,一是用于开源的密集型模型 ,具体有通义千问2.5 - 0.5B、1.5B、3B、7B、14B、32B、72B这些不同参数量级的模型,可供开发者等群体自由获取使用;二是用于提供API服务的混合专家(MoE)模型 ,像通义千问2.5 - Turbo和通义千问2.5 - Plus,这类模型主要通过API接口的方式为用户提供服务,往往在特定的应用场景和功能需求方面有独特优势。

2.1 模型架构相关细节

基础架构元素 *

位置信息编码与相关机制 :在模型架构中,运用旋转位置嵌入(RoPE)技术来对位置信息进行编码,这一技术能让模型更好地理解文本中词元所处的位置顺序,因为对于语言模型来说,词元的先后顺序等位置信息对于准确把握语义等是很关键的。同时,在注意力机制里采用了查询(Q)、键(K)、值(V)偏差(QKV bias),注意力机制本身是帮助模型聚焦文本不同部分重要性的关键环节,添加这个偏差可以进一步优化模型对不同词元关系的捕捉和处理能力。另外,还使用了均方根层归一化(RMSNorm)且是预归一化的方式,其目的在于保证模型在训练过程中的稳定性,避免出现梯度消失或梯度爆炸等问题,使得训练能够顺利、有效地进行下去。

从密集型到混合专家(MoE)架构的扩展 *

架构转变方式 :以原有的密集型模型架构为基础,将其扩展成混合专家(MoE)架构。具体操作是把标准的前馈网络(FFN)层替换为专门的混合专家层。每个混合专家层里包含了多个前馈网络专家,并且配备了一个路由机制。这个路由机制非常重要,它起着分配词元的作用,会根据一定规则把词元分配给排名前K的专家,也就是让不同的词元能被相应更合适的专家进行处理,以此来提升模型整体的处理效率和性能表现。

借鉴方法与创新举措 :参考通义千问1.5 - 混合专家(MoE)所展示的方法,进一步实施了细粒度的专家划分以及共享专家路由。细粒度的专家划分能够更精准地对不同类型、不同特点的词元进行分类处理,让每个专家可以专注于处理特定类型的词元;共享专家路由则可以在不同部分、不同阶段更合理地调配专家资源,提高资源利用效率。通过这些架构方面的创新,使得模型在面对下游各种不同的任务(比如文本分类、问答系统、文本生成等具体应用任务)时,性能得到了实实在在的显著提升,能够输出更准确、更符合要求的结果。

2.2 分词相关内容

分词器及编码方式 :在对文本进行处理时,使用的是通义千问的分词器,这个分词器采用字节级字节对编码(BBPE)的方式来处理文本,将文本分割成一个个的词元。字节级字节对编码是一种比较常用且有效的文本编码方式,它能够较好地处理各种自然语言文本,尤其是对于那些不在词汇表中的罕见词或者新出现的词等,都能进行合理的编码表示。并且其常规词元词汇表规模达到了151,643个词元,这为模型准确理解和处理大量文本提供了丰富的基础词元储备。

控制词元的扩展及作用 :与之前的通义千问版本相比,控制词元的数量有了明显增加,从原来的3个扩展到了22个。其中专门新增了2个用于工具功能的控制词元,这意味着模型在与外部工具进行交互或者调用相关工具功能时,有了专门对应的标识词元,能更好地实现这些操作。其余新增的控制词元则分配给了其他模型功能,比如可能用于表示不同的文本格式、特定的语义角色等。通过这样的扩展,在整个通义千问2.5系列的所有模型中建立起了统一的词汇表,好处在于增强了模型之间的一致性,无论使用该系列中的哪个模型,在词汇理解和处理上都能保持相对统一的标准,同时也减少了因为词汇不一致等可能带来的潜在兼容性问题,比如不同模型之间交互、协同工作时出现理解差异等情况会大大减少。

3 Pre-training

我们的语言模型预训练过程包含几个关键部分。首先,我们通过复杂的筛选和评分机制精心策划高质量的训练数据,并结合策略性的数据混合。其次,我们对超参数优化进行广泛研究,以便有效地训练不同规模的模型。最后,我们采用专门的长上下文预训练来提升模型处理和理解长序列的能力。下面,我们将详细介绍我们在数据准备、超参数选择和长上下文训练方面的方法。

3.1 Pre-training Data

Qwen2.5预训练数据质量提升的关键方面

数据筛选改进 *

重要性强调 :高质量的预训练数据是模型性能的基石,所以数据质量评估与筛选在整个流程中占据关键地位。

筛选方法 :利用Qwen2 - Instruct模型作为筛选工具,它能从多个维度对训练样本进行全面分析评估并打分。此方法相比用于Qwen2的旧方法有显著进步,原因在于Qwen2在更大规模多语言语料库上的预训练使其能力得到拓展。这种拓展后的能力可实现更精细的质量评估,具体表现为能更好地保留高质量训练数据,同时更精准地过滤掉多语言环境下的低质量样本。例如,在处理包含多种语言文本的训练数据时,能更敏锐地识别出不同语言中表达不准确、不完整或不符合要求的数据,从而提升整体数据质量。

数学和代码数据优化 *

数据整合策略 :在Qwen2.5预训练时,引入了来自Qwen2.5 - Math和Qwen2.5 - Coder的训练数据。这些特定领域的数据集在提升模型于数学和编码任务上的表现方面效果显著。例如,Qwen2.5 - Math数据集包含丰富的数学问题、公式推导、解题思路等信息,Qwen2.5 - Coder数据集则涵盖了各类编程代码示例、算法逻辑等内容。通过整合这些数据,Qwen2.5在预训练过程中得以学习到专业的数学推理和代码生成知识,从而继承了强大的相关能力。当面对数学计算问题或代码编写需求时,模型能够凭借预训练所学到的知识,更准确、高效地进行处理。

合成数据提升 *

生成与筛选方式 :为生成高质量合成数据,尤其是在数学、代码和知识领域,借助了Qwen2 - 72B - Instruct和Qwen2 - Math - 72B - Instruct模型。之后,运用专有的通用奖励模型和Qwen2 - Math - RM - 72B模型进行严格筛选。通用奖励模型可从整体上评估合成数据的质量,判断其是否符合预期标准;Qwen2 - Math - RM - 72B模型则专注于数学领域,确保数学相关合成数据的准确性和逻辑性。通过这种方式,有效提高了合成数据的质量,使其能更好地服务于模型训练,增强模型在相应领域的处理能力。例如,在生成数学练习题的合成数据时,经过筛选后的数据能更准确地反映数学知识要点,且难度分布合理。

数据混合优化 *

数据分布问题分析 :在优化预训练数据分布方面,通过Qwen2 - Instruct模型对不同领域内容进行分类和平衡。经分析发现,网络规模数据中存在领域占比失衡现象。像电子商务、社交媒体和娱乐等领域的数据占比过高,且这些数据多为重复、模板化或机器生成的内容,对模型学习高价值信息帮助有限。而技术、科学和学术研究等领域虽信息质量高,但占比较低。

平衡策略 :针对此问题,采取了策略性的采样调整。对占比过高的领域进行下采样,减少冗余信息的输入;对高价值领域进行上采样,增加优质数据的比例。这样调整后的训练数据集更加平衡,富含更多有价值信息,能更好地契合模型的学习目标,使模型在学习过程中接触到更全面、更有深度的知识,从而提升模型的综合能力。例如,在训练模型理解科学概念时,经过优化后的数据集中科学领域相关的数据量增加,有助于模型更深入地学习科学知识,进而在处理科学相关问题时表现更出色。

通过上述一系列技术手段,成功构建了一个规模更大(从7万亿词元扩展到18万亿词元)且质量更高的预训练数据集,为Qwen2.5模型提供了更坚实的数据基础,有助于其在各项任务中展现更优异的性能。这个更大规模的数据集意味着模型在预训练过程中有更多的数据可供学习,能够捕捉到更广泛的语言模式、知识信息和逻辑关系;更高质量的数据则确保模型学习到的信息更加准确、有用,减少错误或低质量信息对模型学习的干扰,从而全面提升模型的性能表现。

3.2 Scaling Law for Hyper-parameters

基于Qwen2.5预训练数据开发超参数缩放定律

背景与研究方向差异

以往有诸多研究(如Dubey等人、Almazrouei等人、Hoffmann等人的相关研究)聚焦于利用缩放定律,在给定计算资源预算的情况下,去确定什么样的模型大小是最优的。也就是说,重点考虑在算力有限的条件下,模型规模多大能达到最好的效果。而此次研究另辟蹊径,是基于Qwen2.5的预训练数据,尝试运用缩放定律去找出不同模型架构下的最优超参数。这里的超参数包括像批量大小(batch size,用B表示)以及学习率(learning rate,用μ表示)等,它们对于模型训练过程和最终性能有着至关重要的影响。例如,学习率决定了模型每次更新参数时“步子”的大小,如果学习率过大可能导致模型无法收敛到最优解,过小则训练速度会很慢;批量大小关乎每次训练时使用的数据量多少,影响着模型参数更新的稳定性等。

实验探究模型架构与最优超参数的关系

实验范围设定

开展了大量的实验来深入、系统地研究模型架构和最优训练超参数之间的关联。具体操作中,着重分析了最优学习率(μopt)以及最优批量大小(Bopt)这两个关键超参数随着模型大小(用N表示,比如模型里包含的参数数量)以及预训练数据大小(用D表示,像数据集中包含的词元数量等体现数据规模的指标)的变化情况。而且实验涵盖的范围很广,在模型架构方面,既包含了参数数量从4400万(44M)到140亿(14B)的密集模型(dense models),又涉及激活参数数量从4400万(44M)到10亿(1B)的混合专家(MoE,Mixture of Experts)模型。在训练所使用的数据方面,选用的数据集其词元数量跨度从8亿(0.8B)到6000亿(600B),如此全面的实验设置能够较为完整地展现不同情况下各因素之间的关系。

例如,对于一个较小参数规模的密集模型(比如4400万参数),在相对较小的预训练数据集(比如8亿词元)上训练时,其对应的最优学习率和批量大小可能是某一组特定的值;而当模型参数规模增大到140亿,预训练数据规模也扩大到6000亿词元时,最优学习率和批量大小就会相应地发生变化,通过这样大量不同组合的实验去探寻其中的规律。

利用最优超参数预测构建最终损失模型

最终损失建模思路

在通过前面的实验得到了不同情况下的最优超参数预测值之后,进一步把最终损失(final loss,衡量模型训练效果的一个重要指标,损失越小通常意味着模型性能越好)当作是模型架构以及训练数据规模的函数来进行建模。这样做的目的是希望通过建立起这种函数关系,更清晰地了解在不同的模型架构搭建以及不同的数据规模条件下,最终损失会如何变化,从而能更好地把握模型整体的训练效果走向,为后续优化等操作提供依据。

借助缩放定律指导MoE模型超参数配置并对比性能

性能对比与配置指导

利用缩放定律去预测和比较不同参数数量的混合专家(MoE)模型和与之对应的密集模型的性能表现。MoE模型有其独特的结构特点,它包含多个专家模块,通过一定的机制来决定在不同情况下启用哪些专家进行计算,所以其参数配置相对复杂一些。通过这样的性能对比分析,就可以依据结果来指导MoE模型的超参数配置工作。比如,经过仔细调整MoE模型的激活参数(实际参与计算的那部分专家相关的参数)以及总参数,能够让MoE模型达到和特定的密集模型变体(像Qwen2.5 - 72B和Qwen2.5 - 14B这些已经有一定性能表现的密集模型)相当的性能水平。这意味着在实际应用中,可以根据具体需求、算力等各方面情况,更合理地选择使用密集模型还是MoE模型,并且能够通过合适的超参数配置让它们发挥出期望的性能效果。

3.3 Long-context Pre-training

Qwen2.5的两阶段预训练方法及相关调整

两阶段预训练概述

Qwen2.5为了达到最佳的训练效率,设计了包含两个阶段的预训练方式。在最开始的初始阶段,设定了上下文长度为4096个词元,这里的上下文长度可以简单理解为模型在一次处理过程中能够“看到”和考虑的文本序列长度范围。随后进入扩展阶段,目的是让模型能够应对更长的文本序列情况,以此来提升模型对长文本相关任务的处理能力。

除Qwen2.5 - Turbo外模型变体的处理

参照之前Qwen2所运用的策略,在除了Qwen2.5 - Turbo这个特定变体之外的其他所有模型变体进行最终预训练的时候,会对上下文长度做进一步拓展。具体来说,就是把原本的4096个词元的上下文长度增加到32768个词元。与此同时,还会对旋转位置编码(RoPE)的基频进行调整。RoPE是一种在模型中用于处理位置信息的技术,通过将基频从10000提高到1000000(利用ABF技术来实现,ABF技术由相关研究者提出,能够帮助完成这样的参数调整操作),可以让模型更好地适应更长的上下文长度,更准确地把握文本中不同位置词元之间的关系,有助于提升模型在长序列文本处理时的性能。

Qwen2.5 - Turbo的渐进式上下文长度扩展策略

多阶段扩展过程

对于Qwen2.5 - Turbo这个特殊的模型变体,采用了一种循序渐进的上下文长度扩展策略,一共划分成四个阶段来逐步增加其能处理的上下文长度。先是达到32768个词元,接着进一步扩展到65536个词元,然后再到131072个词元,最终可以达到262144个词元的上下文长度。并且在这个过程中,其旋转位置编码(RoPE)的基频设定为10000000,这个特定的基频设置也是配合着不断增长的上下文长度,帮助模型更好地对不同位置的词元进行编码和处理,从而适应长序列文本的情况。

训练数据的精心挑选

在每个阶段的训练过程中,并不是随意使用数据的,而是会精心去组织和挑选训练数据。具体做法是让训练数据包含两部分,其中40%是当前阶段所设定的最大长度的序列,另外60%则是相对较短的序列。比如在上下文长度达到65536个词元这个阶段,训练数据里就会有40%的序列长度是65536个词元,剩下60%的序列长度短于这个数值。这样做的好处是,模型既能逐渐去适应越来越长的文本序列,慢慢学习如何处理长序列中的各种语义和逻辑关系,又不会因为一下子面对过多过长的序列而出现学习困难等问题,同时还能保持对较短序列的处理能力,让模型在面对不同长度文本时都能有较好的表现,维持其泛化能力,也就是能够将学到的知识和处理方式运用到新的、未见过的不同长度文本情况中。

提升模型推理时处理长序列能力的策略及效果

关键策略介绍

为了让模型在实际进行推理(也就是根据输入给出相应输出、做出判断等实际应用的过程)时,能够更好地处理那些更长的文本序列,采用了两项重要的策略,分别是YARN(由相关研究者提出的一种技术方法,有助于提升长序列处理能力)和双块注意力(DCA,同样是一种专门针对长序列处理设计的注意力机制相关技术)。

效果体现

通过运用这两项创新策略,模型在处理序列长度方面的能力得到了极大提升,具体表现为序列长度容量提高了四倍之多。对于Qwen2.5 - Turbo这个模型来说,它能够处理的词元数量可以多达100万个,而其他模型(除Qwen2.5 - Turbo之外的那些之前提到的模型变体)也能够处理多达131072个词元了。更为重要的是,这些策略带来的好处不仅仅局限于让模型能够处理更长的序列,还体现在对不同长度序列处理的整体质量把控上。一方面,通过降低困惑度(困惑度是衡量语言模型对文本预测准确程度的一个指标,困惑度越低说明模型对文本的把握越好),改善了对长序列进行建模的效果,也就是让模型在处理长文本时能更准确地理解其语义、逻辑等内容;另一方面,在提升长序列处理能力的同时,并没有牺牲模型原本在处理较短序列时的出色性能,保证了不管是面对长文本输入还是短文本输入,模型都能输出质量较为稳定、可靠的结果,维持了在不同输入长度情况下的处理效果一致性。

4 Post-training

关于扩大监督微调数据覆盖范围

监督微调的重要性及数据利用情况

监督微调是提升语言模型在特定任务上表现的关键环节。Qwen2.5在这个阶段利用了规模极为庞大的数据集,其中包含了数百万个高质量的示例。这些示例就像是给模型学习的“教材”,数量众多且质量上乘,能帮助模型更好地掌握各种任务的处理方式。

针对性解决前序模型局限领域

在与前代模型Qwen2对比时,发现Qwen2在一些关键领域存在能力局限,而Qwen2.5通过扩大监督微调数据覆盖范围来着重攻克这些问题。

长序列生成方面:例如在生成篇幅较长的文本内容时,像创作长篇故事、复杂的技术文档等场景,Qwen2可能无法很好地保证内容的连贯性、逻辑性以及整体质量,Qwen2.5通过新的数据覆盖,让模型学习更多长序列文本的生成模式和规律,提升这方面的能力。

数学问题求解:对于各类数学题目,从简单的算术运算到复杂的数学证明、应用题解答等,Qwen2可能在解题准确性、解题思路合理性等方面有待提高。Qwen2.5的大规模数据集中包含了丰富的数学问题及对应解法示例,使模型能深入学习数学知识和解题逻辑,进而更有效地解决数学问题。

编码:在代码编写相关任务上,如根据需求生成代码片段、理解代码逻辑并进行修改完善等,Qwen2或许表现不够理想。新的数据能让Qwen2.5接触到更多不同类型的代码示例、编程场景以及代码规范要求等内容,助力其提升编码能力。

指令遵循:当用户给出各种指令让模型执行相应任务时,Qwen2可能出现理解不准确、执行不到位的情况。Qwen2.5借助丰富的数据,学习如何精准理解不同表述、不同复杂程度的指令,并按照要求正确地完成任务。

结构化数据理解:像表格、图表等结构化数据蕴含着特定的信息和逻辑关系,Qwen2在解读和运用这些数据进行相关任务处理时可能存在不足。Qwen2.5通过对应的数据学习,增强对结构化数据的理解能力,比如能够根据表格数据进行分析总结、依据图表信息回答相关问题等。

逻辑推理:无论是基于文本内容进行因果推断、逻辑分析,还是解决需要多步逻辑推导的问题,Qwen2可能在逻辑严密性和推理准确性方面有改进空间。Qwen2.5利用新增的数据,强化逻辑推理能力,使其能更合理、准确地处理涉及逻辑判断的任务。

跨语言迁移:在涉及不同语言之间知识和能力迁移的任务中,比如利用在一种语言上学习到的知识去处理另一种语言的同类任务,Qwen2的表现或许不够出色。Qwen2.5则通过相关数据学习,更好地掌握语言之间的共性和差异,实现更顺畅的跨语言迁移,提升在多语言场景下的综合应用能力。

稳健的系统指令:面对各种复杂多变的系统指令,Qwen2可能在稳定性和适应性上欠佳,而Qwen2.5通过扩充的数据学习更多样化的指令情况,确保在接收到不同指令时都能稳健地做出合理反应。

两阶段强化学习

整体两阶段划分及目的

Qwen2.5的强化学习(RL)过程被细分为离线强化学习(Offline RL)和在线强化学习(Online RL)两个阶段,每个阶段都有其独特的侧重点和作用,共同助力模型在多方面能力的提升以及输出质量的优化。

离线强化学习阶段详情

聚焦难点能力培养 :这个阶段着重关注那些对于奖励模型来说很难去准确评估的能力维度,像推理能力,即模型根据给定信息进行逻辑推导、得出合理结论的能力;真实性,也就是模型输出内容要符合客观事实,不能编造虚假信息;还有指令遵循能力,确保模型能精准理解并执行用户指令。这些能力相对复杂,奖励模型很难直接精准衡量其掌握程度和表现情况。

数据构建与验证保障 :为了让模型能在这些复杂能力上有所提升,研究团队会精心地去构建训练数据,确保这些数据在内容和结构上都符合模型学习这些能力的需求。并且会对数据进行严格的验证,保证其准确性和合理性。例如,在构建用于培养推理能力的数据时,会设计包含各种逻辑关系、不同难度层次的推理问题及对应的正确推理步骤和答案示例,经过多次检查验证后才用于模型训练。通过这样的方式,使得离线强化学习过程中产生的信号(可以理解为模型学习的引导信息)既能够被模型有效学习,又具有很高的可靠性,从而让模型可以扎实、有效地掌握这些复杂技能。

在线强化学习阶段详情

利用奖励模型优势 :在线强化学习阶段充分利用了奖励模型的独特能力,奖励模型能够敏锐地察觉到模型输出质量在多个细微方面的差异。比如,它可以判断输出内容是否真实可靠(真实性),对用户是否有实际帮助(有用性),表述是否简洁明了(简洁性),是否与用户需求紧密相关(相关性),是否不存在有害、不良等负面信息(无害性),以及是否消除了可能存在的偏差(去偏性)等。

优化输出质量效果 :借助奖励模型对这些输出质量特性的检测能力,在线强化学习引导模型去生成更加优质的响应内容。使得模型输出的结果不仅在内容上准确无误,而且语句之间连贯流畅、整体结构合理有序,同时还能兼顾安全性(不会输出违反法律法规、道德伦理等有害内容)和可读性(便于用户理解)。经过这个阶段的强化学习,模型的输出能够始终稳定地达到人类所期望的质量标准,符合人们在使用语言模型时对于内容质量各方面的要求,从而提升用户体验和模型在实际应用中的实用性。

4.1 Supervised Fine-tuning

(1)长序列生成

能力提升与对比

Qwen2.5在长序列生成方面取得了显著进步,能够生成输出上下文长度可达8192个词元的高质量内容。在一般情况下,模型经过常规训练后,其响应长度大多会低于2000个词元,而Qwen2.5大大突破了这个限制。这意味着它在创作长篇幅的文本,比如长篇故事、详细的技术报告或者复杂的论述内容时,有更强的能力保持内容的连贯性和逻辑性。

数据集构建方法

为了实现这样的长序列生成能力,专门开发了长响应数据集。具体做法上,采用了回译技术,也就是先从预训练语料库中选取长文本数据,然后通过翻译手段(比如先将其翻译成另一种语言,再翻译回原语言)来生成与之相关的查询内容。同时,会给生成的内容施加输出长度的限制,确保其符合长序列的要求。并且,利用已有的Qwen2模型来筛选数据,把那些质量比较低的配对数据(比如生成的文本存在语义不通、逻辑混乱等问题的数据对)去除掉,只留下高质量的数据用于后续对Qwen2.5的训练,以此来提升模型在长序列生成方面的能力。

(2)数学

思维链数据引入及来源

引入了Qwen2.5 - Math的思维链数据,思维链数据对于模型在解决数学问题时进行逻辑推理有着重要作用。这些数据的查询来源非常多样化,涵盖了公开数据集(例如一些已被广泛应用在数学教育、数学研究领域且公开共享的数学问题集合)、中小学(K - 12)阶段的数学问题集(包含了从小学到高中各个年级不同难度层次、不同知识点对应的数学题目)以及通过特定算法等方式合成的数学问题。通过整合这些不同来源的问题,让模型能够接触到更全面、更丰富的数学场景,为提升数学能力奠定基础。

推理质量保障措施

为保证模型在处理数学问题时能进行高质量的推理,采用了拒绝采样的方法。拒绝采样就是在生成的众多可能的数据样本中,依据一定的标准(比如是否符合数学逻辑、是否与正确答案接近等)去筛选和舍弃不符合要求的样本。同时,结合奖励建模(通过设定奖励机制来鼓励模型生成符合期望的、正确的推理过程和答案)以及提供带注释的答案(直接给出正确答案并附带详细的解题思路注释,让模型能清晰学习到正确的推理方向和步骤)作为引导,帮助模型逐步构建起合理、严谨的推理过程,从而更好地解决各种数学问题,无论是简单的运算还是复杂的证明题等。

(3)编码

指令调优数据纳入与协作框架运用

将Qwen2.5 - Coder的指令调优数据融入进来,以此增强模型的编码能力。为了生成丰富多样且高质量的指令对(可以理解为包含输入指令和期望输出代码的成对数据),把多种特定语言的智能体组合到一个协作框架当中。这里的特定语言智能体是针对不同编程语言设计的,能够按照相应语言的语法规则、编程习惯等来生成代码相关内容。通过这个协作框架,针对将近40种编程语言都能生成合适的指令对,使得模型可以学习到不同语言环境下的编程要求和代码生成逻辑。

数据集扩展与代码质量验证

进一步扩展指令数据集,一方面从与代码相关的问答网站(比如一些程序员经常交流、分享代码问题及解决方案的平台)上合成新的示例,将网站上分散的、有价值的代码相关信息整合起来;另一方面从GitHub(全球知名的代码托管平台,汇聚了海量的开源代码项目)收集算法代码片段,把这些优质的代码资源补充到数据集中。并且,使用综合性的多语言沙箱,它就像是一个专门用于检测代码的“实验室”,在这个沙箱里可以对收集来的代码进行静态代码检查(检查代码是否符合语法规范、是否存在潜在的逻辑错误等),还能通过自动化单元测试(按照预设的测试用例去验证代码功能是否正确实现)来验证代码片段的质量和正确性,全方位确保模型学习到的代码相关知识都是准确、可靠的,进而提升其编码能力。

(4)指令遵循

基于代码的验证框架实施

建立了一个严格的基于代码的验证框架,目的是确保模型能够高质量地遵循指令。在这个框架下,大语言模型(LLMs)会同时生成两方面的内容,一是指令本身,也就是模拟用户可能发出的各种要求;二是与该指令对应的验证代码,这个验证代码是用于检查模型后续生成的响应是否符合指令要求的关键部分。除此之外,还会生成全面的单元测试内容,单元测试可以从不同角度、按照不同的测试条件去验证模型生成的响应与指令之间是否匹配,通过这种交叉验证的方式,更全面地保障指令执行的准确性。

数据筛选保障指令遵循

采用基于执行反馈的拒绝采样方法来挑选用于监督微调的训练数据。具体来说,就是让模型根据生成的指令和验证代码去执行相关操作,然后根据执行的结果反馈(比如是否正确执行了指令、是否出现错误等)来判断数据的质量。如果数据导致模型执行出现偏差或者不符合预期,就会被舍弃,只有那些经过验证能够让模型忠实遵循预期指令的数据才会被保留下来,用于后续对模型的监督微调,使得模型在实际应用中面对各种指令时都能准确地按照要求进行响应。

(5)结构化数据理解

结构化理解数据集的构建与涵盖范围

构建了一个综合性很强的结构化理解数据集,其覆盖范围十分广泛。既包含了像表格问答(例如根据一个表格中的数据来回答相关问题,如某一行某一列的数据代表什么含义、满足特定条件的数据在表格中的位置等)、事实核查(验证给定的关于结构化数据的陈述是否符合事实,比如某产品销售数据在报表中的记录是否准确)、纠错(发现并纠正结构化数据中存在的错误,像是表格里的数据录入错误等)以及结构理解(理解结构化数据的整体架构、各部分之间的关系等)这类传统任务,也纳入了涉及结构化和半结构化数据的复杂任务(例如从包含多种格式数据的文档中提取关键信息并进行分析整合等)。

推理链融入及能力提升效果

把推理链融入到模型的响应当中,推理链可以理解为一种逻辑推导的链条,展示了从已知数据到得出结论的过程。通过这样做,模型在面对结构化数据时,就能够按照一定的逻辑顺序去分析数据、挖掘其中的信息,并且基于这些信息进行合理的推断,从而显著增强了从结构化数据中获取有用信息的能力。这不仅使得模型在上述提到的各种不同类型任务中都能有更好的表现,而且拓宽了数据集的应用场景,让模型可以深入处理更复杂的数据结构,挖掘出更有深度、更有价值的见解,提升了其对复杂数据的综合处理和理解能力。

(6)逻辑推理

新查询引入与推理方法运用

为了提升模型的逻辑推理能力,特意引入了数量多达70000个且涵盖各个不同领域的新查询。这些查询类型丰富多样,有选择题(需要从给定的几个选项中选择正确答案,考查模型对不同逻辑关系、知识点的判断能力)、判断题(判断给定陈述的真假,考验模型对基本事实和逻辑规则的掌握)以及开放式问题(没有固定答案格式,需要模型自主进行逻辑推导并给出合理的论述,更能全面考查其推理能力)。模型在训练过程中,会被引导以一种系统的方式去处理这些问题,运用多种推理方法,比如演绎推理(从一般性的前提出发,通过推导得出具体结论,例如根据数学定理去证明具体的数学题目)、归纳概括(从多个具体事例中总结出一般性规律,像从多个具体的自然现象观察中归纳出科学原理)、类比推理(根据两个或两类对象在某些属性上相同或相似,推断它们在其他属性上也相同或相似,比如通过地球和火星在某些方面的相似性推测火星上可能存在生命的情况)、因果推理(分析事物之间的因果关系,确定某个事件是由哪些原因导致的,或者某个原因会引发什么样的结果)以及统计推理(依据统计数据进行分析和推断,例如根据市场调查的统计数据来预测产品的销售趋势)等。

数据筛选与能力强化过程

通过迭代细化的方式对数据进行筛选,也就是多次重复检查和优化的过程。在这个过程中,会仔细查看每一个数据对应的答案以及推理过程,如果发现其中存在错误答案(比如推理结果不符合逻辑或者与事实不符)或者推理过程有缺陷(比如逻辑不连贯、缺少关键步骤等),就会把这些数据从训练集中剔除掉。经过这样不断地筛选和优化,逐步让模型学习到正确、严谨的推理方式,不断强化其进行逻辑推理和准确推理的能力,使得模型在面对不同类型的推理任务时,无论是简单的逻辑判断还是复杂的逻辑推导问题,都能够稳定、可靠地给出正确的结果,确保其在逻辑推理方面有稳健的性能表现。

(7)跨语言迁移

语言转换与响应生成

为了帮助模型把在一种语言环境下学习到的通用能力迁移到其他语言环境中,采用了翻译模型来进行语言转换操作。具体来说,先选取资源丰富语言(通常是那些有大量语料、被广泛使用和研究的语言,比如英语)中的指令内容,然后利用翻译模型将这些指令翻译成各种资源匮乏语言(相对来说语料较少、使用范围较窄的语言)的指令,基于这些翻译后的指令,模型会生成相应的响应候选内容。这样做的目的是让模型能够在不同语言环境下都能尝试进行任务处理,挖掘语言之间通用的能力和规律,实现跨语言的能力迁移。

语义对齐保障与多语言连贯性维持

为了确保生成的不同语言的响应内容既准确又能保持一致性,会对每种多语言响应和其原始语言对应内容之间进行语义对齐评估。也就是检查翻译后的响应在意思表达上是否和原始指令想要表达的意思相符,是否准确传达了相应的任务要求和信息。通过这个评估过程,能够保留原始响应的逻辑结构(比如按照什么样的顺序进行推理、阐述观点等逻辑框架)和风格细微差别(比如语言表达习惯、用词偏好等方面的特色),使得模型在不同语言之间转换时,输出的内容依然能够保持完整性和连贯性,让用户在不同语言环境下都能获得质量相对一致、符合预期的响应结果。

(8)稳健的系统指令

通用系统提示构建与多样性提升

构建了数百个通用系统提示,系统提示在模型与用户的交互过程中起着引导作用,决定了模型对任务的理解和响应方向。通过增加这些通用系统提示的数量和种类,提高了训练后系统提示的多样性,让模型能够接触到更多不同类型、不同场景下的引导信息,丰富了其应对各种情况的能力储备。

一致性保障与性能评估

在构建这些系统提示的过程中,注重确保系统提示与后续的对话之间能够保持一致性。例如,系统提示设定了一个关于技术问题解答的场景,那么后续的对话内容也应该围绕技术问题的讨论、解答等展开。经过使用不同的系统提示进行评估测试发现,模型不仅能够保持良好的性能(比如回答的准确性、合理性等方面表现出色),而且方差减小了。方差减小意味着模型在面对不同系统提示时,其性能表现更加稳定,不会出现较大的波动,这也就表明模型的稳健性得到了提升,在各种不同的交互场景下都能可靠地发挥作用。

(9)响应筛选

多种自动标注方法运用与评估严格性

为了准确评估模型响应的质量,采用了多种自动标注方法,其中包括一个专用的评判模型和一个多智能体协作评分系统。评判模型是专门设计用来对响应内容进行质量评判的,它可能基于一些预设的标准(如内容的准确性、逻辑性、完整性等)来给响应打分;多智能体协作评分系统则是通过多个不同的智能体从不同角度(比如有的智能体关注语言表达是否清晰,有的智能体侧重内容是否符合要求等)来对响应进行评分。响应会面临非常严格的评估过程,需要同时通过这多种评分系统的检验,只有那些被所有评分系统都判定为没有瑕疵(也就是在各个评判维度上都达到较高质量标准)的响应才会被保留下来。

质量保障效果

通过这种综合全面的评估筛选方法,最大程度地保证了最终输出的内容都能维持在最高的质量标准之上。这样一来,用户接收到的模型生成的结果都是经过层层把关、质量可靠的,无论是用于日常交流、专业任务处理还是其他应用场景,都能够提供较为满意的内容,提升了模型的实用性和用户的使用体验。

整体微调过程与参数设置

数据集规模与微调轮次

经过上述一系列精心构建和筛选数据的工作,最终构建出了一个规模庞大的数据集,其中包含了超过100万个用于监督微调(SFT)的示例。基于这个数据集,对模型进行两轮的微调操作,每一轮微调都会让模型根据数据集中的示例进一步调整自身的参数,使其更加适配各种任务需求。

学习率调整、权重衰减与梯度范数裁剪

在微调过程中,为了优化学习过程,对学习率进行了动态调整,使其从7×10⁻⁶逐渐降低到7×10⁻⁷。学习率的逐渐降低有助于模型在训练后期更精细地调整参数,避免因为学习率过大而出现无法收敛或者越过最优解的情况。同时,为了解决过拟合问题(也就是模型在训练数据上表现很好,但在新的数据上表现不佳的现象),应用了0.1的权重衰减,权重衰减可以让模型的参数值不会变得过大,起到一定的正则化作用,限制模型的复杂度。此外,还对梯度范数进行了裁剪,将其最大值设定为1.0,这是为了防止在训练过程中出现梯度爆炸的问题(梯度值过大导致模型参数更新幅度过大,破坏训练过程的稳定性),通过这些参数设置的综合作用,保障模型微调过程能够稳定、有效地进行,最终提升模型的整体性能。

4.2 Offline Reinforcement Learning

离线强化学习(Offline RL)的优势

与在线强化学习对比 :在线强化学习在训练过程中往往是实时地根据环境反馈来调整策略等,而离线强化学习的突出特点在于能够提前准备训练信号。这意味着在面对一些特定任务时,离线强化学习有着独特优势。

适用任务场景 :特别是对于那些存在明确标准答案的任务,比如数学问题有准确的计算结果、编程有既定的功能实现代码、指令遵循有符合要求的执行步骤以及逻辑推理有正确的推理链条,但在使用奖励模型去衡量、评估这些任务的完成情况时却面临困难的情况,离线强化学习就能发挥作用了。例如在数学复杂应用题解答、编程中复杂算法实现等场景下,很难简单地通过奖励模型精准判断好坏,离线RL就可通过预准备训练信号来助力训练。

研究聚焦的领域及前期策略

聚焦领域 :研究重点关注数学、编程、指令遵循以及逻辑推理这些客观查询领域。在数学领域,像高等数学中的复杂证明题、复杂的数学建模问题等,准确判断解答是否正确、完整并非易事;编程方面,代码的效率、可读性等多方面综合评估很复杂;指令遵循涉及对各种自然语言指令的准确执行情况判断;逻辑推理则要考量推理过程的严谨性等,总之在这些领域要获取精确的评估结果难度较大。

前期质量保障策略 :在之前的阶段,为了保证输出的响应(比如针对各种问题给出的答案等)的质量,会大量运用像执行反馈和答案匹配这类策略。执行反馈就是看实际执行相关操作的结果是否符合预期,例如编程代码实际情况,数学解题步骤是否能得出正确答案等;答案匹配则是和标准答案进行对比,看是否相符,通过这些方式尽可能筛选出高质量的回复内容。

当前阶段的做法

流程复用与重新采样 :进入当前阶段后,会复用之前建立的流程,借助监督微调(SFT)模型针对新的一组查询去重新对回复进行采样。比如有了新的一批数学题、编程任务等,利用这个模型按照之前的流程逻辑重新生成对应的回复内容。

正负例划分用于DPO训练 :对重新采样后得到的这些回复进行质量检查,通过质量检查的回复就被当作正例,意味着这些回复符合一定的质量标准,是比较理想的输出;而那些没能通过质量检查的回复则被视作负例,将这些正例和负例运用到直接偏好优化(DPO)训练当中(在2023年拉菲洛夫等人的相关研究中有涉及DPO训练的内容),以此来不断优化模型的表现,让模型能更好地区分高质量和低质量的回复。

提升训练信号质量的措施

双重审查流程 :为了让训练信号更加可靠和准确,采用了人工和自动化审查这两种审查流程相结合的方式(在2024年曹等人的相关研究中有涉及此方面内容)。人工审查可以凭借专业知识和经验,从人类的理解、逻辑等角度去判断回复内容是否合理、准确;自动化审查则可以利用一些既定的规则、算法快速地对大量回复进行初步筛选等,比如检查代码是否符合语法规范等。

确保训练数据特性 :通过这样的双重审查方式,最终确保训练数据既具备可学习性,也就是模型能够依据这些数据进行有效的学习、调整参数等,同时还能保证训练数据与人类的期望相符,使得模型最终训练出来的效果符合人们在各个领域对于答案、回复的预期要求。

数据集构建与模型训练

数据集构建 :经过上述一系列的操作,最终构建出了一个包含大约15万对训练数据的数据集,每一对数据都包含了相应的输入(如问题、指令等)以及对应的输出(如回复、答案等),为后续模型训练提供了充足的素材。

模型训练 :利用在线合并优化器(在2024年卢等人的相关研究中有涉及此优化器),以7×10⁻⁷的学习率对模型开展一个轮次的训练,期望通过这样的训练过程,让模型基于准备好的数据集和设定好的优化器、学习率等条件,不断优化自身参数,从而在面对相关领域的任务时能够给出高质量的回复。

4.3 Online Reinforcement Learning

奖励模型开发的重要性与目标设定

在在线强化学习(RL)的体系中,奖励模型扮演着“裁判”的关键角色。它通过对模型输出的评估,为模型的优化提供方向指引,决定模型后续学习和改进的路径。所以,为了构建出一个值得信赖且功能强大的奖励模型,研究人员制定了一套全面且细致的标注准则。这些准则的核心目标在于确保模型生成的回复具备多方面的优良特性,不仅要保证回复的质量上乘,能够精准地解答用户疑问、提供有用信息,同时还要让回复符合道德伦理规范,时刻将用户的权益和体验放在首位,使其与以用户为中心的理念以及社会所倡导的价值观相契合,这也是参考了 Wang 等人在 2024a 相关研究中所秉持的理念。

数据标注各准则的详细解读

真实性(Truthfulness)

这一准则是整个回复质量的基石。在实际应用中,模型所面对的每一个问题都处于特定的语境之下,并且附带了相应的指令要求。例如,当用户询问某部历史纪录片中所讲述事件的真实性时,模型就需要依据权威的历史资料、已被验证的史实内容来进行回复,绝不能随意编造一些不符合实际情况的情节或者传播没有事实依据的说法。哪怕是对于一些存在争议的话题,也应该客观地呈现各方观点,并明确指出哪些是已被证实的部分,哪些还处于探讨阶段,以此来严格确保回复内容在事实层面的准确性,让用户能够信赖模型所提供的信息。

有用性(Helpfulness)

其本质在于让模型成为用户解决问题、获取知识的得力助手。比如,当用户咨询如何筹备一场户外婚礼时,模型的回复不能只是简单地提及一些笼统的概念,像“要选个好场地”之类的泛泛之言。而是要从多个实用角度出发,详细地给出诸如选择场地时需要考虑的因素(如场地大小、交通便利性、周边环境等),婚礼当天的流程安排建议(包括各个环节的大致时间、人员分工等),甚至可以推荐一些适合户外婚礼的装饰风格、美食选择等具体且有价值的内容。并且,回复内容要紧紧围绕用户最初提出的“筹备户外婚礼”这个核心意图展开,不能偏离到其他无关的话题上去,真正做到为用户提供切实有效的帮助,满足用户的期望。

简洁性(Conciseness)

简洁性要求模型像一位高效的信息传递者,用最精炼的语言把关键内容传达给用户。以用户询问某家餐厅的营业时间为例,模型直接回复“上午 11 点至晚上 9 点营业”就足够清晰明了了,无需再去阐述这家餐厅的历史渊源、经营理念或者所在商圈的详细情况等额外信息。因为过多不必要的信息不仅会增加用户获取关键内容的时间成本,还可能让用户在大量文字中迷失重点。所以,简洁性原则就是要让模型学会在保证信息完整的前提下,去除冗余部分,使回复简洁而有力。

相关性(Relevance)

在实际的对话场景中,用户与模型之间往往会有多次交互,形成一定的对话历史。相关性准则要求模型在生成回复时,要充分考虑到这一整个交流过程。例如,在一个围绕着“如何选择适合新手的宠物狗”的对话中,用户先是提到了希望宠物狗体型较小、容易打理,之后又询问了关于宠物狗性格温顺方面的问题。那么模型后续的回复就应该始终聚焦在满足这些条件的宠物狗品种推荐、饲养特点等相关内容上,不能突然开始介绍大型宠物狗或者其他宠物的饲养知识,除非用户主动转变了话题方向。也就是说,模型要时刻根据用户的需求动态调整回复内容,确保每一个回复的细节都与用户当前关注的问题以及整个对话情境紧密相关,维持对话的连贯性和有效性。

无害性(Harmlessness)

这一准则关乎用户的安全以及整个社会的公序良俗。模型在任何情况下都不能输出可能引发不良后果的内容。比如,不能为用户提供关于制造危险物品(如简易爆炸装置、管制刀具等)的方法,也不能传播鼓励违法犯罪行为(如网络诈骗、盗窃等)的信息。同时,在涉及到一些容易引发争议或敏感的话题时,要秉持积极健康、符合道德规范的态度进行引导,避免宣扬歧视、仇恨、低俗等不良价值观,确保为用户营造一个安全、健康、正向的交流环境,让用户可以放心地与模型进行互动。

去偏性(Debiasing)

在当今多元化的社会环境下,公平公正地对待各类话题至关重要。模型不能因为一些固有观念或偏见因素而对不同的话题产生不合理的偏向。以介绍不同职业为例,不能因为传统观念中认为某些职业更适合男性(如工程师、科学家等)或者女性(如护士、幼师等),就对这些职业在发展前景、能力要求等方面做出带有性别歧视的描述。同样,对于不同种族、国籍的人群所涉及的话题,以及具有不同政治立场的相关内容,模型都要依据客观事实,遵循广泛认可的道德和伦理标准,平等、公正地进行阐述,避免让任何偏见影响回复的客观性和公正性,确保每个用户都能接收到公平无偏的信息。

训练数据的来源、回复生成机制及相关处理

训练数据来源

训练奖励模型所用到的查询语句来源丰富多样,主要涵盖了两个不同类型的数据集。其中,公开可用的开源数据具有开放性和通用性的特点,它包含了来自众多不同渠道、不同领域的一般性问题,能够为模型提供广泛的学习素材,让模型熟悉各种常见的话题和提问方式。而专有查询集则更具专业性和复杂性,它往往包含了一些特定领域、特定场景下较为高深、复杂的问题,例如在专业科研领域的前沿问题、复杂的商业决策分析问题等。通过将这两类数据集结合使用,能够使模型在训练过程中接触到更全面、更具挑战性的问题类型,拓宽其应对不同情况的能力范围,为生成高质量、多样化的回复奠定坚实的数据基础。

回复生成方式

回复的生成借助了通义千问(Qwen)模型的多个检查点。这些检查点代表了模型在不同训练阶段的状态,而在各个阶段又运用了不同的优化方法来提升模型性能。监督微调(SFT)方法就像是一位精细的工匠,基于已有的标注数据,对模型的参数进行细致入微的调整,使其能够更好地拟合已知的正确输入输出关系,提升对常见问题的回答准确性。直接偏好优化(DPO)则从用户的角度出发,通过收集用户对不同回复的偏好信息,比如用户更喜欢哪种表述方式、更认可哪个回答的内容等,以此来引导模型朝着更符合用户喜好的方向优化。强化学习(RL)则是让模型在与环境的交互过程中,根据环境反馈的奖励信号(类似于对其表现好坏的评判)不断调整自身策略,从而更好地适应各种复杂多变的情况。此外,为了增加回复的多样性,在采样回复的过程中设置了不同的温度参数。不同的温度值会影响模型输出的“创造性”和“保守性”,温度较高时,模型可能会生成一些更具创新性、更独特但也可能稍显冒险的回复;温度较低时,则更倾向于输出较为常规、保守但相对稳定可靠的回复,通过这种方式丰富了回复的可能性空间。

偏好对创建及数据集整合

偏好对的创建是整个训练数据处理过程中的重要环节,它通过人工和自动化两种标注流程相结合的方式来实现。人工标注环节充分发挥了人类的专业知识、判断力以及对语言和逻辑的理解能力,专业人员可以凭借自己的经验和对标注准则的把握,准确地判断哪些回复在真实性、有用性等各个方面表现得更好,更符合用户的期望和要求。而自动化标注则借助计算机算法和预设的规则,能够快速高效地处理大量的数据,对回复进行初步的分类和标注。例如,可以根据回复中是否包含特定的关键词、语句结构是否符合某种模式等规则来进行标注。同时,直接偏好优化(DPO)训练所使用的数据也被整合到了整个训练奖励模型的数据集中,这使得数据集更加丰富和全面,奖励模型能够从更多样化的偏好信息中学习,进一步提高其对回复质量进行准确评估的能力,从而更加精准地引导模型的优化方向。

在线强化学习(RL)框架中的具体应用细节

采用的优化方法

在整个在线强化学习(RL)框架里,运用了组相对策略优化(GRPO,参考 Shao 等人 2024 的研究成果)这一特定的优化策略。这种策略的核心在于通过巧妙地调整模型的策略,使模型在训练过程中能够更加高效地利用所获取的信息进行学习,能够更敏锐地捕捉到自身的优势和不足,进而有针对性地对自身性能进行优化。它就像是一个经验丰富的教练,根据模型在不同情况下的表现,合理地调整训练方法,帮助模型更快地提升自己,以更好地应对各种复杂的任务和用户的多样化需求。

查询处理顺序

在训练过程中,用于训练奖励模型的查询集和强化学习训练阶段所使用的查询集保持一致,这保证了模型在整个学习过程中的连贯性和一致性。而对于这些查询的处理顺序,是依据奖励模型对回复分数的方差来确定的。回复分数的方差反映了模型针对某一查询所生成回复的稳定性和差异性情况。例如,如果对于某个查询,模型每次生成的回复得分差异很大,说明模型在这个问题上的表现不太稳定,可能还存在较大的改进空间,或者对这个问题的理解和处理还不够成熟。所以,优先处理这类方差较高的查询,能够让模型更快地聚焦于自身的薄弱环节,及时发现问题并进行有效的学习和改进,从而优化整体的训练效果,使模型在面对各类问题时都能更加稳定、准确地生成高质量回复。

回复采样及模型训练参数

针对每个查询,会从中采样 8 个回复,这一做法的目的是为了给模型提供更丰富的学习样本。通过分析这 8 个不同的回复,模型可以从多个角度去理解同一个问题的不同解法、不同表达方式以及不同的应对策略等,拓宽自己的思维和应对能力。在模型训练时,设定了全局批量大小为 2048 以及每一轮训练包含 2048 个样本,这里把一对查询和对应的回复当作一个样本单位。这样的参数设置就像是为训练过程制定了一个规范的“节奏”和“规模”,确保模型在合适的数据量和训练频率下进行学习,避免因数据量过大或过小、训练节奏过快或过慢而影响学习效果,保障模型能够有条不紊地提升自身性能,逐步朝着生成高质量、符合各种标注准则的回复这一目标迈进。

4.4 Long Context Fine-tuning

在自然语言处理领域,模型能够处理的上下文长度是一个很关键的指标,它决定了模型在面对较长文本内容时能否准确理解并生成合适的回复。对于通义千问2.5 - 涡轮(Qwen2.5 - Turbo)这款模型来说,为了让它在处理长查询(也就是较长的用户输入内容)时表现得更好,更贴合人们期望的回复方式和偏好,研究人员想到了通过在训练后引入更长的监督微调(SFT)示例这一办法来实现目标。简单来说,就是给模型提供更多、更长的优质示例数据,让它学习如何在长文本情境下给出符合人类想法的回应。

监督微调(SFT)阶段的两阶段方法

第一阶段

在监督微调的第一阶段,模型训练时只使用短指令进行调整优化。这里的短指令是指每条指令所包含的词元(tokens)数量是有上限的,最多为32,768个。词元可以理解为语言处理中对文本进行切分后的基本单位,比如一个单词、一个标点符号等都可能是一个词元。而且这个阶段所用到的数据以及整个训练的步骤,都和其他通义千问2.5(Qwen2.5)模型是一样的。这么做的好处在于,能够保证模型先在相对较短的文本任务上把基础打好,因为短任务的处理相对简单直接,通过和其他同系列模型采用相同的训练资源和流程,使得模型在面对这类短文本任务时,能够展现出比较稳定且出色的性能表现,就像是先把根基扎稳,确保在熟悉的、较简单的任务场景中表现良好。

第二阶段

进入第二阶段后,微调的方式发生了变化,不再仅仅局限于短指令了,而是把短指令(依然是最多32,768个词元的那些指令)和长指令(这时候指令包含的词元数量上限提高到了262,144个,意味着可以处理更长的文本内容了)结合起来一起用于模型的微调。这种混合的处理方式很巧妙,因为它兼顾了不同长度文本的特点和需求。一方面,模型在经过第一阶段对短指令的学习后,已经具备了一定的处理能力,在这个基础上加入长指令进行训练,能够让模型逐渐学会如何在更长的文本情境下去理解指令、分析内容以及生成合适的回复,从而有效增强了模型在长上下文任务(也就是处理较长文本内容相关任务)中的指令遵循能力,让模型知道面对长文本时该怎么按照要求做出正确反应;另一方面,由于还继续保留了短指令的训练部分,所以模型在短任务方面已经形成的良好性能也不会丢失,依然能够准确、高效地处理相对简短的文本任务,达到了一种平衡,既能拓展长文本处理能力,又能维持原有的短文本处理优势。

强化学习(RL)阶段的策略及考虑因素

训练策略

在强化学习(RL)阶段,模型采用的训练策略和其他通义千问2.5(Qwen2.5)模型类似,不过这里有个重要的限定,那就是只专注于短指令进行训练,并不涉及长指令。

设计考虑因素

之所以做出这样只针对短指令开展强化学习训练的设计选择,主要是基于两方面的考量。

- 计算成本因素:长上下文任务通常意味着要处理大量的文本数据,模型在进行强化学习训练时,需要对这些长文本进行反复的分析、计算以及根据反馈来调整自身参数等操作,这会消耗大量的计算资源,比如需要高性能的计算设备、花费很长的运算时间等,从成本角度来看是非常高昂的。而短指令相对来说数据量小很多,计算压力也就小得多,在目前的条件下更便于实施强化学习训练。

- 奖励模型的局限:强化学习过程中,奖励模型起着关键作用,它会根据模型的表现给出相应的奖励信号,以此来引导模型朝着更好的方向优化。然而当前的现状是,市面上或者研究领域内,缺乏那种能够专门为长上下文任务提供合适、准确奖励信号的奖励模型。也就是说,如果强行对长指令进行强化学习训练,可能因为没有合适的奖励信号来准确评判模型的好坏,导致训练效果不佳甚至出现偏差。

训练效果

虽然在强化学习阶段只针对短指令进行训练,但研究人员通过实践发现了一个比较积极的结果,那就是即便只是这样做,依然能够显著地增强模型在长上下文任务中与人类偏好的对齐程度。也就是说,模型在处理长文本任务时,生成的回复会更加符合人们所期望的内容和风格,这说明这种看似局限于短指令的强化学习训练方式,其实对提升长文本任务的处理效果还是有着很重要的积极作用的。

5 Evaluation

通过预训练生成的基础模型以及通过训练后微调生成的指令调优模型,都会使用一套综合评估套件进行相应评估,这套评估套件既包含常用的公开基准测试集,也涵盖了侧重技能的内部数据集。该评估套件的设计旨在以自动化为主,尽量减少人工干预。

为防止测试数据泄露,我们在构建预训练和训练后数据集时,会利用n-元语法(n-gram)匹配来排除可能受到污染的数据。按照通义千问2(Qwen2)所采用的标准,如果存在一个测试序列s_e,使得经过分词后的训练序列s_t与该测试序列之间的最长公共子序列(LCS)的长度满足|LCS(s_t, s_e)| >= 13且| LCS(s_t, s_e)| >= 0.6* min(| s_t|,| s_e|),那么就会将该训练序列s_t从训练数据中移除。

5.1 Base Models

评估概述

对通义千问2.5系列基础语言模型展开的全面评估意义重大,它能够清晰地展现出这些模型在不同语言处理维度上的能力水平,帮助使用者和开发者了解其优势与不足。此次评估重点聚焦于自然语言理解、通用问答、编程、数学、科学知识、推理以及多语言能力这几个关键方面,通过在多个不同类型的数据集上进行测试来衡量模型性能。

评估数据集详情

通用任务数据集

多任务语言理解(MMLU) (亨德里克斯等人,2021a):这是一个广泛应用的基准测试集,涵盖了众多不同学科领域的知识,通过5次提示的方式来考察模型对各种知识的掌握和运用能力,模拟了在实际应用中给模型少量引导信息后,其能否准确作答的场景。

多任务语言理解专业版(MMLU-Pro) (王等人,2024b):作为MMLU的专业扩展版本,同样采用5次提示的设置,可能在问题的专业性、深度或者广度上有所拓展,旨在更精准地测试模型在专业知识领域的理解和应对能力。

多任务语言理解精简版(MMLU-redux) (杰玛等人,2024):以5次提示进行测试,或许是对原始MMLU数据集进行了筛选、提炼等处理,聚焦于更核心、关键的部分,用于从另一个角度评估模型性能。

超越人类基准(BBH) (苏兹贡等人,2023):3次提示的设置下,主要用于衡量模型解决复杂、具有挑战性问题的能力,这些问题往往需要较高的逻辑推理和思维能力,看看模型能否超越一般人类在类似问题上的表现。

人工智能2推理挑战 - 概念(ARC-C) (克拉克等人,2018):采用25次提示,着重考察模型在人工智能推理方面的能力,特别是针对一些概念性的、需要深度理解和推理的问题,检验模型能否像人类一样进行合理的逻辑推导。

真实问答(TruthfulQA) (林等人,2022a):零次提示的方式很独特,旨在测试模型在没有额外引导信息的情况下,能否依据自身已学习到的知识,真实、准确且合理地回答各类问题,避免生成虚假或误导性的内容。

文诺格兰德(Winogrande) (坂口等人,2021):以5次提示来考察模型对语言中细微语义差异的理解和判断能力,通常涉及一些需要借助上下文和语义分析才能正确解答的问题。

海拉斯瓦格(HellaSwag) (泽勒斯等人,2019):10次提示的设定下,重点测试模型对日常场景、故事等文本内容的理解以及合理推断后续情节的能力,反映模型在实际生活场景相关文本处理方面的水平。

数学与科学任务数据集

通用科学问题回答(GPQA) (莱因等人,2023):5次提示的设计,主要用于检验模型对科学领域各类问题的解答能力,涵盖不同学科的科学知识,要求模型能够整合多方面的科学概念来准确回答问题。

定理问答(Theorem QA) (陈等人,2023a):同样是5次提示,聚焦于数学定理相关的问答,考察模型对数学定理的理解、记忆以及运用其进行推理和解答问题的能力,对于衡量模型在数学理论层面的掌握程度很有帮助。

GSM8K (科布等人,2021):4次提示的设置,主要围绕小学数学应用题等类型的问题,考查模型能否运用数学运算知识和逻辑来解决实际的数学问题,是评估模型基础数学应用能力的重要数据集。

数学(MATH) (亨德里克斯等人,2021b):采用4次提示,包含了从中学到大学等不同难度层次的数学问题,涉及代数、几何、概率等多个数学分支,全面考察模型在复杂数学问题求解方面的能力。

编程任务数据集

人类评估(HumanEval) (陈等人,2021):零次提示的情况下,要求模型直接生成符合要求的代码片段,以此来评判模型的编程能力,看其能否依据给定的编程任务描述,准确地写出可且逻辑正确的代码,是编程领域常用的基准测试之一。

人类评估增强版(HumanEval +) (刘等人,2023):在HumanEval基础上进行扩展或改进,零次提示的设定同样是考验模型自主生成高质量代码的能力,可能在任务的复杂性、多样性等方面有所提升。

多语言Python基准编程问题(MBPP) (奥斯汀等人,2021):零次提示,专注于Python语言编程问题,通过一系列具有代表性的Python编程任务来评估模型在Python编程方面的熟练度和准确性。

多语言Python基准编程问题增强版(MBPP +) (刘等人,2023):对MBPP的进一步优化,也是零次提示,旨在更全面、深入地考察模型在Python编程方面应对各种复杂情况的能力。

多编程语言评估(MultiPL - E) (卡萨诺等人,2023):零次提示,并且涵盖了Python、C++、JAVA、PHP、TypeScript、C#、Bash、JavaScript等多种主流编程语言,能够测试模型在多语言编程环境下的综合编程能力,看其是否能针对不同语言的编程需求生成合适的代码。

多语言任务数据集分类及详情

(a) 考试类

M3Exam (5次提示,只选无需图像的示例):主要用于模拟多语言环境下的考试场景,选取无图像的例子来考察模型对不同语言文字内容的理解和作答能力,可能涉及不同学科知识、语言表达等多方面的考查。

印度多任务语言理解(IndoMMLU) (科托等人,2023):3次提示,侧重于针对印度地区相关语言以及文化背景下的多语言知识理解和运用能力测试,反映模型在特定地域语言环境中的适应性。

俄语多任务语言理解(ruMMLU) (费诺格诺娃等人,2024):5次提示,聚焦于俄语相关的多语言任务,检验模型在俄语语境以及与其他语言交互场景下的语言处理能力,比如俄语的翻译、理解以及用俄语回答不同领域问题等能力。

翻译版多任务语言理解(translated MMLU) (陈等人,2023b):针对阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、日语和韩语这几种语言,以5次提示的方式进行测试,主要考察模型在这些语言之间的翻译准确性以及对相应语言知识的掌握和运用能力,用于衡量模型在多语言转换和理解方面的综合水平。

(b) 理解类

贝莱贝莱(BELEBELE) (班达卡尔等人,2023):5次提示,着重测试模型对不同语言文本的语义理解能力,通过一些具有语言特色、文化内涵的文本内容,看模型能否准确把握其中的含义,在跨语言语义理解方面的表现如何。

跨语言选择偏好(XCOPA) (庞蒂等人,2020):5次提示,关注模型在不同语言环境下对文本内容的偏好判断能力,比如根据给定的上下文和语言描述,判断哪种表述更符合语言习惯、逻辑等,考查模型对不同语言细微差异的敏感度。

跨语言文诺格兰德(XWinograd) (穆恩尼霍夫等人,2023):5次提示,类似于文诺格兰德在单语言环境下的作用,不过是在跨语言场景中,考察模型对不同语言中语义、指代等复杂语言现象的理解和处理能力,看其能否准确分析跨语言文本中的逻辑关系。

跨语言故事完形填空(XStoryCloze) (林等人,2022b):零次提示,要求模型根据给定的跨语言故事片段,推测出合理的后续内容,以此检验模型对不同语言故事结构、逻辑以及语言表达的理解和运用能力,反映其在跨语言文本连贯性处理方面的水平。

跨语言释义识别(PAWS-X) (杨等人,2019):5次提示,主要用于测试模型在不同语言中识别句子是否为同义表述的能力,对于评估模型在跨语言语义等价判断方面的准确性很关键。

(c) 数学类

多语言GSM(MGSM) (戈亚尔等人,2022):8次提示且运用思维链(CoT)的方式,思维链即展示出推理过程的一种答题模式,通过这种方式考察模型在不同语言环境下运用数学思维解决问题的能力,看其能否将数学推理过程用不同语言准确表达并得出正确答案。

(d) 翻译类

弗洛雷斯 - 101(Flores - 101) (戈亚尔等人,2022):5次提示,主要用于衡量模型在不同语言之间进行翻译的准确性和流畅性,涉及多种语言对之间的翻译任务,是评估模型多语言翻译能力的重要数据集之一。

不同规模模型的比较情况

通义千问2.5 - 72B和通义千问2.5 - Plus

与其他模型对比 :将通义千问2.5 - 72B和通义千问2.5 - Plus的基础模型与诸如Llama3 - 70B、Llama3 - 405B、Mixtrail - 8x22B以及通义千问2 - 72B等领先的开源权重基础模型进行比较。这种对比能够直观地看出通义千问2.5系列在同级别、同类型竞争中的地位和优势。

通义千问2.5 - 72B性能表现 :它在众多任务中展现出了很强的优势,令人瞩目的是,仅使用了Llama - 3 - 405B五分之一的参数,却能达到与之相当的结果,这体现了其高效的参数利用效率和强大的性能。而且和前身通义千问2 - 72B相比,在几乎所有基准评估中都有明显进步,特别是在通用任务这种需要广泛知识储备和综合理解能力的领域,以及数学和编程这种对逻辑思维和专业技能要求较高的挑战方面,表现尤为突出,说明其在整体能力上有了显著提升。

通义千问2.5 - Plus性能表现 :虽然它的训练和推理成本相较于其他大型模型显著更低,但性能却毫不逊色,具有很强的竞争力。在海拉斯瓦格(HellaSwag)、定理问答(TheoremQA)、数学(MATH)、GSM8K、多编程语言评估(MultiPL - E)、多语言数学以及多语言翻译等多个具体的测试方面,都超越了其他基准模型,展示了其在多领域的优秀表现。并且在多任务语言理解专业版(MMLU - Pro)中取得了64.0的分数,比通义千问2.5 - 72B还高出5.9分,进一步证明了其在部分任务上的卓越性能。

通义千问2.5 - 14B / 32B和通义千问2.5 - Turbo

与基准模型对比 :把通义千问2.5 - Turbo、通义千问2.5 - 14B和32B模型的评估结果和类似规模的基准模型,像Yi - 1.5 - 34B、Gemma2 - 27B以及通义千问1.5 - 32B等进行对照,通过对比可以清晰地看出它们在各自规模层次上的优势和进步情况。

通义千问2.5 - 14B性能表现 :在各类任务中都展现出了稳定且出色的性能,特别是在多任务语言理解(MMLU)和超越人类基准(BBH)这类通用任务中,分别取得了79.7和78.2的高分,要知道这可是超越了规模更大的竞争对手,说明它在综合知识运用和复杂问题解决方面有着很强的能力,能够以相对较小的模型规模实现高效的语言处理。

通义千问2.5 - 32B性能表现 :更是凸显出了卓越的能力,常常能够在与规模相近的其他模型竞争中脱颖而出。和前身通义千问1.5 - 32B相比,进步显著,尤其是在数学和编程这类难度较大、专业性较强的领域,例如在数学(MATH)测试中能拿到57.7分,在多语言Python基准编程问题(MBPP)中能达到84.5分,这反映出它在这些关键能力方面有了很大的提升,能够更好地应对复杂的数学运算和编程任务。

通义千问2.5 - Turbo性能表现 :尽管它的训练成本和推理成本明显低于通义千问2.5 - 14B,但最终取得的结果却与之相当,甚至在多任务语言理解专业版(MMLU - Pro)中的得分还优于通义千问2.5 - 32B,这体现了它在性价比方面的优势,能用较少的资源投入实现不错的性能表现,对于一些对成本较为敏感的应用场景来说很有价值。

通义千问2.5 - 7B

与同类模型对比 :重点将通义千问2.5 - 7B与Mistral - 7B、Llama3 - 8B、Gemma2 - 9B以及通义千问2 - 7B等其他领先的7B + 模型进行比较,以此来明确它在这一规模区间内的竞争力和优势所在。值得注意的是,通义千问2 - 7B和通义千问2.5 - 7B的非嵌入参数仅为6.5B,比Gemma2 - 9B的8.2B要少,这意味着在相对更少的参数资源下进行竞争。

性能提升表现 :即便如此,通义千问2.5 - 7B模型在众多基准测试中都展现出了超越前身以及同类模型的能力,在各类任务中都有显著的进步。比如在多任务语言理解(MMLU)等通用基准测试中能达到74.2分,体现了其在通用知识运用方面的良好水平;在数学(MATH)这样的数学挑战任务中能拿到49.8分,表明它在数学能力上有了一定提升;在人类评估(HumanEval)等编程任务中达到57.9分,说明其编程能力也不容小觑,整体展示出了全面且优秀的性能表现。

通义千问2.5 - 0.5B / 1.5B / 3B(边缘侧模型)

与基准模型对比 :将这几个边缘侧模型与通义千问2 - 0.5B / 1.5B以及Gemma2 - 2.6B等已有的基准模型进行比较,旨在考察它们在资源受限、对性能要求相对没那么高的边缘应用场景中的表现情况。

性能表现 :通义千问2.5 - 0.5B、1.5B和3B在几乎所有基准测试中都持续保持了强劲的性能,这是很不容易的,说明它们在不同规模下都能较好地应对各类任务。特别值得一提的是,通义千问2.5 - 0.5B模型在各类数学和编程任务中还优于Gemma2 - 2.6B模型,这凸显了其在特定任务领域以及相对较小模型规模下的优势,对于一些边缘计算设备上的应用场景,如物联网设备、移动端等,能够提供可靠且高效的语言处理能力。

5.2 Instruction-tuned Model

为了对指令调优模型进行严谨评估,我们采用了一种多层面的方法。我们利用公开数据集和基准测试来评估基础技能以及符合人类偏好的程度。此外,我们详细的内部评估会更深入地探究模型在关键领域以及多语言方面的能力。我们尤其着重对长文本上下文处理能力进行评估。后续章节将概述评估方法并展示相应结果。

5.2.1 Open Benchmark Evaluation

评估指令调优模型的整体思路与方法

在自然语言处理领域,指令调优模型的质量至关重要,它直接关系到模型在实际应用中能否准确理解用户指令并生成符合期望的回复。为了全面且深入地评估其质量,采用了自动评估与人工评估相结合的多维度方式。自动评估借助各类标准化的数据集和基准测试,能够快速、大规模地对模型的各项表现进行量化分析;人工评估则可以从人类的认知、语言习惯以及实际需求等角度出发,更主观地判断模型与人类偏好的契合程度,两者相辅相成,共同构建起全面评估模型质量的体系。

在考查基本能力方面,沿用了预训练模型评估中相关的类似数据集,这些数据集聚焦于自然语言理解、编程、数学和推理这几个关键能力维度,每个维度都选取了具有代表性的数据集来进行针对性评估,以此准确衡量模型在不同方面的能力水平。

不同能力维度所选用的评估数据集

通用评估数据集

多任务语言理解专业版(MMLU-Pro) :该数据集能够广泛考查模型对多领域知识的掌握以及运用这些知识理解和回答各种通用问题的能力,通过不同类型的问题来模拟实际应用场景中多样化的用户查询,看模型能否准确应对并给出合理回复。

多任务语言理解精简版(MMLU-redux) :可能是对原始多任务语言理解相关数据集进行优化、提炼后的版本,重点关注一些核心的、更具代表性的问题,以此来更精准地测试模型在通用语言理解和知识运用方面的能力,帮助筛选出模型在不同知识领域的关键优势与不足。

实时基准测试0831(LiveBench 0831) (怀特等人,2024年):其特点在于实时性,能够反映模型在当下实际应用场景中的表现,所包含的问题和任务往往贴合当前语言使用的最新趋势以及实际遇到的各类情况,可有效衡量模型应对实时、多变的通用语言任务的能力。

科学与数学领域评估数据集

通用科学问题回答(GPQA) :涵盖了众多科学学科领域的问题,旨在测试模型整合不同科学知识、运用科学思维去解决问题的能力,比如物理、化学、生物等学科相关的各类实际应用问题,要求模型能够像专业人员一样分析并解答这些科学疑问。

GSM8K :主要围绕数学应用题展开,尤其是一些具有现实背景、需要运用基础数学运算和逻辑推理来解决的问题,考查模型在小学数学到中学数学应用层面的熟练度,以及能否将数学知识运用到实际场景中的能力。

数学(MATH) :涉及从较为基础到高等数学等不同难度层次、不同分支(如代数、几何、概率等)的各类数学问题,全面且深入地考察模型在复杂数学问题求解方面的能力,是衡量模型数学专业素养的重要依据。

编程领域评估数据集

人类评估(HumanEval) :是编程领域常用的基准测试数据集,它要求模型在零次提示的情况下,也就是不给予额外代码示例或提示信息时,直接生成符合特定编程任务要求的代码片段,以此精准判断模型的编程基础能力、对不同编程语言语法和逻辑的掌握程度,以及能否自主编写可且功能正确的代码。

多语言Python基准编程问题(MBPP) :专注于Python语言编程,通过一系列具有代表性、涵盖不同编程场景和功能需求的Python编程问题,来考察模型在Python这一常用编程语言方面的熟练度和准确性,对于评估模型在Python编程实践中的表现很有针对性。

多编程语言评估(MultiPL-E) :与只针对单一语言的数据集不同,它涵盖了Python、C++、JAVA、PHP、TypeScript、C#、Bash、JavaScript等多种主流编程语言,通过多样化的编程任务来测试模型在多语言编程环境下的综合编程能力,检验其能否根据不同语言的特点和要求,灵活地生成合适的代码来解决相应问题。

实时代码基准测试2305 - 2409(LiveCodeBench 2305 - 2409) (贾恩等人,2024年):着重体现了代码在实时应用场景中的相关要求,可能包含了当下实际项目中常见的编程任务、代码优化需求以及不同编程语言之间交互协作等情况,能更好地反映模型在实际编程工作流程中的表现和能力水平。

指令遵循领域评估数据集

指令评估(IFEval) (周等人,2023年):专门用于考查模型是否能准确理解并遵循给定的指令要求来生成回复,重点关注模型在面对不同类型、不同复杂程度的指令时,能否精准把握意图并按要求执行,是评估模型指令遵循能力的关键指标之一。

人类偏好对齐及指令遵循综合评估的基准测试数据集

多语言任务基准测试(MT-Bench) (郑等人,2023年):从多语言的角度出发,考量模型在遵循不同语言指令以及生成符合人类期望回复方面的表现,涉及多种语言场景下的任务,通过对比模型输出与人类期望的符合程度,来判断模型在多语言交互中与人类偏好的对齐情况。

艰难竞技场(Arena-Hard) (李等人,2024年):该数据集所包含的任务往往具有较高的难度和挑战性,旨在模拟复杂、严苛的实际应用场景,通过让模型在这些艰难任务中展现其指令遵循能力以及与人类偏好的契合度,来筛选出在高难度环境下依然表现出色的模型。

不同规模指令调优模型的对比情况

通义千问2.5 - 72B - 指令版和通义千问2.5 - Plus

对比对象与目的 :将通义千问2.5 - 72B - 指令版和通义千问2.5 - Plus这两个模型与其他领先的开源权重指令调优模型,如Llama3.1 - 70B - 指令版、Llama3.1 - 405B - 指令版以及之前的通义千问2 - 72B - 指令版(杨等人,2024a)进行比较,目的是清晰地展现通义千问2.5系列在这一较大规模模型区间内的性能优势以及在同类型竞争中的地位。

通义千问2.5 - 72B - 指令版性能表现 :在实际对比测试中,通义千问2.5 - 72B - 指令版模型展现出了令人瞩目的卓越性能。在多任务语言理解精简版(MMLU-redux)、数学(MATH)、多语言Python基准编程问题(MBPP)、多编程语言评估(MultiPL-E)、实时代码基准测试(LiveCodeBench)、艰难竞技场(Arena-Hard)以及多语言任务基准测试(MT-Bench)等多个关键的基准测试中,它竟然超越了规模更大的Llama3.1 - 405B - 指令版模型。这意味着通义千问2.5 - 72B - 指令版在知识运用、数学能力、编程水平以及复杂任务应对等多方面都有着很强的竞争力,能够以相对较小的规模实现更优的性能表现,体现了其高效的能力整合和优化。

通义千问2.5 - Plus性能表现 :通义千问2.5 - Plus同样表现出色,在13个基准测试中的9个测试里,其性能优于通义千问2.5 - 72B - 指令版。这表明通义千问2.5 - Plus在很多方面有着独特的优势,可能在某些特定任务场景或者能力维度上进行了优化,使其整体性能更加突出,能够更好地满足不同用户在不同应用场景下的需求。

通义千问2.5 - 14B / 32B - 指令版和通义千问2.5 - Turbo

对比对象与目的 :针对通义千问2.5 - Turbo、通义千问2.5 - 14B - 指令版以及通义千问2.5 - 32B - 指令版这几个模型,将它们的性能与类似规模的基准模型,像GPT4o - mini、Gemma2 - 27B - 指令版以及通义千问2 - 57BA14B - 指令版(杨等人,2024a)进行对比,以此来明确它们在各自规模层次上的优势、劣势以及在同级别竞争中的位置。

通义千问2.5 - 32B - 指令版性能表现 :在与规模相近的其他模型对比过程中,通义千问2.5 - 32B - 指令版模型在大多数任务中都展现出了更优的性能,这说明它在整体能力的均衡性以及关键能力的突出性方面表现良好,能够在不同类型的任务中都发挥出较高的水平,是一个在多种应用场景下都能稳定、高效处理任务的模型选择。

通义千问2.5 - 14B - 指令版性能表现 :通义千问2.5 - 14B - 指令版模型虽然规模相对较小,但在所有基准测试中都取得了颇具竞争力的结果,甚至可以与GPT - 4o - mini这样的知名模型相媲美。这凸显了它在能力优化方面的成效,能够在有限的参数规模下,充分发挥自身优势,实现对各类任务的有效处理,在资源和性能之间达到了较好的平衡。

通义千问2.5 - Turbo性能表现 :值得一提的是,通义千问2.5 - Turbo模型尽管其训练和推理成本显著更低,这对于资源受限的应用场景来说是一大优势,然而它在十个基准测试中的八个测试里,性能却优于通义千问2.5 - 14B - 指令版。这充分展示了通义千问2.5 - Turbo的高效性,它能够用更少的资源投入实现出色的性能表现,在资源有限的环境中,如一些边缘计算设备或者对成本较为敏感的项目中,无疑是一个极具吸引力的选择。

其他指令调优模型

通义千问2.5 - 7B - 指令版

对比情况与优势体现 :如表8所示,通义千问2.5 - 7B - 指令版模型在除指令评估(IFEval)之外的所有任务中,都显著优于其竞争对手——Gemma2 - 9B - 指令版和Llama3.1 - 8B - 指令版模型。这表明它在整体能力上有着很强的竞争力,尤其是在数学(在数学(MATH)测试中得分75.5)和编程(在人类评估(HumanEval)测试中得分84.8)方面展现出了明显的优势,说明该模型在这两个关键能力领域进行了有效的优化,能够在相对较小的规模下,为用户提供高质量的数学解答和编程支持,满足很多实际应用场景中对这两方面能力的需求。

通义千问2.5 - 3B - 指令版(边缘侧指令模型)

参数与性能对比情况 :对于边缘侧指令模型而言,通义千问2.5 - 3B - 指令版模型的参数数量比Phi3.5 - mini - 指令版(阿卜丁等人,2024年)和MiniCPM3 - 4B - 指令版(胡等人,2024年)模型都要少,但在数学和编程任务中却超越了它们,这体现了其在资源受限情况下的高效能力发挥。边缘侧应用场景往往对模型的资源占用要求苛刻,而通义千问2.5 - 3B - 指令版能够在这种情况下,在关键的数学和编程任务上表现出色,说明其参数利用效率高、能力针对性强。

语言理解方面表现 :此外,它在语言理解方面也取得了颇具竞争力的结果,意味着它不仅在数学和编程上有优势,在处理日常语言交互、理解用户意图等基础语言任务上同样能胜任,能够在边缘环境下为用户提供较为全面的语言服务。

通义千问2.5 - 1.5B - 指令版和通义千问2.5 - 0.5B - 指令版

性能提升情况与应用优势 :这两个模型相较于它们之前的版本,性能有了大幅提升,具体细节如表10所展示。这种性能提升使得它们特别适合在资源高度受限的边缘环境下的应用场景,比如一些物联网设备、移动端设备等,这些设备计算资源有限、对模型的轻量化要求高,而改进后的通义千问2.5 - 1.5B - 指令版和通义千问2.5 - 0.5B - 指令版能够在这些环境中,以较低的资源消耗实现较好的语言处理功能,满足用户的基本语言交互需求。

5.2.2 In-house Automatic Evaluation

内部数据集开发的背景与目的

尽管目前已经有一些公开的基准数据集可用于对语言模型(LLMs)进行评估,但研究人员认为,仅依靠这些公开数据集还不足以全面、深入地展现语言模型的各项能力。不同的公开数据集往往侧重于某些特定方面的考查,难以覆盖语言模型在实际应用中涉及的众多复杂且多样化的能力表现。所以,为了更全面且精准地衡量模型性能,他们专门开发了一系列内部数据集。这些内部数据集旨在从多个角度去评估模型的表现,像知识理解方面,考查模型是否真正掌握了不同领域的知识,并能准确运用;文本生成方面,看其能否根据各种要求生成高质量、符合逻辑和语言习惯的文本内容;还有编程等其他多个维度,以此来形成对模型更完整的能力画像。并且,这些评估工作是在中文和英文两种语言环境下同时开展的,以便更好地了解模型在不同语言体系中的表现差异以及通用性。

此外,针对指令调优模型的多语言性能,也进行了专门的评估,相关结果分别汇总在不同的表格中,例如表11展示了英文相关的评估结果,表12呈现的是中文相关结果,表13涵盖了70B + 指令模型的多语言性能情况,表14则是针对7B - 14B模型的对应内容。


英文和中文环境下的评估情况

对比对象与关注重点

在英文和中文这两种语言环境下,将通义千问2.5 - 指令版(Qwen2.5 - Instruct)模型的性能与多个领先的语言模型进行对比,这些对比模型包括GPT - 4、Claude3.5 - sonnet、通义千问2(Qwen2)以及Llama - 3.1等。在分析过程中,重点关注模型规模对性能产生的影响,也就是探究不同参数规模的模型在处理语言任务时的表现差异,同时还着重对比了通义千问2.5系列与其之前的版本以及其他竞争模型之间的性能优劣情况,以此来明确其在行业内的地位和发展情况。

不同规模通义千问2.5模型的性能表现

较小规模模型 :观察发现通义千问2.5 - 0.5B模型的性能表现能够达到甚至超过通义千问2 - 1.5B模型的水平。这意味着通义千问2.5系列在参数利用方面进行了有效的优化,使得中等规模偏小的模型能够实现与上一代更大规模模型相近的性能。这体现了该系列模型在算法优化、参数效率提升等方面所做的努力,让资源占用相对较少的模型也能有不错的语言处理能力。

通义千问2.5 - 3B模型 :其性能可以与通义千问2 - 7B模型相媲美,进一步证明了通义千问2.5系列在不同规模下的性能优化成果,即使参数数量有所减少,但依然能在语言处理任务上保持较好的表现,缩小了与更大规模模型之间的差距。

通义千问2.5 - 32B模型 :相较于通义千问2 - 72B模型有了显著的提升,说明在这个规模级别上,通义千问2.5系列在模型架构、训练策略等方面进行了改进,使得其在处理语言任务时的能力得到了较大幅度的增强,能够更高效地应对各种复杂的语言场景。

通义千问2.5 - 72B(旗舰模型) :进一步缩小了通义千问与像GPT - 4和Claude3.5 - sonnet这样的顶尖模型之间的差距。尤其值得一提的是,除了指令跟随这一指标外,通义千问2.5 - 72B在其他所有衡量指标上的表现都能匹配甚至超越Llama - 3.1 - 405B模型。这一成绩充分彰显了通义千问2.5 - 72B在众多语言处理任务中的竞争力,同时也为后续进一步优化改进指出了方向,例如在指令跟随方面还可以继续探索提升的空间。

通义千问2.5 - Plus模型 :解决了之前在中文指令跟随方面存在的不足,并且在其他能力领域还进一步强化了自身优势,使其在中文语言环境下的综合性能更加出色,能更好地满足中文用户对于指令理解和执行的需求,以及在其他语言处理任务中的应用要求。

多语言性能评估情况

多语言评估遵循的方法与基准扩展

为了全面评估指令调优模型的多语言能力,参考了P - MMEval(张等人,2024年)的相关思路,并对多个基准进行了如下扩展:

- IFEval(多语言版):最初IFEval基准测试是以英文形式存在的,为了使其能用于多语言能力评估,将其进行了扩展,纳入了多语言的示例内容。同时,为了保证语言的中立性,去除了那些包含特定语言内容的实例,比如像“以字母A开头”这类具有明显语言特征、只适用于特定语言环境的内容,确保这个基准测试在不同语言环境下都能公平、有效地考查模型对指令的理解和遵循能力,而不受特定语言表述习惯的干扰。

- 知识利用方面:为了评估通义千问2.5系列模型在多种语言环境下的知识利用能力,采用了五个类似多任务语言理解(MMLU)的基准测试(采用多项选择题的格式)。这些基准测试分别是阿拉伯语版的多任务语言理解(AMMLU)、日语版的多任务语言理解(JMMLU)、韩语版的多任务语言理解(KMMLU)、印尼语版的多任务语言理解(IndoMMLU)以及土耳其语版的多任务语言理解(TurkishMMLU)。除此之外,还对从原始英文形式改编成多种语言版本的多任务语言理解(MMLU)基准测试的翻译版本(okapi MMLU)进行了模型性能评估,通过这些多语言的知识测试基准,全面考查模型能否在不同语言中准确调用和运用相应的知识来回答问题,衡量其多语言知识储备和运用的能力水平。

- MGSM8K(扩展版):在原始MGSM8K基准测试的基础上进行扩展,增加了对阿拉伯语(ar)、韩语(ko)、葡萄牙语(pt)和越南语(vi)这几种语言的支持。原本MGSM8K主要聚焦于特定语言环境下的数学问题应用,扩展后能更好地考察模型在更多语言背景下运用数学知识解决实际问题的能力,反映其多语言数学应用能力的范围和水平。

- 文化细微差别方面:利用了BLEnD基准测试(明等人,2024年)来评估模型捕捉文化细微差别的能力。这个基准测试是专门为测试语言模型对不同文化背景下的微妙之处的理解而设计的,因为不同语言往往承载着不同的文化内涵,模型能否准确理解和体现这些文化细节,对于其在多语言交互中的高质量表现至关重要。

通义千问2.5多语言性能表现总结

通义千问2.5在指令跟随、多语言知识以及数学推理等方面展现出了颇具竞争力的性能,与同规模的其他模型相比表现良好。相较于其前身通义千问2,在捕捉文化细微差别方面已经有了明显的进步,不过在这个领域仍然存在进一步提升的潜力,意味着在后续的研发过程中,还可以继续探索如何让模型更精准、深入地理解不同文化背景下的各种细节,从而在多语言交流场景中提供更加贴合文化语境、更加准确且高质量的回复内容。

5.2.3 Reward Model

在强化学习(RL)的复杂体系里,奖励模型占据着绝对的核心地位,堪称整个过程的基石。强化学习的基本原理是让智能体在环境中采取一系列行动,通过不断接收环境反馈的奖励信号来学习优化自身的行为策略,以实现预期的目标。而奖励模型正是负责生成这些奖励信号的关键组件,它定义了什么样的行为是值得鼓励、能获得高奖励的,什么样的行为是不佳、应得到低奖励甚至惩罚的,就如同为智能体在学习的“迷宫”中设置了指引方向的路标,引导着强化学习沿着符合期望的路径不断推进。

鉴于奖励模型的这种关键作用,对其进行全面且准确的评估就显得尤为重要了。只有深入了解一个奖励模型的性能优劣、适用范围以及潜在的局限性等方面,才能确保它在强化学习过程中能够有效地引导模型朝着理想的方向去学习和进化,最终生成符合实际需求、高质量的结果。所以,针对通义千问2.5系列所使用的奖励模型,专门开展了细致的单独评估工作,旨在全方位剖析其能力表现。

多维度评估基准的具体内涵与作用

为了实现对奖励模型全面的评估,研究人员精心挑选并运用了多个不同类型的评估基准,每个基准都从独特的角度对奖励模型进行考量,共同构成了一个立体式的分析框架:

奖励基准(Reward Bench) (兰伯特等人,2024年):

这个基准聚焦于奖励模型最基础也是最核心的功能,即对不同行为输出合理、准确的奖励值判断。在强化学习的场景中,智能体的行为多种多样,其复杂程度和效果各不相同,奖励基准会设定一系列具有代表性的行为案例以及相应的预期奖励标准。例如,对于自然语言处理任务中的回复生成,如果智能体生成的回复在语义准确性、逻辑连贯性以及与给定提示的相关性等方面都表现出色,那么奖励模型就应该给予较高的奖励分数;反之,如果回复存在语义模糊、逻辑矛盾或者偏离主题等问题,就应给予较低分数。奖励基准通过大量这样的测试用例以及严谨的量化指标,来衡量奖励模型是否能够精准地识别不同行为的质量差异,并给予恰当的奖励反馈,以此考察奖励模型在通用的行为奖励判断方面的能力,为后续判断其能否有效引导强化学习过程奠定基础。

人民币基准(RMB) (周等人,2024年):

虽然名称是“人民币基准”,但它不一定仅仅局限于货币相关领域,有可能是以此为名构建的一个具有特定主题和任务特点的评估基准。也许它涵盖了涉及金融、经济、商业等诸多与货币或价值交换相关的语言处理场景,例如对金融市场分析报告的生成、商业谈判话术的拟定等任务的回复进行评估。在这些场景中,奖励模型需要依据特定的领域知识、语言规范以及业务逻辑,判断智能体生成的回复是否符合相应的专业要求和实际应用场景的期望,进而给出合适的奖励。比如,在一份关于股票投资分析的回复中,如果奖励模型能够识别出回复中包含准确的财务数据解读、合理的市场趋势预测以及恰当的投资建议等高质量内容,就给予相应的奖励,以此来测试奖励模型在这类特定领域相关语言交互情境下的适应性和专业判断能力,看其能否针对特定领域的任务特点提供有效的奖励引导。

偏好预测误差(PPE) (弗里克等人,2024b):

该基准着重关注奖励模型对人类偏好的预测精准程度。在实际应用中,强化学习的最终目标往往是让生成的结果尽可能符合人类的期望和偏好,所以奖励模型能否准确把握人类的喜好倾向至关重要。偏好预测误差通过对比奖励模型给出的奖励反馈与实际收集到的人类对各种回复的偏好情况,来衡量两者之间的偏差。例如,通过向大量用户展示不同的回复内容,并收集他们对这些回复好坏的评价作为人类偏好的真实反映,然后将其与奖励模型针对相同回复所给出的奖励分数进行对比分析。如果奖励模型给出的奖励结果与人类实际偏好高度一致,意味着其预测误差很小,说明该奖励模型能够很好地理解人类的想法,在引导模型生成符合人类期望的回复方面就会更加精准有效;反之,若预测误差较大,则表明奖励模型在契合人类偏好上还有待改进,可能会导致强化学习生成的结果与用户期望存在较大差距。

人类偏好 - 中文(Human-Preference-Chinese)

这是一个具有很强针对性的基准,是研究团队内部精心收集整理而来,聚焦于中文语言环境且涉及域外情况的人类偏好评估标准。所谓“域外”,可能意味着超出了常规的、一般性的研究范围或者特定业务领域的边界,涵盖了更广泛、多样化的中文语言使用场景。中文语言本身有着独特的语法结构、丰富的语义内涵以及深厚的文化底蕴,这些因素都会影响人们的语言表达习惯和偏好。比如,在中文诗词创作、传统文化故事讲述等场景中,人们对于语言的优美性、文化韵味以及情感传递等方面有着独特的期望和偏好。这个基准通过收集大量这类具有中文特色和域外情境特点的语言案例,以及相应的人类偏好评价数据,来测试奖励模型在中文语境以及特殊应用场景下,是否能够敏锐地捕捉到中国人在语言使用上的细微偏好差异,从而给出贴合实际的奖励引导,以此衡量奖励模型在中文相关的强化学习应用中的专业适配能力和优势所在。

通过运用这一系列涵盖不同侧重点、不同应用场景的评估基准,能够全面且深入地挖掘通义千问2.5系列奖励模型在各个维度上的性能表现,避免单一维度评估带来的片面性和局限性。

对比参照模型及各模型在不同基准下的具体表现对比

为了更清晰地展现通义千问2.5系列奖励模型在同类型模型中的位置和性能特点,引入了多个其他的基准模型作为对比参照对象,包括Nemotron4 - 340B - 奖励(Nemotron-4-340B-Reward,阿德勒等人,2024年)、Llama - 3.1 - Nemotron70B - 奖励(Llama-3.1-Nemotron-70B-Reward,王等人,2024c)以及雅典娜 - 奖励模型 - 70B(Athene-RM-70B,弗里克等人,2024a)等。

从最终呈现的评估结果(详细展示在表15中)来看,不同模型在各个评估基准下呈现出了各异的表现:

Llama - 3.1 - Nemotron70B - 奖励模型

在奖励基准(Reward Bench)上表现卓越,这意味着它在依据该基准所设定的全面且细致的行为评价标准时,展现出了很强的适应性和判断能力。它能够精准地分析智能体各种行为的优劣,对于那些符合高质量要求的行为,比如在语言生成任务中能产出逻辑严密、语义丰富且与上下文契合度高的回复内容,它可以准确地给予较高的奖励分数;对于存在缺陷的行为也能合理地降低奖励分值,整个奖励判断过程与奖励基准所期望的理想状态高度吻合。这反映出该模型在奖励基准所聚焦的通用行为奖励判断维度上,有着成熟且高效的内部机制,能够很好地发挥奖励模型的核心功能,为强化学习过程提供准确且有效的奖励引导,在这一特定的评估体系中具备明显的优势地位。

雅典娜 - 奖励模型 - 70B

在人民币基准(RMB)上脱颖而出,取得最佳表现。这表明在面对与该基准相关的特定领域任务和复杂的语言交互场景时,它能够凭借自身独特的优势,深度理解相关领域的专业知识、语言规范以及业务逻辑,从而对智能体生成的回复进行精准评估,并给出契合实际需求的奖励反馈。例如,在涉及金融投资策略制定的语言任务中,它可以敏锐地识别回复中关于风险评估、收益预测以及资产配置等关键内容的合理性和专业性,准确判断其是否符合金融领域的实际应用要求,进而给予恰当的奖励,以此来引导智能体朝着生成更符合该领域期望的回复方向发展,体现出它在这个特定领域的适应性、专业性以及奖励判断的准确性方面相较于其他模型更胜一筹。

通义千问2.5 - 奖励模型 - 72B

整体表现出了较强的综合实力,在偏好预测误差(PPE)和人类偏好 - 中文(Human-Preference-Chinese)这两项评估中占据领先地位。在偏好预测误差方面表现领先,意味着它在预测人类偏好这一关键环节上展现出了很高的精准度。通过大量的数据收集和分析,它能够很好地把握人类对于不同类型回复内容的喜好倾向,使得自身给出的奖励反馈与实际人类期望的偏好高度一致,有效缩小了两者之间的偏差。这使得在利用该奖励模型引导强化学习时,模型能够更倾向于生成那些符合人类期望的回复,提高了最终生成结果的质量和用户满意度。

在人类偏好 - 中文这个特定语境下的优势则体现了其对中文语言环境及相关特殊场景的深度适配能力。在中文的诗词赏析、文化典故讲述、日常社交对话等多样化的场景中,它能够充分考虑中文语言独特的表达方式、文化内涵以及人们的情感诉求等因素,准确判断回复内容是否符合中文语境下的审美和交流习惯,进而给予合理的奖励,引导模型生成更贴合中文用户期望的内容,彰显了其在中文相关的强化学习应用中的独特价值。

同时,在人民币基准(RMB)上,通义千问2.5 - 奖励模型 - 72B仅次于雅典娜 - 奖励模型 - 70B排名第二,这说明它在该特定领域虽然稍逊一筹,但依然具备较强的竞争力,能够较好地应对相关领域的任务要求,在奖励判断上也有一定的准确性和合理性。在奖励基准(Reward Bench)上,它能达到与Nemotron4 - 340B - 奖励相近的性能水平,不过相较于Llama - 3.1 - Nemotron70B - 奖励还是略为逊色,这反映出它在满足该基准的通用行为奖励判断标准方面,虽然已经具备了相当的能力,但在一些细节和精准度上还有进一步提升的空间,不过整体上依然展示出了不俗的实力,能够在多个不同的评估维度上展现出良好的性能表现,具备较强的综合应用潜力。

现有奖励模型评估方式的局限及带来的不良影响

依赖单一基准评估的局限性及引发的连锁问题

目前在整个奖励模型的评估领域,面临着一个较为突出的问题,就是缺乏一套完善且多样化的评估方法体系,导致大家在实际操作中通常习惯性地主要依赖奖励基准(Reward Bench)来对奖励模型进行评价。这种做法看似能够在一定程度上衡量奖励模型的部分性能,但却存在着严重的局限性。

不同的评估基准其实是从不同的应用场景、不同的功能需求以及不同的用户期望等多个角度去考量奖励模型的表现的。如果仅仅聚焦于奖励基准(Reward Bench)这一个维度进行过度优化,那么奖励模型就会像一个“偏科生”,在这个特定的方面表现得极为出色,但却严重忽视了其他方面的能力平衡发展。

例如,为了在奖励基准上获取尽可能高的分数,奖励模型的开发者可能会针对性地调整模型的参数、优化奖励判断的逻辑算法等,使其完全迎合奖励基准所设定的评价标准。然而,这样做的后果就是,当把这个经过过度优化的奖励模型放置到其他如人民币基准(RMB)、偏好预测误差(PPE)等不同的基准测试场景中时,由于在之前的优化过程中并没有充分考虑这些场景的特殊要求和能力培养,就会出现明显的“水土不服”现象,导致其性能急剧下降。

而且,这种在多个基准表现不均衡的情况,还会进一步沿着强化学习的流程产生连锁反应,影响到下游任务中模型与期望目标的对齐性能。在强化学习中,下游任务通常是指基于奖励模型引导训练出来的强化学习(RL)模型去实际执行各种具体的应用任务,比如生成高质量的文本回复、做出合理的决策建议等。如果奖励模型本身在多个基准下的表现不稳定、不均衡,那么它引导训练出来的RL模型在实际执行这些下游任务时,就很难保证生成的结果能够全面且有效地满足实际应用中的各种综合需求,可能会出现生成的回复虽然在某个单一维度上看似不错,但在其他关键维度上却不符合要求的情况,使得整个强化学习系统的最终效果大打折扣,无法达到预期的应用目标。

所以,这一现状深刻地凸显出了一个重要的问题,那就是不能仅仅依赖单一的基准来评估奖励模型,而必须要综合考虑多个不同的基准,从多个维度全面、均衡地衡量奖励模型的性能,确保其在各种实际应用场景中都能发挥出稳定且良好的引导作用,避免因片面追求某一基准的高分而导致整体性能失衡的问题出现。

评估基准与RL模型性能关联的局限性及研究方向的启示

更为关键且值得深入探讨的是,通过大量反复的试验研究发现了另一个隐藏在现有评估体系背后的重大局限,那就是当前所采用的这些奖励模型评估基准,尽管在一定程度上能够对奖励模型自身的一些特性、功能表现等进行衡量,但却存在一个致命的缺陷——无法准确地预测在其引导下训练出来的强化学习(RL)模型的实际性能。

通俗来讲,就是我们看到一个奖励模型在像奖励基准(Reward Bench)、人民币基准(RMB)等这些评估基准上获得了看似很高的分数,表面上好像这个奖励模型自身的表现很优秀,但当把它应用到实际的强化学习训练过程中,最终训练出来的强化学习(RL)模型在真正去执行实际任务时,却不一定能展现出与之对应的出色性能。这意味着现有的这些评估基准与最终强化学习(RL)模型在实际应用中的效果之间缺乏紧密、可靠的关联性,评估基准所衡量出来的奖励模型的好坏,并不能真实地反映该奖励模型在引导强化学习(RL)过程后,到底能让强化学习(RL)模型在实际应用中发挥出怎样的真实水平。

这种关联性的缺失对于整个强化学习系统的优化和发展是极为不利的,因为它使得我们在选择和评估奖励模型时,缺乏一个真正有效的判断依据,难以确定哪些奖励模型能够真正助力强化学习(RL)模型在实际任务中取得好的成绩。这一认识深刻地揭示了当前奖励模型评估领域存在的严重不足,进而为后续的研究工作指明了方向,强调了有必要投入更多的精力去深入探索、研究出一些更具预测性的评估方法。

这些新的评估方法需要能够突破现有局限,更加准确地反映奖励模型在引导强化学习(RL)模型训练后,两者之间的协同作用到底能使强化学习(RL)模型在实际应用中展现出何种真实的性能水平,从而帮助我们更好地筛选、优化奖励模型以及整个强化学习系统,提升其在各种实际业务场景中的有效性和实用性,让强化学习能够真正发挥出其应有的强大作用,更好地服务于不同领域的实际需求。

5.2.4 Long Context Capabilities

评估长文本上下文处理能力的基准及相关调整

在自然语言处理领域,模型对长文本上下文的处理能力是衡量其性能的一个重要方面。对于通义千问2.5系列模型,为了全面且准确地了解它们在这方面的表现,研究人员选取了三个专门的基准来进行评估。

RULER(谢等人,2024年) :这是一个用于考查模型长文本上下文处理能力的基准测试工具,它可能通过设置一系列包含长文本内容的任务,例如长文章的理解、长对话中的信息关联与提取等,然后依据特定的标准和指标来衡量模型在处理这些长文本情境时的表现,比如看模型能否准确理解文本中远距离的指代关系、能否依据前文很长的内容合理推断后续内容等。

LV-Eval(袁等人,2024年) :同样是聚焦于长文本上下文处理能力评估的基准,不过在使用这个基准时遇到了一个问题,就是其原始的评估指标存在较高的假阴性率。假阴性率高意味着在原本应该判定为正确或者符合要求的情况下,却错误地判定为不符合要求,这样就容易低估模型的实际能力。为了解决这个问题,研究人员采用了关键词召回率作为报告分数。关键词召回率主要关注模型能否准确地从长文本中找回那些关键的、具有代表性的词语,通过这种方式来更合理地衡量模型对长文本中重要信息的捕捉和处理能力,使得评估结果能更真实地反映模型在长文本处理方面的水平。

长文本基准测试 - 聊天(Longbench-Chat,白等人,2024年) :这个基准侧重于模拟聊天场景中的长文本情况,因为在实际的聊天交互中,对话内容可能会不断延伸、变得很长,模型需要能够理解整个聊天过程中的上下文信息,才能给出合理且连贯的回复。它通过构造各种不同主题、不同长度和复杂程度的聊天记录作为测试样本,来考察模型在长聊天文本语境下的理解、生成以及信息关联等能力。

通义千问2.5系列模型的长文本处理能力表现

通过在上述三个基准上进行测试,相应的结果展示在了表16和表17当中。可以看到,通义千问2.5系列模型在运用了特定的长度外推技术(也就是动态卷积注意力(DCA) + 自适应循环神经网络(YARN))之后,展现出了令人瞩目的长文本上下文处理能力,在这三个数据集上都有着出色的发挥。

这里的长度外推技术起到了关键作用,它使得模型能够更好地应对长文本带来的挑战。动态卷积注意力(DCA)机制可能有助于模型在长文本中更精准地聚焦于不同位置的关键信息,就像给模型配备了一个可以灵活调整焦距的“放大镜”,能够根据文本的语义结构和任务需求,突出重要的部分并进行有效的处理;自适应循环神经网络(YARN)则可能在处理长序列信息时,通过自适应地调整网络的参数和结构,更好地捕捉文本中先后顺序之间的关联以及长距离的依赖关系,帮助模型理解长文本整体的逻辑和语义脉络。

在这些技术的加持下,通义千问2.5系列中的通义千问2.5 - 72B - 指令版表现尤为突出,无论在何种上下文长度的测试任务中,它都展现出了最强的性能。与同类型的其他模型相比,优势十分明显,不仅远远超过了现有的开源权重长文本上下文模型,而且在面对像GPT - 4o - mini和GPT - 4这类由特定机构开发的专有模型时,同样表现出了卓越的竞争力,这意味着通义千问2.5 - 72B - 指令版在处理长文本相关任务时,能够为用户提供更准确、更全面且更贴合上下文的回复内容,更好地满足实际应用中对于长文本理解和处理的需求。

通义千问2.5 - Turbo在特定长文本任务及推理速度方面的表现

超长文本任务中的准确率表现

进一步来看,如图2所展示的内容,通义千问2.5 - Turbo在一个极具挑战性的100万词元(token)的密钥检索任务中,达到了100%的准确率。密钥检索任务通常要求模型从海量的长文本信息中准确地找出特定的关键信息(这里类比为密钥),这是对模型从超长文本上下文中捕捉详细信息能力的一种高强度考验。通义千问2.5 - Turbo能够取得这样的成绩,充分说明了它具备超强的信息提取和分析能力,即便面对超长且复杂的文本内容,也可以精准定位到目标信息,这种能力在很多实际应用场景中都非常关键,比如处理长篇的专业文献、复杂的项目文档等,帮助用户快速获取关键内容。

稀疏注意力机制对推理速度的提升及意义

为了优化用户在处理长文本时的体验,研究团队引入了一种稀疏注意力机制。在自然语言处理中,注意力机制是帮助模型聚焦于文本不同部分重要性的关键技术,但在处理长文本时,传统的注意力机制往往会面临计算量过大的问题,导致推理速度变慢,用户等待回复的时间变长。而稀疏注意力机制则通过一种巧妙的设计,只关注文本中部分关键的、具有代表性的信息点,忽略一些相对次要的信息,从而大大减少了计算量。

具体来说,对于长度达到100万词元的序列,这种稀疏注意力机制发挥了巨大的作用,它将注意力机制原本庞大的计算负载降低了12.5倍。这意味着模型在处理长文本时,能够以更快的速度进行推理和生成回复,极大地缩短了用户等待的时间,让用户在面对长文本交互场景时,能享受到更加流畅、高效的服务体验。

不同硬件配置下的速度提升情况展示

此外,图3展示了通义千问2.5 - Turbo在不同硬件配置下的首词生成时间(TTFT)情况。首词生成时间是衡量模型推理速度的一个重要指标,它反映了从用户输入文本到模型开始输出第一个词元所花费的时间。通过对比不同的硬件配置,可以看到采用了上述相关优化技术(如稀疏注意力机制等)的通义千问2.5 - Turbo实现了3.2到4.3倍的速度提升。这表明无论在何种硬件条件下,该模型都能凭借其优化的技术手段,显著提高长文本处理的效率,进一步证明了这些优化措施的有效性和通用性,使其在不同的应用环境中都能为长文本处理提供高效的解决方案。

6 Conclusion

通义千问2.5代表了大型语言模型(LLMs)领域的一项重大进步,它在18万亿词元(tokens)上进行了强化的预训练,并运用了包括监督微调以及多阶段强化学习在内的复杂的后训练技术。这些改进提升了模型与人类偏好的对齐程度、长文本生成能力以及结构化数据分析能力,使得通义千问2.5在指令遵循任务方面极具成效。

通义千问2.5有多种配置可供选择,既提供了参数规模从0.5B到72B的开源权重版本,也包含了诸如具有成本效益的混合专家(MoE)变体——通义千问2.5 - Turbo和通义千问2.5 - Plus这样的专有模型。实证评估表明,通义千问2.5 - 72B - 指令版尽管规模仅为Llama - 3 - 405B - 指令版的六分之一,但却能达到与之相当的性能表现。通义千问2.5还可作为专业模型的基础,彰显了其在特定领域应用方面的通用性。

我们认为,通义千问2.5强劲的性能、灵活的架构以及广泛的可用性,使其成为学术研究和工业应用领域的宝贵资源,奠定了它在未来创新中关键角色的地位。

未来,我们将着重推进稳健的基础模型发展。首先,我们会通过纳入更广泛、更多样、更高质量的数据,迭代优化基础的以及经过指令调优的大型语言模型(LLMs)。其次,我们也会继续开发多模态模型,目标是将多种模态整合到一个统一的框架中,这将有助于实现跨文本、视觉和听觉等领域的无缝端到端信息处理。第三,我们致力于提升模型的推理能力,这将通过对推理计算资源进行策略性的扩展来实现。这些努力旨在突破当前技术局限,为更广泛的人工智能领域做出贡献。

全部评论 (0)

还没有任何评论哟~