Advertisement

论文解读——DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

阅读量:

原文地址:[2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

由于数学推理的复杂性与结构性特点,在人工智能领域对大型语言模型提出了严峻挑战。本文提出了一种名为DeepSeekMath 7B的新模型架构,在DeepSeek-Coder-Base-v1.5 7B 基础上进行了优化设计,并采用了来自Common Crawl平台的1200亿份与数学相关的标注数据集进行预训练;结合了自然语言处理与代码处理能力。该模型在MATH基准测试中展现了令人瞩目的成绩,在竞赛级别评估中实现了51.7%的正确率(Score),并未依赖外部工具包或投票机制;其性能水平接近于Gemini-Ultra与GPT-4。经过64组样本测试,在MATH基准上的自洽率达到了60.9%(Consistency Rate)。该模型的成功归因于两个关键创新:一是通过精心设计的数据选择管道充分挖掘公开可用网络数据的价值;二是引入了群体相对策略优化(GRPO)方法论——这是一种基于近端策略优化(PPO)原理开发的新颖变体算法,在提升数学推理能力的同时显著降低了PPO算法占用内存的需求。

1. Introduction

大型语言模型 (LLM) 根本改变了人工智能中数学推理的方法,并带来了定量推理基准 (Hendrycks 等人, 2021) 和几何推理基准 (Trinh 等人, 2024) 的重大提升。然而, 虽然这些尖端模型展现了显著的能力, 但 GPT-4 (OpenAI, 2023) 和 Gemini-Ultra (Anil 等人, 2023) 等尚未公开发布的前沿技术尚待公布, 目前可使用的开源模型在性能上仍存在巨大差距

本研究引入了DeepSeekMath语言模型,在特定领域展现了显著的优势,并在学术基准测试中近乎达到GPT-4的表现水平。为此目的而发起了DeepSeekMath语料库建设计划——这是一个包含海量优质数据的预训练语料库。该语料库总计收录了120亿个精心标注的数学标记(一百二十亿)。采用基于fastText的技术分类器(Joulin等人提出),并结合来自OpenWebMath(Paster等人开发)的一系列阳性实例作为正向训练样本;同时通过多样化网页选择构建阴性样本集进行补充学习。随后我们引入了一种改进型的数据挖掘机制——通过Common Crawl (CC)数据库提取候选阳性实例,并结合人工标注进一步优化数据质量。在此基础上我们对原始分类器进行了迭代更新工作流:首先利用增强后的数据集重新训练改进型分类器;随后通过与领域专家团队协作完成模型参数微调工作环节。最终评估结果表明:经过系统优化后的新一代基础模型DeepSeekMath-Base 7B不仅实现了GSM8K测试中的64.2%准确率(这一指标超越了许多现有多语言模型),还在竞赛级别的MATH数据集上实现了远超Minerva 540B水平的36.2%准确率(这一成绩远高于当前主流多模态推理架构)。值得注意的是:该研究还特别关注到了多语言能力对于中文数学基准测试的影响——通过引入专门针对中文环境的数据清洗流程及优化策略,在提升泛化能力的同时也获得了更好的推理效果表现(Wei等人提出)。总体而言我们认为:基于大规模高质量标注数据构建的语言模型将在未来持续推动人工智能技术的发展。

DeepSeekMath-Base 初始化于 DeepSeek-Coder-Base-v1.5 7B (Guo 等人, 2024), 我们关注到以代码为导向的模型训练策略相较于采用通用LLM的方案更为有效。此外,通过数学训练,该模型在MMLU (Hendrycks等人, 2020)和BBH基准(Suzgun等人, 2022)上的性能得到了显著提升,这不仅增强了其数学能力,同时也为其一般性推理能力带来了显著的进步

预训练完成后,在此基础上我们基于系统性推理(Wei等人, 2022)、多层次思维方式(包括程序性认知、分类性推理及复杂推理机制等)以及动态集成型知识运用框架(Gou等人, 2023)对DeepSeekMath-Base进行了数学指令微调训练。经过测试优化后的DeepSeekMath-Instruct-7B新模型不仅超越了现有的所有7B规模基准模型,在性能上还与当前主流开源指令微调基准模型相媲美

此外,在强化学习领域中发展出了一种新方法——群体相对策略优化(GRPO),它作为近端策略优化(PPO)的一种变形(Schulman等人于2017年提出),主要应用于深度强化学习算法中。与传统的评论家模型不同的是,在GRPO中我们无需依赖评论家模型而是直接从群体得分中计算基准值从而大幅降低了所需计算资源。该方法通过仅针对英语指令微调的数据子集实现了显著提升其在DeepSeekMath-Instruct平台上的实验结果显示显著提升包括强化学习阶段的域内任务(如GSM8K准确率从82.9%提升至88.2%以及MATH任务准确率从46.8%提升至51.7%)和域外任务如CMATH准确率也提升了约4个百分点(例如从84.6%提升至88.8%)。通过这一统一点的视角分析我们发现现有方法本质上都可以被归类为强化学习的不同实现形式基于这种统一的范式我们还进行了多维度实验涵盖在线与离线训练结果与过程监督单轮与迭代更新等多个方面深入探讨了这类强化学习技术的基本特征随后我们还阐述了为何这种方法能够有效提升指令微调模型性能并在此基础上提出了未来可能的研究方向以期进一步完善基于统一框架实现更高效率强化学习的可能性

备注:RFT这里提供了论文来源

1.1. Contributions

我们的贡献包括可扩展的数学预训练,以及对强化学习的探索和分析。

  • 大规模数学预训练

我们得出了有力的证据。这项研究明确地表明为Common Crawl 数据库为数学研究提供了宝贵的资源。通过开发创新的数据选择管道,在此项目中我们成功实现了DeepSeekMath 语料库。该数据库包含经过精挑细选的数学内容共120亿条标记。其规模相当于Minerva(Lewkowycz等, 2022a)所使用的数学网页数量的大约7倍。同时其规模也是最近发布的OpenWebMath(Paster等, 2023)数据库的大约9倍。

我们的基础模型 DeepSeekMath-Base 7B 在性能上与 Minerva 的 540B(由 Lewkowycz 等人于 2022a 年提出)相当有竞争力。这表明 参数规模并非决定数学推理能力的唯一起因。即使是在使用高质量数据的情况下,较小规模的预训练模型也能获得较好的性能。

本次展示了我们团队最近完成的编程自动化技术研究进展。通过先进行代码训练有助于提升模型解决复杂数学问题的能力,并不论是否借助工具都可以看到明显的效果提升。这一发现为编程与逻辑推理能力培养之间潜在联系提供了部分依据,并提出了一个值得探讨的问题:具体来说,在当前环境下能否通过编程思维培养来显著提升学习者的逻辑推理能力?我们的研究表明,在进行代码训练时尤其能够有效锻炼相关思维模式,并且这一效果在涉及复杂的系统设计与算法优化方面表现尤为突出。

尽管在arXiv上的训练实践很普遍,在涉及数学领域的许多论文中尤其常见但它未能为本文采用的所有数学基准测试带来显著的提升

  • 强化学习的探索与分析

我们提出了群体相对策略优化 (GRPO),这是一种高效率和强效能的强化学习方法。GRPO 避免使用价值函数模型,在计算群体得分的同时估算基线值,并相较于近端策略优化 (PPO) 方法大幅降低了训练所需资源。

研究发现GRPO算法主要依赖于指令微调的数据,在不额外增加其他训练数据的情况下,能够有效提升DeepSeekMath-Instruct模型的性能水平。同时,在强化学习框架中进行实验分析时发现,在强化学习过程中验证了模型在跨域推理任务中的有效性。

我们提出了一个统一的标准框架以系统性地分析各种方法,并特别指出了 RFT、DPO、PPO 和 GRPO 这些代表性的模型。通过展开了系统性的实验研究覆盖了从在线到离线的不同训练模式以及从结果到过程的不同监督策略等维度对所提出的框架进行了深入验证。

在构建统一框架的过程中, 我们深入剖析了强化学习机制的关键要素, 并进一步归纳出提升大语言模型强化学习效率的关键路径.

1.2. 评估和指标概述

英汉语种的数学推理能力:基于英文与中文基准系统的研究表明,在我们的模型开发过程中实施了详尽的测试与评估体系。

涵盖从小学到大学的学习阶段。英语基准主要包含以下方面:GSM8K任务集合(由Cobbe及其团队在2021年提出),MATH数据集(Hendrycks等人于2021年开发),SAT阅读与写作测试(Azerbayev等人于近期发布)。此外还有开放课程资源计划(OCW)课程集(Lewkowycz等人于最新一年发表的研究成果)以及机器学习与科学创新前沿领域课程集等。中文基准则涉及多维度评估体系:由Shi等人提出的多模态科学知识图谱数据集MGSM-zh版本、中国数学 Asked Questions (CMATH)项目、高考数学相关题目类型以及详细的解答练习题集等。我们通过测试模型在不依赖工具的情况下生成独立解决方案的能力,并考察其运用 Python编程语言 解决问题的能力来全面评估其性能表现。

在英文基准测试中,并列于闭源Minerva 540B(由Lewkowycz等人在2022a年提出),DeepSeekMath-Base展现出显著竞争力的同时也超越了所有开源基础模型(如Mistral 7B(Jiang等人在2023年发布)和Llemma-34B(Azerbayev等人在2023年发布))。值得注意的是,在中文基准测试中表现优异的结果值得特别关注,并且这可能是由于我们没有像先前的研究(Azerbayev等人在2023年;Lewkowycz等人在2019年的研究)那样仅收集基于英文的数学预训练数据。通过采用数学指令微调技术和强化学习手段,在比赛级别的MATH数据集上首次实现了开源社区内超过50%的准确率

基于(Jiang 等人، ۲۰۲۲)提出的非形式化至形式化的定理证明实验任务,在 miniF₂F 数据集(Zheng 等人، ۲۰۲۱)上进行评估,并采用 Isabelle(Wenzel 等人، ۲۰۰۸)作为辅助工具。DeepSeekMath-Base 验证了其在少样本自动形式化方面的卓越性能

为了全面考察模型在普遍性理解、推理及编码方面的能力,在MMLU基准测试(Hendrycks等人, 20 年)上进行了评估。该测试集总共包含 57 项多项选择任务, 涉及多个不同的主题领域。BIG-Bench Hard项目(Suzgun等人, 二二 年)包含了共 \text{二三} 项具有挑战性的任务, 这些挑战性任务通常都需要经过多步骤推理方能解答。此外, HumanEval项目(Chen等人, 一一年)以及MBPP项目(Austin等人, 一一一年), 它们是广泛应用于评估代码语言模型的关键工具。数学预训练对于提升语言理解和推理性能具有重要意义。

2. 数学预训练

在本节中, 我们将介绍构建DeepSeekMath语料库的过程. 如图所示, 我们展示了如何系统地从Common Crawl中收集大规模数学语料库, 其起点是一个小型但高质量的种子语料库, 比如一个小型但高质量的数据集. 需要注意的是, 这种方法不仅限于数学领域, 同样适用于其他学科, 在这里我们重点讨论编码相关的应用.

2.1. 数据收集与去污

在本节中,我们将介绍从Common Crawl构建DeepSeekMath语料库的具体过程.如图所示,我们展示了构建该语料库的迭代流程图,该流程系统地从Common Crawl中收集并整理了大规模数学相关语料库.种子语料库作为起点建立,是一个小型但高质量的数据资源.值得注意的是,这一方法同样适用于其他领域,在编码方面也有应用.

首先,在我们的研究中采用了 OpenWebMath(Paster 等人, 2023)这一高质量的数学网页文本集作为初始种子语料库。随后,在该集合的基础上进行了进一步的数据处理与特征提取工作。随后,在该集合的基础上进行了进一步的数据处理与特征提取工作。随后,在该集合的基础上进行了进一步的数据处理与特征提取工作.

备注:这个数据清洗方案不错

图 2 | 从 Common Crawl 收集数学网页的迭代管道。

在第一轮数据获取后仍未能捕获大量数学网页, 其主要原因在于fastText模型是在缺乏足够多样性的正样本集上进行训练的结果. 因此, 我们增加了额外的数学资源来扩充种子语料库, 以优化fastText模型的表现. 具体实施中, 我们首先将整个Common Crawl划分为不相交的域段; 每个域被定义为具有相同基础URL集合的网页群. 对于每个域, 我们计算了第一轮获取的网页比例. 收集率超过10%的域被识别为数学相关领域(例如, mathoverflow.net)。随后, 我们对已标记为数学相关的域中的URL进行了手动标注(例如, mathoverflow.net/questions)。那些通过链接指向这些URL但尚未被第一轮捕获的网页则被纳入种子语料库. 通过这种方法, 我们成功增加了正样本数量, 从而训练出性能更优的改进版fastText模型. 在后续迭代中, 该模型得以召回更多数学数据. 经过四次迭代采集后, 我们总共捕获了35.5亿个数学网页(总计1200亿个词元). 在第四次迭代期间, 发现约98%的数据已在第三次迭代中完成采集工作. 因此我们决定终止后续的数据获取流程

为了防止基准污染,在数学训练数据处理中我们采用了以下措施:借鉴Guo等人的研究方法,在训练数据预处理阶段筛选出含有来自英语数学基准(如GSM8K和MATH)以及中文数学基准(如CMATH和AGIEval)相关题项或回答的内容进行过滤处理。具体而言,在构建训练语料库时若发现有任何与评估基准中的任一字串完全匹配的n-gram段落被包含在内,则会予以去除;而对于长度小于10个词但至少有3个词以上的标准中文数学基准文本,则会采用精确匹配的方式来筛选并剔除可能存在污染的内容。

2.2. 深度搜索数学语料库质量验证

我们展开预训练实验以探讨 DeepSeekMath 语料库与当前流行的数学训练数据集之间的差异

本研究引入了一个大型多源语料库MathPile(王等人, 2023c),该语料库总计包含约8.9×10^9个词素。本研究引入了一个大型多源语料库MathPile(王等人, 2023c),其总词量约为8.9×10^9个单位。

OpenWebMath (Paster 等人, 2023):通过过滤技术用于提取CommonCrawl数据中的数学相关的内容, 共计提取了约136亿个词元的数据样本;

该系统整合了三个大规模模块:OpenWebMath、AlgebraicStack(总计约1.03×10¹¹个代码片段)以及arXiv论文数据库(总计约2.8×10¹¹个标记)。基于上述构建,在开展实验研究时我们参照阿泽拜耶夫等人的研究方案,并将数据集分配比例配置为(arXiv : Web : Code) = 2 : 4 : 1。

2.2.1. 训练设置

我们将该数学训练应用于拥有 13 亿参数的通用预训练语言模型,并与 DeepSeek LLM(DeepSeek-AI, 2024)共享其架构以构建统一平台。通过在每个数学知识库中独立训练出一个模型的方式累计构建了总计达 15^9 约计达 15 十亿个词元的数据集。为了提高效率我们基于高效轻量级的 HAI-LLM(High-flyer, 2023)这一训练框架展开实验研究并参考 DeepSeek LLM 的训练策略采用 AdamW 最优化器(Loshchilov 和 Hutter, 2017)。根据这一方案实验设置中 𝛽₁ 设定为 0.9 𝛽₂ 设定为 0.95 并采用 L^2 衰减因子为 0.1 来实现权重衰减操作。在此基础上我们采用了多阶段学习率调度策略:初始阶段的学习率逐步提升至峰值水平随后在数据集约 80\% 完成时降至峰值水平的 31.6\% 并于数据集完成约 90\% 前进一步降序至峰值水平的 1/10 水位。最终我们将最大学习率设定为 5.3 \times 1e^{-4} 并采用批量处理大小为 4\times1e^{6} 的上下文窗口设置以保证系统的稳定运行

表 1 | DeepSeek-LLM 模型在多样化的数学知识库中进行了训练,并展示了其性能表现。通过少量示例结合连锁式思考机制来进行评估的具体情况将在下文详细说明。具体来说,在计算数据量时我们采用了专门的分词工具,并对其词汇表容量达到了十万级别进行了精确统计

备注:指令微调是在什么数据集上做的?

2.2.2. 评估结果

DeepSeekMath 语料库质量高,涵盖多语言数学内容,并且规模最大。

该研究通过少量高质量样本结合链式思维提示,在多个数学基准上进行了系统性评估,并通过实验数据验证了其有效性(Wei 等人, 2022)。研究结果表明,在DeepSeekMath语料库中训练得到的模型在多个指标上均优于现有方法(如表1所示)。此外,在DeepSeekMath语料库上的模型在复杂推理任务中的表现尤为突出(图3具体展示了这一优势)。

formalized mathematics automation能够促进数学证明的准确性和可靠性的同时显著提升了效率,在过去几年中逐渐成为研究热点。
基于(Jiang等, 2022年的研究),我们对DeepSeekMath-Base 7B模型在非形式到formalized proof任务中的性能进行了评估。
该任务旨在根据非formalized陈述及其formalized对应物和non-formalized proof来生成formalized proof。
在miniF2F基准测试中进行评估(Zheng等, 2021),该基准专注于提升formalized数学能力。
具体而言, 我们为每个问题生成了Isabelle系统中的详细formalized proof,并通过少量样本提示来辅助完成这一过程。
参考了Jiang等的研究成果后, 我们采用了生成proof sketch的方法并结合现有的automated theorem proving工具Sledgehammer来填充细节部分。
实验结果显示, 如表3所示, DeepSeekMath-Base 7B模型在自动formalized proof方面展现出了卓越的能力

我们对模型在自然语言理解方面的性能进行了评估,并采用了MMLU(Hendrycks等人,2020)这一指标;同时,在推理能力方面也进行了评估,并采用BBH(Suzgun等人,2022)作为测量工具;此外,在编码能力方面也进行了相应的测试,并采用了HumanEval(Chen等人,2021)以及MBPP(Austin等人,2021)两个指标进行评估情况的测定。
表4显示,DeepSeekMath-Base 7B在MMLU和BBH两项指标上均较其前身DeepSeek-Coder-Base-v1.5表现出色(Guo等人,2024),这表明数学训练对于提升语言理解和推理能力具有积极促进作用。
值得注意的是,我们在持续训练过程中加入了代码标记的内容,从而使得DeepSeekMath-Base 7B不仅提升了数学训练效果,更重要的是成功维持了其在两个编码基准任务中的优异表现。
综合来看,DeepSeekMath-Base 7B在三个主要推理与编码基准任务上均显著优于通用模型Mistral 7B(Jiang等人,2023)

3. Supervised Fine-Tuning

3.1. SFT 数据整理

我们开发了一个包含多领域数学问题的指令微调数据集,在英语和中文语言环境中涵盖了一系列来自不同领域的复杂问题,并将其与链式思维(CoT)、程序式思维(PoT)以及工具集成推理格式(Gou)等三种解决方案进行一一对应匹配。(Wei等人, 2022;Chen等人, 2022;Gao等人, 2023;Gou等人, 2023)该数据集共计包含约77.6万条训练样本。

基于工具集成方案构建的英语数学数据集被用于标注 GSM8K 和 MATH 问题,并从 MathInstruct(Yue 签名的研究 2023 年版)中选取了一个子集;此外采用了 Lila-OOD(Mishra 等人 2022 年的研究成果)作为训练资料的一部分;其中的问题由链式思维技术和正向推理方法得以解决;该集合覆盖了代数、概率、数论、微积分和几何等多个数学分支领域的实例

4. 强化学习

4.1. 组相对策略优化

在监督微调(SFT)阶段之后被实证研究证实强化学习显著地提高了大型语言模型(LLM)的数学推理性能(Luo等2023;Wang等2023b)。我们将阐述一种高效的GRPO算法。

由于在PPO中所采用的价值函数通常是与策略模型规模相当的另一个模型,在强化学习训练过程中其被视为优势计算中的基线并被用作减少方差的目的。然而,在LLM框架下通常情况下仅最后一个token会被奖励模型赋予一个奖励分数这可能导致对每个token都给予准确价值函数的训练变得复杂。为了解决这一问题如图4所示我们提出了一种名为群体相对策略优化(GRPO)的方法该方法无需像PPO那样进行额外的价值函数近似而是通过最大化以下目标来进行策略优化:对于每个问题𝑞从旧策略𝜋𝜃𝑜𝑙𝑑中采样一组输出{𝑜1,𝑜2,⋅⋅⋅,𝑜𝐺}然后对该组输出的平均奖励作为基线来进行优化

其中𝜀和𝛽代表超参数,在后续章节中将对这些关键参数进行详细阐述。在GRPO算法中,我们采用分组相对方法来计算优势𝐴ˆ𝑖,𝑡基于每个组内的输出来计算相对奖励的优势。值得注意的是,在GRPO方法中,并非通过向奖励机制添加KL惩罚来实现正则化效果;相反地,则是直接在损失函数中加入训练策略与参考策略之间的KL散度来进行正则化处理。

4.1.2. 基于 GRPO 的结果监督强化学习

4.1.3. 基于GRPO的流程监督强化学习

4.1.4. 基于 GRPO 的迭代强化学习

在强化学习的过程中,在传统监督当前策略时显得不够高效的 rewards 模型逐渐暴露出其局限性。因此我们转而采用迭代强化学习方法(Iterative RL)中的 GRPO 理论框架展开研究。参考图 1 所示,在迭代 GRPO 的过程中我们首先根据当前策略 model 的采样结果构建新的 rewards 信号集合 并结合过去 10% 数据量进行回放训练以持续优化旧有的 rewards 模型。随后我们将旧 rewards 模型与新策略 model 结合 使用改进后的 rewards 进行持续优化从而提升整体性能。

4.2. 深度搜索数学-强化学习的训练和评估

采用 DeepSeekMath-Instruct 7B 模型作为强化学习的基础。

表 5 呈现了开源与闭源模式在英语与中文基准上运用思维链与工具集成推理性能的数据对比。研究发现:1) DeepSeekMath-RL 模型在 GSM8K 和 MATH 上分别获得了 88.2% 和 51.7% 的准确率,并通过思维链推理实现了这一成绩。该表现不仅超越了同一规模(即从 7B 到 70B 参数量)下的所有开源模型,并且在大多数闭源模型中也表现优异。2) 需要特别指出的是,在仅采用 GSM8K 和 MATH 思维链格式指令进行训练的情况下(即从 DeepSeekMath-Instruct 模型基础上出发),即使其训练数据范围较为有限却仍展现出强化学习的优势

5. 讨论

在本节中,我们将分享我们在预训练和强化学习实验中的发现。

5.1. 预训练中的经验教训

首先,在阐述我们在预训练阶段的经验时,默认情况下我们将依照第2.2.1节所述的训练配置进行操作。值得特别指出的是,在本节讨论DeepSeekMath语言模型时,所使用的数据集是来自数据收集流程第二次迭代所产生的890亿词元的语言材料集合。

5.1.1. 代码训练有利于数学推理

一种广为流传但尚未得到证实的假设指出,在编程方面存在显著天赋与后天可培养性之间的密切关联。鉴于此,在教育领域中探索这一命题的努力显而易见:通过编程训练来提升逻辑推理能力,并在这方面取得了一定成效。特别是在数学教育领域:编程训练显著地提升了模型在无需借助任何工具的情况下完成数学推理的能力。

通过接受代码训练的学习者,在无需工具的情况下表现出更强的数学推理能力。在采用双阶段学习策略的情况下,在第一部分的学习中就能够促进基础技能的发展,并且进一步提升了后续数学练习的效果。这些努力最终达到了最佳水平。然而,在混合使用两种标记进行单一学习任务可能会削弱基础推理能力;该模型因其规模限制而无法实现对两者信息的有效整合。

5.1.2. arXiv 论文似乎在提高数学推理方面无效

5.2. 强化学习的见解

本节中介绍了一种统合性的框架用于考察多种训练策略。如SFT(Sequence-to-Sequence Fine-tuning)、RFT(Retraining Fine-tuning)、DPO(Dynamic Parameter Options)、PPO(Proximal Policy Optimization)、GRPO(Gradient-based Regularization)等,并通过后续实验深入探讨这些策略的关键因素。通常情况下,在分析这些训练策略时,我们关注的是它们对模型参数θ的梯度表现。

监督微调 (SFT): SFT 使用人类选定的 SFT 数据对预训练模型进行微调。

拒绝采样微调(RFT)是一种遵循特定流程的方法:它通过分析SPT相关问题来优化SPT模型,并对模型的筛选输出进行额外优化。该方法依据结果的准确性筛选输出。

表 10 | 不同方法的数据源与梯度系数对比。P_{s}^{ft}代表监督学习数据集的数据分布情况。\pi_{\theta}^{s ft}\pi_{\theta}分别代表在线训练过程中采用的监督学习微调模型与实时策略模型。

图 5 | 模型 DeepSeekMath-Instruct 1.3B 通过多种方法进行过训练,在两项基准测试中的表现优异。

备注:可以看出GRPO效果更明显

直接偏好优化 (DPO):基于成对设计损失函数的框架下,在强化学习领域中,DFO通过对其目标动作空间中的策略分布施加约束,实现了状态价值函数的有效更新.

基于在线拒绝采样的微调方法(Online RFT):相较于RFT而言, Online RFT 采用了SFT模型来进行策略模型的初始化设置,并通过从实时策略模型中获取并利用增强输出来进行微调以进一步优化该方法

在PPO与GRPO中:基于SFT模型构建政策网络基础,并通过实时数据反馈对其优化以提高性能。

我们归纳了这些方法的组成部分,并汇总在表 10 中。关于更详细的推导过程,请参考附录 A.1。

关于数据源的观察 我们将数据源划分为两类:一种是在线采样(Online Sampling),另一种是离线采样(Offline Sampling)。其中,在线采样的训练数据源自实时训练策略模型的探索结果;而离线采样的训练数据源自初始 SFT 模型的采样结果。RFT 和 DPO 采用了离线风格;而在线 RFT 和 GRPO 则采用了在线风格。

如图 5 所示,在两项基准测试中在线 RFT 显现出显著的优势

我们从梯度系数的角度观察该算法如何将奖励信号转换为用于更新模型参数的指标。在实验过程中,我们采用两种分类方法:一种是基于答案是否正确定义的"规则"类别;另一种是用于评估每个响应质量的具体指标即"模型"部分。这些评价标准将作为训练数据的基础,其中包含大量依据真实回答质量而生成的例子数据。对比结果显示,GRPO算法特别关注于根据奖励评估系统的反馈调整其梯度计算权重这使得算法能够根据不同回答强度实施差异化的强化学习机制和惩罚策略;相反地,线上RFT方法缺乏这种灵活性;它不仅不惩罚错误的回答结果,并且对所有正确回答给予相同的强化力度

如图5所示,在线RFT已被GRPO超越,并展现出调整正负梯度系数的有效性;进一步地,在现有RFT方法的基础上运用GRPO+PS模型能够超越GRPO+OS方案;此外我们深入研究了迭代RL方法经历了两个完整的迭代周期;如图6所示我们在实验中发现该方法显著提升了性能尤其在初始阶段表现更为突出

5.2.2. 强化学习为何有效?

本文利用指令微调数据中的样本子集开展强化学习研究,并在此基础上展现出显著的性能提升效果。为进一步解析强化学习机制的有效性,在两个典型基准数据集上系统测试了Instruct(简称)与RL模型在Pass@K和Maj@K指标上的准确率表现。实验结果显示,在图7所示的数据可视化中可以看出,在Maj@K任务中RL展现出更强的优势表现;然而在Pass@K指标上两者的性能并无明显差异。这些实证结果表明,在TopK响应质量方面强化学习确实有所提升作用;这种改进主要源于对输出分布的关注度更高而非单纯的增强基础能力表现。类似地,在Wang等人的2023a研究中发现SFT模型推理过程存在偏差问题;通过采用一系列策略协同作用(Song等人的2023年研究;Wang等人的2023a研究;Yuan等人的2023b研究)可有效提高SFT模型的整体推理能力

5.2.3. 如何实现更有效的强化学习?

我们通过实证表明,在数学推理任务中强化学习展现出显著的效果。此外,我们构建了一个体系框架来系统性地解析不同类型的代表性训练方法。在该框架下,各类方法都被被视为直接或简化形式的强化学习技术。具体而言,在公式5的基础上展示了三个关键组成部分:数据源、算法以及奖励函数,并基于此提出了若干未来研究方向

数据来源 数据来源是所有训练方法的基础材料。在强化学习框架下 我们特别将数据来源定义为从策略模型中提取得到的未标注问题及其输出结果。本文研究中 我们主要采用了指令微调阶段的问题 并运用基本核采样方法来进行输出抽样。我们推测 这可能是我们强化学习管道仅提升Maj@K性能的主要原因之一。未来 我们将探索该强化学习管道在分布外提示下的应用 同时结合先进的解码策略 如基于树搜索的方法(Yao等人 2023)。此外 有效的推理技术(Kwon等人 2023 Leviathan等人 2023 Xia等人 2023-2024)对策略模型的探索效率发挥着关键作用

该算法通过处理数据和奖励信号来更新模型参数的梯度系数

奖励函数 是强化学习中的训练信号来源。
在强化学习中,默认的做法是使用神经网络来建模 reward 函数。
我们认为当前 reward 模型研究主要集中在以下几个关键方向:
1. 提升 reward 模型在分布外问题上的表现。
2. 通过量化方法捕捉到 reward model 的不确定性。
3. 我们提出了一种基于细粒度反馈机制的新架构设计,
其核心目标是为推理过程提供更丰富的训练信号。

6. 结论、局限性和未来工作

我们开发出了DeepSeekMath这一系统,在竞赛级MATH基准测试中实现了超越所有开源模型的性能,并已接近封闭模型的水平表现。该系统基于DeepSeek-Coder-v1.5预训练参数展开设计,并经过长时间进行微调训练的过程完成构建。其中其核心数据来源为来自Common Crawl平台收集的120亿级别数学知识库资源,并包含1200亿级别的数学token作为重要组成成分。通过广泛的消融研究发现,在线获取高质量数学数据资源具备巨大的潜力性特征表现较为明显;而与之相比arXiv平台资源可能并未达到预期效果支持预期假设。为此我们提出了一种新型组相对策略优化方法(Group Relative Policy Optimization, GRPO),这种创新性方法作为Proximal Policy Optimization(PPO)框架体系下的新变种形式具有显著的技术创新价值;其显著特点是可以有效提升系统的数学推理能力同时大幅降低内存占用水平需求。实验结果表明即使采用7B参数规模构建的DeepSeekMath-Instruct版本系统依然能够在各项评测指标上取得优异成绩;而关键点在于GRPO方法依然展现出显著的有效性优势表现稳定可靠;此外我们还建立了一个统一的知识范式框架用于整合分析一系列相关技术方法并得出了若干更具参考价值的方向建议

尽管 DeepSeekMath 在量化推理基准测试中展现了令人 impressive 的成绩(第 5.2.1 节),但在几何与定理证明这一关键领域仍显不足。例如,在我们的预研实验中发现该模型无法有效处理与三角形和椭圆相关的数学问题(第 5.2.2 节),这可能源于预训练与微调阶段数据选取上的偏差(第 5.2.3 节)。此外,在小样本学习能力方面 DeepSeekMath 的表现略逊于 GPT-4(第 5.2.4 节)。值得注意的是虽然 GPT-4 可通过少样本输入显著提升性能(第 5.2.4 节)但在零样本及小样本评估指标上两者的性能表现相似(第 5.2.5 节)。未来我们将重点对现有的工程数据选择管道进行优化升级(第 5.2.6 节)以期构建更为丰富的训练语料库。同时我们也将在后续研究中探索更有效的 LLMs 强化学习框架(第 5.2.7 节)

全部评论 (0)

还没有任何评论哟~