【大模型】【DeepSeek】DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
DeepSeek-R1:通过强化学习激励大语言模型的推理能力

0.论文摘要
我们推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练而成的模型,没有经过监督微调(SFT)作为初步步骤,展现了卓越的推理能力。通过RL,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。然而,它也面临诸如可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能,我们推出了DeepSeek-R1,它在RL之前引入了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama从DeepSeek-R1蒸馏出的六个密集模型(1.5B、7B、8B、14B、32B、70B)。
1.引言
近年来,大型语言模型(LLMs)正在经历快速的迭代和演进(Anthropic, 2024;Google, 2024;OpenAI, 2024a),逐步缩小与人工通用智能(AGI)之间的差距。
最近,后训练已成为完整训练流程中的重要组成部分。研究表明,它能够提升推理任务的准确性,与社会价值观保持一致,并适应用户偏好,同时相对于预训练所需的计算资源相对较少。在推理能力方面,OpenAI的o1系列模型(OpenAI, 2024b)首次通过增加Chain-of-Thought推理过程的长度引入了推理时扩展。这种方法在数学、编程和科学推理等各种任务中取得了显著改进。然而,有效的测试时扩展仍然是研究界面临的一个开放性问题。此前的一些研究探索了多种方法,包括基于过程的奖励模型(Lightman等,2023;Uesato等,2022;Wang等,2023)、强化学习(Kumar等,2024)以及蒙特卡洛树搜索和束搜索等搜索算法(Feng等,2024;Trinh等,2024;Xin等,2024)。然而,这些方法均未达到与OpenAI的o1系列模型相媲美的通用推理性能。
在本文中,我们迈出了利用纯强化学习(RL)提升语言模型推理能力的第一步。我们的目标是探索大型语言模型(LLMs)在没有任何监督数据的情况下发展推理能力的潜力,重点关注它们通过纯RL过程的自我进化。具体而言,我们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Shao等,2024)作为RL框架,以提升模型在推理任务中的表现。在训练过程中,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为。经过数千步RL训练后,DeepSeek-R1-Zero在推理基准测试中表现出卓越的性能。例如,在AIME 2024上的pass@1得分从15.6%提升至71.0%,而通过多数投票,得分进一步提高至86.7%,与OpenAI-o1-0912的表现相当。
然而,DeepSeek-R1-Zero面临诸如可读性差和语言混杂等挑战。为了解决这些问题并进一步提升推理性能,我们引入了DeepSeek-R1,它结合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集了数千条冷启动数据,用于微调DeepSeek-V3-Base模型。随后,我们进行类似DeepSeek-R1Zero的推理导向强化学习(RL)。在RL过程接近收敛时,我们通过对RL检查点进行拒绝采样,结合来自DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据,生成新的SFT数据,然后重新训练DeepSeek-V3-Base模型。在使用新数据微调后,检查点会经历额外的RL过程,考虑所有场景的提示。经过这些步骤,我们获得了称为DeepSeek-R1的检查点,其性能与OpenAI-o1-1217相当。
我们进一步探索了从DeepSeek-R1到更小规模稠密模型的蒸馏过程。以Qwen2.5-32B(Qwen, 2024b)为基础模型,直接从DeepSeek-R1进行蒸馏的效果优于在其上应用强化学习。这表明,更大规模基础模型所发现的推理模式对于提升推理能力至关重要。我们开源了蒸馏后的Qwen和Llama(Dubey等, 2024)系列模型。值得注意的是,我们蒸馏的14B模型大幅超越了当前最先进的开源模型QwQ-32B-Preview(Qwen, 2024a),而蒸馏的32B和70B模型则在稠密模型的推理基准测试中创下了新纪录。
1.1 贡献
后训练:基于大模型的强化学习
• 我们直接将强化学习(RL)应用于基础模型,而不依赖于监督微调(SFT)作为初步步骤。这种方法使模型能够探索链式思维(CoT)以解决复杂问题,从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长链式思维等能力,标志着研究领域的一个重要里程碑。值得注意的是,这是首次通过纯强化学习验证大语言模型(LLM)推理能力的研究,无需依赖监督微调。这一突破为该领域的未来发展铺平了道路。
• 我们介绍了开发DeepSeek-R1的流程。该流程包含两个强化学习阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个监督微调阶段,作为模型推理和非推理能力的种子。我们相信,这一流程将通过创建更好的模型为行业带来益处。
蒸馏:小模型也能强大
• 我们展示了将大模型的推理模式提炼到小模型中,相比通过强化学习在小模型上发现的推理模式,能够带来更好的性能。开源的DeepSeek-R1及其API将为研究社区在未来提炼更好的小模型提供帮助。
• 利用DeepSeek-R1生成的推理数据,我们对研究社区中广泛使用的多个密集模型进行了微调。评估结果表明,提炼后的小型密集模型在基准测试中表现优异。DeepSeekR1-Distill-Qwen-7B在AIME 2024上达到了55.5%,超越了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上获得了72.6%的分数,在MATH-500上获得了94.3%,在LiveCodeBench上获得了57.2%。这些结果显著超越了之前的开源模型,并与o1-mini相当。我们向社区开源了基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B的提炼模型检查点。
1.2. 评估结果摘要
• 推理任务:(1) DeepSeek-R1 在 AIME 2024 上取得了 79.8% 的 Pass@1 分数,略微超过 OpenAI-o1-1217。在 MATH-500 上,它获得了 97.3% 的优异成绩,与 OpenAI-o1-1217 表现相当,并显著优于其他模型。(2) 在编码相关任务中,DeepSeek-R1 在代码竞赛任务中展现了专家水平,其在 Codeforces 上获得了 2,029 的 Elo 评分,超过了 96.3% 的人类参赛者。在工程相关任务中,DeepSeek-R1 的表现略优于 DeepSeek-V3,这有助于开发者在实际任务中取得更好的效果。
• 知识:在 MMLU、MMLU-Pro 和 GPQA Diamond 等基准测试中,DeepSeek-R1 取得了出色的成绩,显著优于 DeepSeek-V3,分别在 MMLU 上获得 90.8%、在 MMLU-Pro 上获得 84.0%、在 GPQA Diamond 上获得 71.5% 的分数。虽然在这些基准测试中其表现略低于 OpenAI-o1-1217,但 DeepSeek-R1 超越了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准测试 SimpleQA 上,DeepSeek-R1 优于 DeepSeek-V3,展示了其处理基于事实查询的能力。类似趋势也出现在 OpenAI-o1 在该基准测试中超越 4o 的情况。
• 其他:DeepSeek-R1 在广泛的任务中也表现出色,包括创意写作、通用问答、编辑、摘要等。它在 AlpacaEval 2.0 上获得了 87.6% 的长度控制胜率,在 ArenaHard 上获得了 92.3% 的胜率,展示了其在智能处理非考试导向查询方面的强大能力。此外,DeepSeek-R1 在需要长上下文理解的任务中表现优异,在长上下文基准测试中大幅超越 DeepSeek-V3。

2.方法
2.1 概述
先前的研究在很大程度上依赖于大量的监督数据来提升模型性能。在本研究中,我们证明,即使不使用监督微调(SFT)作为冷启动,通过大规模强化学习(RL)也可以显著提升推理能力。此外,加入少量冷启动数据可以进一步提升性能。在接下来的章节中,我们将介绍:(1)DeepSeek-R1-Zero,它直接将RL应用于基础模型,不使用任何SFT数据;(2)DeepSeek-R1,它从经过数千个长链思维(CoT)示例微调的检查点开始应用RL;(3)将DeepSeek-R1的推理能力蒸馏到小型密集模型中。
2.2 DeepSeek-R1-Zero:基于基础模型的强化学习
强化学习在推理任务中展现了显著的有效性,正如我们之前的工作所证明的(Shao等,2024;Wang等,2023)。然而,这些工作严重依赖于监督数据,而收集这些数据非常耗时。在本节中,我们探索了大型语言模型(LLMs)在没有监督数据的情况下发展推理能力的潜力,重点关注其通过纯强化学习过程的自我进化。我们首先简要概述了我们的强化学习算法,随后展示了一些令人兴奋的结果,并希望这能为社区提供有价值的见解。
2.2.1. 强化学习算法
组相对策略优化
为了节省强化学习的训练成本,我们采用了组相对策略优化(GRPO)(Shao等,2024),该方法摒弃了通常与策略模型大小相同的评论家模型,转而从组得分中估计基线。具体来说,对于每个问题q,GRPO从旧策略π_{θ_{old}}中采样一组输出\{o_1, o_2, · · · , o_G\},然后通过最大化以下目标来优化策略模型π_θ:

其中ε和β是超参数,A_i是优势值,通过使用与每组输出对应的一组奖励\{r_1, r_2, . . . , r_G\}计算得出:

2.2.2. 奖励建模
奖励是训练信号的来源,它决定了强化学习的优化方向。为了训练DeepSeek-R1-Zero,我们采用了一种基于规则的奖励系统,主要包括两种类型的奖励:
• 准确性奖励:准确性奖励模型评估回答是否正确。例如,在具有确定性结果的数学问题中,模型需要以指定格式(例如在方框内)提供最终答案,从而能够基于规则可靠地验证正确性。同样,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
• 格式奖励:除了准确性奖励模型外,我们还采用格式奖励模型,强制模型将其思考过程放在“”和“”标签之间。
在开发DeepSeek-R1-Zero时,我们没有采用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会遭遇奖励欺骗问题,且重新训练奖励模型需要额外的训练资源,这会使整个训练流程变得更加复杂。
2.2.3. 训练模板
为了训练DeepSeek-R1-Zero,我们首先设计了一个简单的模板,引导基础模型遵循我们指定的指令。如表1所示,该模板要求DeepSeek-R1-Zero先生成推理过程,然后给出最终答案。我们有意将约束限制在这种结构格式上,避免任何内容上的偏见——例如强制进行反思性推理或推广特定的问题解决策略——以确保我们能够准确观察模型在强化学习过程中的自然进展。

2.2.4. DeepSeek-R1-Zero的性能、自我进化过程与顿悟时刻
DeepSeek-R1-Zero的性能表现
图2展示了DeepSeek-R1-Zero在AIME 2024基准测试上的性能轨迹,贯穿整个强化学习(RL)训练过程。如图所示,随着RL训练的推进,DeepSeek-R1-Zero表现出稳定且持续的提升。值得注意的是,其在AIME 2024上的平均pass@1分数显著增加,从最初的15.6%跃升至令人印象深刻的71.0%,达到了与OpenAI-o1-0912相当的性能水平。这一显著提升凸显了我们的RL算法在优化模型性能方面的有效性。

图2 | DeepSeek-R1-Zero在训练过程中的AIME准确率。对于每个问题,我们采样16个回答并计算整体平均准确率,以确保评估的稳定性。
表2对DeepSeek-R1-Zero和OpenAI的o1-0912模型在多种推理相关基准上进行了对比分析。研究结果表明,强化学习(RL)使DeepSeek-R1-Zero能够在无需任何监督微调数据的情况下获得强大的推理能力。这是一项值得注意的成就,因为它突显了该模型仅通过强化学习就能有效学习和泛化的能力。此外,通过应用多数投票,DeepSeek-R1-Zero的性能可以进一步提升。例如,在AIME基准上使用多数投票时,DeepSeek-R1-Zero的表现从71.0%提升至86.7%,从而超越了OpenAI-o1-0912的表现。DeepSeek-R1-Zero在有无多数投票的情况下均能取得如此有竞争力的表现,突显了其强大的基础能力以及在推理任务中进一步发展的潜力。

DeepSeek-R1-Zero的自我进化过程
DeepSeek-R1-Zero的自我进化过程展示了RL如何驱动模型自主提升其推理能力。通过直接从基础模型启动RL,我们可以在不受监督微调阶段影响的情况下,密切监控模型的进展。这种方法清晰地展示了模型随时间的演变,特别是在处理复杂推理任务方面的能力提升。
如图3所示,DeepSeek-R1-Zero的思考时间在整个训练过程中持续提升。这种提升并非来自外部调整,而是模型内在的发展。DeepSeek-R1-Zero通过利用延长的测试时间计算,自然地获得了解决日益复杂推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和完善其思维过程。

图3 | DeepSeek-R1-Zero在强化学习过程中对训练集的平均响应长度。DeepSeek-R1-Zero自然地学会了通过更多的思考时间来解决推理任务。
这种自我进化的一个显著特点是,随着测试时计算量的增加,复杂行为会自发涌现。例如,反思行为——模型重新审视并评估其之前的步骤——以及探索解决问题的替代方法,这些行为并非显式编程,而是模型与强化学习环境交互的结果。这种自发的发展显著提升了DeepSeek-R1-Zero的推理能力,使其能够更高效、更准确地应对更具挑战性的任务。
DeepSeek-R1-Zero的“顿悟时刻”
在DeepSeek-R1-Zero的训练过程中,观察到一个特别有趣的现象,即“顿悟时刻”的出现。如表3所示,这一时刻出现在模型的中间版本中。在这一阶段,DeepSeek-R1-Zero学会了通过重新评估其初始方法,为问题分配更多的思考时间。这种行为不仅证明了模型推理能力的提升,也是强化学习如何带来意外且复杂结果的一个引人入胜的例证。

表3 | DeepSeek-R1-Zero中间版本的一个有趣的“顿悟时刻”。模型学会了以拟人化的语气重新思考。这也是我们的一个顿悟时刻,让我们见证了强化学习的力量与美感。
这一刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。它突显了强化学习的强大与美妙:我们无需明确教导模型如何解决问题,只需提供正确的激励,它便能自主发展出高级的问题解决策略。这一“顿悟时刻”有力地提醒了强化学习在解锁人工智能系统新层次潜力方面的可能性,为未来更加自主和自适应的模型铺平了道路。
DeepSeek-R1-Zero的缺点
尽管DeepSeek-R1-Zero展现出强大的推理能力,并自主发展出意想不到且强大的推理行为,但它仍面临一些问题。例如,DeepSeek-R1-Zero在处理可读性差和语言混杂等挑战时表现不佳。为了使推理过程更具可读性并与开放社区分享,我们探索了DeepSeek-R1,这是一种利用人类友好冷启动数据进行强化学习的方法。
2.3. DeepSeek-R1:冷启动强化学习
受到DeepSeek-R1-Zero令人鼓舞的结果启发,两个自然的问题随之而来:1)通过引入少量高质量数据作为冷启动,能否进一步提升推理性能或加速收敛?2)如何训练一个用户友好的模型,不仅能生成清晰连贯的思维链(CoT),还能展现出强大的通用能力?为了解决这些问题,我们设计了一个训练DeepSeek-R1的流程。该流程包含四个阶段,具体如下。
2.3.1 冷启动
与DeepSeek-R1-Zero不同,为了防止从基础模型开始的强化学习训练在早期不稳定冷启动阶段出现问题,对于DeepSeek-R1,我们构建并收集了少量长链思维(CoT)数据,以微调模型作为初始的强化学习演员。为了收集这些数据,我们探索了几种方法:使用带有长链思维示例的少样本提示,直接提示模型生成带有反思和验证的详细答案,以可读格式收集DeepSeek-R1Zero的输出,并通过人工标注员进行后处理以优化结果。
在本工作中,我们收集了数千条冷启动数据,用于微调DeepSeek-V3-Base,作为强化学习的起点。与DeepSeek-R1-Zero相比,冷启动数据的优势包括:
• 可读性:DeepSeek-R1-Zero的一个关键局限是其内容通常不适合阅读。响应可能混合多种语言,或缺乏Markdown格式来为用户突出答案。相比之下,在为DeepSeek-R1创建冷启动数据时,我们设计了一种可读的模式,包括在每段响应末尾添加摘要,并过滤掉对读者不友好的响应。在此,我们将输出格式定义为|special_token|<推理过程>|special_token|<摘要>,其中推理过程是查询的思维链(CoT),摘要用于总结推理结果。
• 潜力:通过精心设计带有先验知识的冷启动数据模式,我们观察到其性能优于DeepSeek-R1-Zero。我们认为迭代训练是推理模型的更好方式。
2.3.2. 面向推理的强化学习
在对冷启动数据进行微调后,我们对DeepSeek-V3-Base模型应用了与DeepSeek-R1-Zero相同的大规模强化学习训练过程。这一阶段的重点是增强模型的推理能力,特别是在编码、数学、科学和逻辑推理等涉及明确问题与清晰解决方案的推理密集型任务中。在训练过程中,我们观察到CoT(思维链)经常出现语言混合现象,尤其是在RL(强化学习)提示涉及多种语言时。为了缓解语言混合问题,我们在RL训练中引入了语言一致性奖励,该奖励通过计算CoT中目标语言词汇的比例来衡量。尽管消融实验表明,这种对齐会导致模型性能略有下降,但该奖励符合人类偏好,使其更具可读性。最后,我们将推理任务的准确性与语言一致性奖励直接相加,形成最终奖励。随后,我们在微调后的模型上应用RL训练,直到其在推理任务上达到收敛。
2.3.3. 拒绝采样与监督微调
当面向推理的强化学习收敛时,我们利用生成的检查点来收集下一轮的监督微调(SFT)数据。与最初主要关注推理的冷启动数据不同,这一阶段会引入其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。具体而言,我们按照以下方式生成数据并对模型进行微调。
推理数据
我们通过从上述强化学习训练的检查点进行拒绝采样,精心策划推理提示并生成推理轨迹。在前一阶段,我们仅包含可以使用基于规则的奖励进行评估的数据。然而,在这一阶段,我们通过引入更多数据来扩展数据集,其中一些数据使用生成式奖励模型,将真实值和模型预测输入DeepSeek-V3进行判断。此外,由于模型输出有时混乱且难以阅读,我们过滤掉了混合语言、长段落和代码块的思维链。对于每个提示,我们采样多个响应,并仅保留正确的答案。总共,我们收集了约60万条与推理相关的训练样本。
非推理数据
对于非推理类数据,如写作、事实问答、自我认知和翻译,我们采用DeepSeek-V3流程,并复用部分DeepSeek-V3的SFT数据集。对于某些非推理任务,我们调用DeepSeek-V3在回答问题前生成潜在的思维链。然而,对于较简单的查询,例如“你好”,我们不会在响应中提供思维链。最终,我们收集了大约20万个与推理无关的训练样本。我们使用上述约80万个样本的精选数据集对DeepSeek-V3-Base进行了两个周期的微调。
2.3.4. 适用于所有场景的强化学习
为了进一步使模型与人类偏好对齐,我们实施了第二阶段的强化学习,旨在提高模型的帮助性和无害性,同时提升其推理能力。具体而言,我们结合奖励信号和多样化的提示分布来训练模型。对于推理数据,我们遵循DeepSeek-R1-Zero中概述的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于通用数据,我们采用奖励模型来捕捉复杂和微妙场景中的人类偏好。我们在DeepSeek-V3流程的基础上,采用了类似的偏好对和训练提示分布。在帮助性方面,我们专注于最终总结,确保评估强调响应对用户的实用性和相关性,同时尽量减少对底层推理过程的干扰。在无害性方面,我们评估模型的整个响应,包括推理过程和总结,以识别和缓解生成过程中可能出现的任何潜在风险、偏见或有害内容。最终,通过整合奖励信号和多样化的数据分布,我们能够训练出一个在推理方面表现出色,同时优先考虑帮助性和无害性的模型。
2.4. 蒸馏:赋予小模型推理能力
为了为更高效的小模型配备类似DeepSeek-R1的推理能力,我们直接使用DeepSeek-R1整理的80万样本对开源模型如Qwen(Qwen, 2024b)和Llama(AI@Meta, 2024)进行了微调,具体细节见§2.3.3。我们的研究结果表明,这种简单的蒸馏方法显著提升了小模型的推理能力。我们在此使用的基础模型包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。我们选择Llama-3.3是因为其推理能力略优于Llama-3.1。
对于蒸馏模型,我们仅应用监督微调(SFT),并未包含强化学习(RL)阶段,尽管引入RL可以显著提升模型性能。我们的主要目标是展示蒸馏技术的有效性,而将RL阶段的探索留给更广泛的研究社区。
3.实验
Benchmarks
我们在MMLU(Hendrycks等,2020)、MMLU-Redux(Gema等,2024)、MMLU-Pro(Wang等,2024)、C-Eval(Huang等,2023)、CMMLU(Li等,2023)、IFEval(Zhou等,2023)、FRAMES(Krishna等,2024)、GPQA Diamond(Rein等,2023)、SimpleQA(OpenAI,2024c)、C-SimpleQA(He等,2024)、SWE-Bench Verified(OpenAI,2024d)、Aider 1、LiveCodeBench(Jain等,2024)(2024-08 – 2025-01)、Codeforces 2、中国高中数学奥林匹克(CNMO 2024)以及美国数学邀请赛2024(AIME 2024)(MAA,2024)上对模型进行了评估。除了标准基准测试外,我们还使用大语言模型(LLMs)作为评判者,在开放式生成任务上评估我们的模型。具体而言,我们遵循AlpacaEval 2.0(Dubois等,2024)和Arena-Hard(Li等,2024)的原始配置,这些配置利用GPT-4-Turbo-1106作为成对比较的评判者。在此过程中,我们仅将最终摘要输入评估,以避免长度偏差。对于蒸馏模型,我们报告了在AIME 2024、MATH-500、GPQA Diamond、Codeforces和LiveCodeBench上的代表性结果。
Evaluation Prompts
在DeepSeek-V3的设置基础上,使用simpleevals框架中的提示对标准基准测试(如MMLU、DROP、GPQA Diamond和SimpleQA)进行评估。对于MMLU-Redux,我们采用Zero-Eval提示格式(Lin, 2024)进行零样本设置。对于MMLU-Pro、C-Eval和CLUE-WSC,由于原始提示为少样本设置,我们略微修改提示以适应零样本设置。少样本中的CoT可能会影响DeepSeek-R1的性能。其他数据集遵循其原始评估协议,并使用其创建者提供的默认提示。对于代码和数学基准测试,HumanEval-Mul数据集涵盖了八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash)。在LiveCodeBench上的模型性能使用CoT格式进行评估,数据收集时间为2024年8月至2025年1月。Codeforces数据集使用10场Div.2比赛的题目以及专家编写的测试用例进行评估,之后计算预期评分和参赛者百分比。SWE-Bench的验证结果通过无代理框架(Xia et al., 2024)获得。与AIDER相关的基准测试使用“diff”格式进行测量。DeepSeek-R1的输出在每个基准测试中最多限制为32,768个标记。
Baselines
我们对多个强大的基线模型进行了全面评估,包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAI-o1-mini和OpenAI-o1-1217。由于在中国大陆访问OpenAI-o1-1217的API较为困难,我们根据官方报告提供了其性能数据。对于蒸馏模型,我们还比较了开源模型QwQ-32B-Preview(Qwen,2024a)。
Evaluation Setup
我们将模型的最大生成长度设置为32,768个标记。我们发现,使用贪婪解码来评估长输出推理模型会导致更高的重复率和不同检查点之间的显著变异性。因此,我们默认采用pass@k评估方法(Chen等,2021),并使用非零温度报告pass@1。具体来说,我们使用采样温度为0.6,top-p值为0.95,为每个问题生成k个响应(通常在4到64之间,取决于测试集的大小)。然后,pass@1的计算公式为

其中,p_i 表示第 i 个响应的正确性。该方法提供了更可靠的性能估计。对于 AIME 2024,我们还报告了使用 64 个样本的共识(多数投票)结果(Wang 等,2022),记为 cons@64。
3.1 DeepSeek-R1评估
在教育导向的知识基准测试中,如MMLU、MMLU-Pro和GPQA Diamond,DeepSeek-R1相较于DeepSeek-V3表现出更优异的性能。这一提升主要归因于在STEM相关问题上准确率的提高,通过大规模强化学习实现了显著进步。此外,DeepSeek-R1在FRAMES这一长上下文依赖的问答任务中表现突出,展示了其强大的文档分析能力。这凸显了推理模型在AI驱动的搜索和数据分析任务中的潜力。在事实性基准测试SimpleQA上,DeepSeek-R1超越了DeepSeek-V3,展示了其处理基于事实的查询的能力。类似趋势也出现在OpenAI-o1在该基准测试上超越GPT-4o的情况。然而,在中文SimpleQA基准测试中,DeepSeek-R1的表现不如DeepSeek-V3,这主要是由于其在安全强化学习后倾向于拒绝回答某些查询。如果没有安全强化学习,DeepSeek-R1的准确率可以超过70%。
DeepSeek-R1在IF-Eval基准测试中也表现出色,该基准旨在评估模型遵循格式指令的能力。这些改进可以归因于在监督微调(SFT)和强化学习(RL)训练的最后阶段加入了指令遵循数据。此外,DeepSeek-R1在AlpacaEval2.0和ArenaHard上也展现了卓越的性能,表明其在写作任务和开放域问答方面的优势。其显著超越DeepSeek-V3的表现,突显了大规模强化学习带来的泛化优势,不仅提升了推理能力,还提高了跨领域的性能。此外,DeepSeek-R1生成的摘要长度简洁,在ArenaHard上平均为689个token,在AlpacaEval 2.0上平均为2,218个字符。这表明DeepSeek-R1在基于GPT的评估中避免了引入长度偏差,进一步巩固了其在多项任务中的稳健性。
在数学任务上,DeepSeek-R1的表现与OpenAI-o1-1217相当,远超其他模型。在编程算法任务中,如LiveCodeBench和Codeforces,也观察到类似的趋势,专注于推理的模型在这些基准测试中占据主导地位。在工程导向的编程任务中,OpenAI-o1-1217在Aider上优于DeepSeek-R1,但在SWE Verified上两者表现相当。我们相信DeepSeek-R1的工程性能将在下一版本中有所提升,因为目前相关的强化学习训练数据仍然非常有限。

3.2 蒸馏模型评估
如表5所示,仅通过蒸馏DeepSeek-R1的输出,高效的DeepSeekR1-7B(即DeepSeek-R1-Distill-Qwen-7B,下文简称类似)便能在各方面超越非推理模型如GPT-4o-0513。DeepSeek-R1-14B在所有评估指标上均超越了QwQ-32BPreview,而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中显著优于o1-mini。这些结果展示了蒸馏的强大潜力。此外,我们发现对这些蒸馏模型应用强化学习(RL)还能带来显著的进一步增益。我们认为这值得进一步探索,因此在此仅展示简单SFT蒸馏模型的结果。

4.讨论
4.1 蒸馏 vs. 强化学习
在第3.2节中,我们可以看到,通过蒸馏DeepSeek-R1,小模型能够取得令人印象深刻的结果。然而,仍然存在一个问题:在没有蒸馏的情况下,模型能否通过论文中讨论的大规模强化学习训练达到类似的性能?
为了回答这个问题,我们对Qwen-32B-Base模型进行了大规模的强化学习训练,使用了数学、代码和STEM数据,训练步数超过10K步,最终得到了DeepSeek-R1-Zero-Qwen-32B。实验结果如表6所示,表明经过大规模强化学习训练的32B基础模型,其性能与QwQ-32B-Preview相当。然而,从DeepSeek-R1蒸馏得到的DeepSeek-R1Distill-Qwen-32B在所有基准测试中的表现均显著优于DeepSeek-R1-Zero-Qwen-32B。

因此,我们可以得出两个结论:首先,将更强大的模型蒸馏到较小的模型中能够取得优异的效果,而依赖本文中提到的大规模强化学习的小模型则需要巨大的计算资源,甚至可能无法达到蒸馏的性能。其次,尽管蒸馏策略既经济又有效,但要突破智能的边界,可能仍然需要更强大的基础模型和更大规模的强化学习。
4.2 失败的尝试
在开发DeepSeek-R1的早期阶段,我们也经历了许多失败和挫折。我们在此分享这些失败的经验,以提供一些见解,但这并不意味着这些方法无法开发出有效的推理模型。
Process Reward Model (PRM)
PRM是一种合理的方法,能够引导模型在解决推理任务时采用更好的策略(Lightman等,2023;Uesato等,2022;Wang等,2023)。然而,在实践中,PRM存在三个主要局限性,可能阻碍其最终成功。首先,在一般推理中明确定义细粒度步骤具有挑战性。其次,判断当前中间步骤是否正确是一项困难的任务。使用模型进行自动标注可能无法得到令人满意的结果,而手动标注则不利于规模化扩展。第三,一旦引入基于模型的PRM,不可避免地会导致奖励作弊(Gao等,2022),而重新训练奖励模型需要额外的训练资源,并使整个训练流程复杂化。总之,尽管PRM在重新排序模型生成的前N个响应或辅助引导搜索方面表现出良好的能力(Snell等,2024),但在我们的大规模强化学习实验中,其优势相较于引入的额外计算开销而言是有限的。
蒙特卡洛树搜索(MCTS)
受AlphaGo(Silver等,2017b)和AlphaZero(Silver等,2017a)的启发,我们探索了使用蒙特卡洛树搜索(MCTS)来增强测试时计算的可扩展性。该方法通过将答案分解为更小的部分,使模型能够系统地探索解空间。为了实现这一点,我们提示模型生成多个标签,这些标签对应于搜索过程中所需的特定推理步骤。在训练过程中,我们首先使用收集的提示,通过由预训练的价值模型引导的MCTS来寻找答案。随后,我们使用生成的问题-答案对来训练演员模型和价值模型,并迭代地优化这一过程。
然而,这种方法在扩大训练规模时遇到了几个挑战。首先,与国际象棋中相对明确的搜索空间不同,令牌生成呈现出一个指数级更大的搜索空间。为了解决这个问题,我们为每个节点设置了最大扩展限制,但这可能导致模型陷入局部最优。其次,价值模型直接影响生成的质量,因为它指导着搜索过程的每一步。训练一个细粒度的价值模型本身就很困难,这使得模型难以迭代改进。尽管AlphaGo的核心成功依赖于通过训练价值模型逐步提升其性能,但由于令牌生成的复杂性,这一原则在我们的设置中难以复制。
总之,尽管MCTS在与预训练的价值模型结合时可以提高推理性能,但通过自我搜索迭代提升模型性能仍然是一个重大挑战。
5.结论、局限性与未来工作
在本工作中,我们分享了通过强化学习提升模型推理能力的探索历程。DeepSeek-R1-Zero 代表了一种不依赖冷启动数据的纯强化学习方法,在多种任务中表现出色。DeepSeek-R1 则更为强大,结合了冷启动数据和迭代式强化学习微调。最终,DeepSeek-R1 在一系列任务中的表现与 OpenAI-o1-1217 相当。
我们进一步探索将推理能力蒸馏到小型密集模型中的方法。我们使用DeepSeek-R1作为教师模型生成了80万个训练样本,并对多个小型密集模型进行了微调。结果令人鼓舞:DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中表现优异,AIME得分为28.9%,MATH得分为83.9%,超越了GPT-4o和Claude-3.5-Sonnet。其他密集模型也取得了显著成果,显著优于基于相同底层检查点的其他指令微调模型。
未来,我们计划在以下方向对DeepSeek-R1进行深入研究。
• 通用能力:目前,DeepSeek-R1在函数调用、多轮对话、复杂角色扮演和JSON输出等任务上的表现不及DeepSeek-V3。接下来,我们计划探索如何利用长链思维(CoT)来提升这些领域的任务表现。
• 语言混合:DeepSeek-R1目前针对中文和英文进行了优化,但在处理其他语言的查询时可能会出现语言混合问题。例如,即使查询语言不是英文或中文,DeepSeek-R1仍可能使用英文进行推理和回答。我们将在未来的更新中解决这一限制。
• 提示工程:在评估DeepSeek-R1时,我们发现它对提示非常敏感。少样本提示(Few-shot prompting)会持续降低其表现。因此,我们建议用户直接描述问题,并在零样本设置(zero-shot setting)中指定输出格式,以获得最佳结果。
• 软件工程任务:由于评估时间较长,影响了强化学习(RL)过程的效率,大规模RL尚未在软件工程任务中得到广泛应用。因此,DeepSeek-R1在软件工程基准测试中并未展现出相对于DeepSeek-V3的巨大提升。未来版本将通过实施软件工程数据的拒绝采样或在RL过程中引入异步评估来提高效率。
