Test-Time Scaling in Large Language Models: A Comprehensive Survey

阅读量：

大型语言模型中的测试时缩放：一份综合调查

简介

大型语言模型（LLM）传统上通过预训练缩放进行改进，包括增加模型参数、训练数据和计算资源。然而，目前正在向测试时缩放（TTS）发生重大转变——在推理期间分配额外的计算资源，以最大化模型性能，而无需更改模型参数。

Qiyuan Zhang 等人撰写的论文“What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models”提供了第一个全面的框架，用于理解和组织 LLM 测试时缩放方法快速发展的格局。
预训练缩放和测试时缩放之间的比较 图 1：预训练缩放方法和测试时缩放方法之间的比较，突出了资源分配、效率、性能潜力和更新速度的差异。

如图 1 所示，虽然预训练缩放侧重于通过更多训练数据和参数来改进模型，但测试时缩放利用现有模型知识在推理期间。这种方法因其资源效率、快速实施和显着的性能改进而受到关注——尤其是对于推理密集型任务。

理解测试时缩放

测试时缩放（TTS）是指在推理期间分配额外的计算资源以增强模型性能而不修改模型参数。作者提出了一个四维分类法来系统地对 TTS 方法进行分类：

缩放什么 ：正在缩放的计算元素
如何缩放 ：用于实施缩放的技术
在哪里缩放 ：应用缩放的领域和任务
缩放得有多好 ：评估缩放有效性的指标

图 2 提供了这些维度的全面分类法：
测试时缩放分类法 图 2：跨四个维度的测试时缩放方法的综合分类法：缩放什么、如何缩放、在哪里缩放以及缩放得有多好。

缩放什么

“什么”维度确定了在推理期间可以缩放的计算元素：

并行缩放

并行缩放涉及同时生成多个独立的输出并选择最佳输出。诸如自洽性之类的方法会生成多个解决方案，并应用多数投票来确定最终答案。

顺序缩放

顺序缩放将复杂问题分解为多个推理步骤，使模型能够逐步解决问题。示例包括思维链 (CoT) 提示，它引导模型在回答之前生成逐步推理。

混合缩放

混合缩放结合了并行方法和顺序方法。例如，思维树在每个步骤生成多个推理路径，并有选择地探索最有希望的路径。

内部缩放

内部缩放涉及在推理期间修改模型的内部机制。这包括诸如 DeepSeek-R1 之类的方法，这些方法进行架构调整或实施专门的解码策略。

图 3 说明了这些不同的缩放方法：
图 3：不同缩放方法（顺序、并行、混合和内部）及其机制的可视化。

如何缩放

“如何”维度涉及用于实现缩放的技术：

调优

调优涉及监督微调或强化学习，以教导模型如何更好地执行缩放。示例包括：

监督微调 ：在高品质推理轨迹上训练模型
强化学习 ：使用奖励模型来指导模型在推理期间的行为

刺激

刺激技术侧重于修改模型的输入，以鼓励更好的推理：

提示策略 ：使用专门的提示，如“让我们逐步思考”来引出推理
解码策略 ：操纵解码过程以控制输出质量
自我重复 ：让模型重新审视并改进自己的输出

验证

验证涉及评估和验证模型的输出：

结果验证 ：检查最终答案的正确性
过程验证 ：评估推理过程的质量

搜索

搜索技术探索多个潜在的推理路径：

树搜索/MCTS ：使用基于树的搜索算法来探索推理空间
束搜索 ：在解码过程中维护多个推理路径

聚合

聚合方法结合多个输出以产生更可靠的答案：

选择：根据某些标准选择最佳输出
融合：结合来自多个输出的信息

在哪里缩放

“在哪里”维度确定了应用测试时缩放的领域和任务：

推理

测试时缩放显示出在推理密集型领域中特别有希望：

数学推理
代码生成
科学推理
游戏策略

通用

除了专门的推理之外，TTS 还应用于：

基本语言任务
代理系统
知识密集型任务
开放式生成
多模态任务

缩放效果如何

“效果如何”维度评估缩放方法的有效性：

准确性

各种性能指标衡量任务成功率的提高。

效率

效率指标评估缩放方法的计算成本，例如令牌使用量和推理时间。

可控性

可控性衡量缩放方法在多大程度上可以被引导到所需的输出。

可扩展性

可扩展性评估性能如何随着计算资源的增加而扩展。

测试时缩放的演变

该论文确定了测试时缩放发展中的关键里程碑，追溯了从早期技术（如链式思考 (CoT)）到高级模型（如 o1 和 R1）的演变。
测试时缩放的演变 图 4：测试时缩放方法的演变，从早期的 CoT 技术到高级的混合和内部缩放方法。

图 5 中提供了各种测试时缩放方法的全面比较：
测试时缩放方法的比较 图 5：各种测试时缩放方法在缩放内容、方式、地点和效果四个维度上的详细比较。

实用部署指南

该调查提供了实施测试时缩放的实用指南：

任务选择 ：TTS 对于受益于结构化思考的推理密集型任务特别有效。

方法选择 :

复制代码

 * 对于数学推理，像思维链这样的顺序缩放方法通常效果很好
 * 对于具有多个解决方案路径的复杂问题，像思维树这样的混合方法可能更可取
 * 像 o1 这样的内部缩放方法提供最先进的性能，但可能需要更多资源

实施技巧 :

复制代码

 * 从提示工程等更简单的技术开始，然后再转向复杂的方法
 * 根据应用程序需求考虑效率与准确性的权衡
 * 实施验证技术以确保可靠性

优化策略 :

复制代码

 * 结合多种缩放方法来处理复杂任务
 * 平衡计算成本与性能提升
 * 考虑缓存中间结果以提高效率

未来方向

该调查确定了几个有希望的研究方向：

进一步缩放 : 探索推理过程中计算缩放的限制，并开发更高效的缩放算法。

阐明技术本质 : 深入理解不同缩放方法的工作原理和原因。

任务泛化 : 将测试时缩放技术扩展到数学推理之外的更广泛的任务范围。

超越有效性 : 针对效率、可控性和鲁棒性等额外维度优化缩放方法。

与预训练集成 : 研究预训练缩放和测试时缩放之间的协同作用。

专用架构 : 设计专门为测试时缩放优化的模型架构。

结论

测试时缩放代表了我们利用大型语言模型方式的一种范式转变，从关注预训练资源转向在推理过程中最大化性能。这份全面的调查通过其四维分类法，为理解测试时缩放方法的多样化格局提供了一个结构化的框架。

对缩放什么、如何缩放、在哪里缩放以及缩放效果如何进行有组织的分类，为比较现有方法和开发新技术奠定了基础。正如 OpenAI 的 o1 和 DeepSeek 的 R1 等模型所展示的那样，测试时缩放已经显着提高了模型的能力，尤其是在推理密集型任务方面。

展望未来，测试时缩放具有进一步提升 LLM 能力的巨大潜力。通过优化推理过程中的计算资源，我们可以继续提高模型性能，而无需与预训练更大的模型相关的巨大计算成本。随着该领域的研究不断发展，我们可以期待更复杂的缩放技术，这些技术将突破语言模型可能实现的界限。

全部评论 (0)

还没有任何评论哟~

Test-Time Scaling in Large Language Models: A Comprehensive Survey

大型语言模型中的测试时缩放：一份综合调查目录简介理解测试时缩放缩放什么如何缩放在哪里缩放缩放得有多好测试时缩放的演变实用部署指南未来方向结论简介大型语言模型（LLM）传统上通...

A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine

本文是LLM系列文章，针对《AComprehensiveSurveyofLargeLanguageModelsandMultimodalLargeLanguageModelsinMedicine》的翻...

Evaluating Large Language Models: A Comprehensive Survey

本文是LLM系列文章，针对《EvaluatingLargeLanguageModels:AComprehensiveSurvey》的翻译。评估大型语言模型：一项综合调查摘要 1引言 2分类和路线图...

A Comprehensive Survey of Accelerated Generation Techniques in Large Language Models

本文是LLM系列文章，针对《AComprehensiveSurveyofAcceleratedGenerationTechniquesinLargeLanguageModels》的翻译。

Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey

本文是LLM系列文章，针对《LargeLanguageModelsandCausalInferenceinCollaboration:A ComprehensiveSurvey》的翻译。

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

本文是LLM系列文章，针对《AComprehensiveSurveyofHallucinationMitigationTechniquesinLargeLanguageModels》的翻译。

Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey

摘要：因果推断通过捕捉变量之间的因果关系，展示了提高自然语言处理（NLP）模型的预测准确性、公平性、鲁棒性和可解释性的潜力。生成性大型语言模型（LLMs）的出现显著影响了各个NLP领域，特别是通过它...

Datasets for Large Language Models: A Comprehensive Survey

本文是LLM系列文章，针对《DatasetsforLargeLanguageModels:AComprehensiveSurvey》的翻译。大型语言模型的数据集：一项综合调查摘要 1引言 2预训练...

Large Language Models on Graphs: A Comprehensive Survey

本文是LLM系列文章，针对《LargeLanguageModelsonGraphs:AComprehensiveSurvey》的翻译。图上的大型语言模型综述摘要 1引言 2定义和背景 3分类和框架...

Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

本文是LLM系列文章，针对《AdvancingTransformerArchitectureinLongContextLargeLanguage Models 在长上下文大型语言模型中推进Transf...

是否确定退出登录?

Test-Time Scaling in Large Language Models: A Comprehensive Survey

大型语言模型中的测试时缩放：一份综合调查

目录

简介

理解测试时缩放

缩放什么

并行缩放

顺序缩放

混合缩放

内部缩放

如何缩放

调优

刺激

验证

搜索

聚合

在哪里缩放

推理

通用

缩放效果如何

准确性

效率

可控性

可扩展性

测试时缩放的演变

实用部署指南

未来方向

结论

全部评论 (0)

相关文章推荐

Test-Time Scaling in Large Language Models: A Comprehensive Survey

A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine

Evaluating Large Language Models: A Comprehensive Survey

A Comprehensive Survey of Accelerated Generation Techniques in Large Language Models

Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey

Datasets for Large Language Models: A Comprehensive Survey

Large Language Models on Graphs: A Comprehensive Survey

Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey