Advertisement

【理论篇】论文解读《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》

阅读量:

您好!我是大F,在潜心研究人工智能算法领域十年后依然初心不改。致力于分享人工智能算法的实用技巧与个人见解,在各大互联网企业的技术岗位积累丰富经验。如果您对AI技术感兴趣,请关注我的公众号《大模型理论和实战》以及《DeepSeek技术解析和实战》,让我们共同探索人工智能技术的前沿与应用前景!


摘要

我们研究生成了一种称为 思维链 的技术——由一系列中间推理步骤构成的系列——以明显增强大型语言模型处理复杂推理任务的能力。特别强调的是我们展示了这种处理能力如何通过一种被命名为 思维链提示 的简便手段得以自然融入足够先进的语言模型体系中,并且在提示部分提供示范性地呈现这些中间推理步骤。

基于三个大型语言模型的实验结果表明,在多种算术、常识及符号推理任务中引入思维链提示策略会带来相当可观的经验增益。具体而言,在仅需借助八个思维链范例引导一个PaLM 540B模型进行训练的情况下,在GSM8K数学文字问题基准测试中即可实现该基准测试下的最高准确率水平,并非次优表现;其性能不仅不低于经过微调优化的GPT-3水平(配备独立验证机制以确保结果可靠性),甚至在此基础上实现了进一步提升

图 1: 思维引导帮助大型语言模型处理涉及复杂算术运算、广泛知识领域以及符号逻辑推理的任务。 清晰展示了思维链推理过程。

1引言

近年来以来,语言模型彻底改变了自然语言处理领域(Peters等人,2018;Devlin等人,2019;Brown等人,2020等文献)。扩大语言模型的规模已被实证证明具有多方面的优势,例如能够显著提高性能与样本利用率(Kaplan等人,2020;Brown等人,2020等文献)。然而,仅通过扩大模型规模难以有效提升在诸如算术、常识与符号推理等关键领域的性能(Rae等人,

本文研究了一种简便方法以释放大型语言模型的推理能力

然而,在理由增强训练与微调方法中均存在局限性。生成大量高质量理由的成本显著高于常规机器学习任务(简单输入-输出对)。此外,在依赖提示的任务中效果欠佳的传统提示方法(如Brown等人2020所用)通常无法显著提升性能(Rae等人2021分析)。在本文中我们将二者的优势相结合以克服各自限制。具体而言我们探讨了语言模型在接收一个由三元组构成的提示时执行少样本提示推理任务的能力:⟨输入 思维链 输出⟩其中 思维链 表示通向最终输出的自然语言推理步骤序列我们将这种方法命名为 思维链提示 。图1展示了示例提示

我们从实证研究的角度对算术、常识和符号推理基准进行了评估,并观察到思维链提示在大多数情况下(有时甚至在极端情况下)显著优于标准提示。图 2 显示了一个典型的结果:在 GSM8K 数学文字问题基准(Cobbe 等人于 2021 年提出)上,在使用 PaLM 540B 的思维链提示下模型取得了显著的优势性能水平。尽管提示方法本身很重要(因为它不需要依赖大型训练数据集),但单个模型检查点仍然可以在不损失通用性的情况下执行多个任务。我们的研究发现大型语言模型能够通过仅利用任务相关的自然语言数据示例来有效地学习输入与输出之间的映射关系(参见图 3)。

2思维链提示

当人们试图解答复杂逻辑问题(如多步数学文字题)时

图 1 展示了一个模型生成其解决问题能力的思维链实例,在这种情况下该思维链可被视为一种解决方案但为了突出其模仿逐步思考过程的特点(尽管这些方案或解释往往出现在最终答案 之后)。(参考 Narang 等人 2020 Wiegreffe 等人 2022 Lampinen 等人 2022 等等)

思维链提示作为一种促进语言模型推理的方法,具有几个吸引人的特性。

  1. 第一, 基础上, 思维链支持模型将多步骤问题拆解为中间环节。
  2. 接着, 在提供了一个可观察的界面后。
  3. 此外, 在应用层面, 思维链推理可用于数学文字问题、常识推理任务以及符号操作任务。
  4. 最终, 通过将思维链序列示例融入少样本提示中, 可以在较大规模的语言模型中激发这种推理能力。

在实证研究中考察思维链提示在算术推理(第3节)、常识推理(第4节)和符号推理(第5节)中的应用效果

3算术推理

我们首先探讨 图 1 中典型的数学问题的形式及其对语言模型算术推理能力的影响。尽管这些看似简单的算术问题对于人类来说并不复杂,但它们被认为是语言模型常常难以完成的任务 (Hendrycks 等人, 2021; Patel 等人, 2021 等等)。值得注意的是,当结合思维链提示时,540B 参数的语言模型在多个任务上的性能接近专门针对这些任务进行微调的语言模型,甚至在具有挑战性的 GSM8K 基准测试中实现了最高水平的表现 (Cobbe 等人, 2021)。

图3:展示算术基础、常识要点以及符号推理原理的⟨输入项、思维过程集合及输出结果⟩实例。特别强调其中的思维过程路径,并在附录 G" 的位置提供详细说明。

3.1实验设置

我们在多个基准测试中探索了针对各种语言模型的思维链提示。

基准测试

标准化提示

所提出的该方法旨在为小样本提示中的每一个示例增添与其相关联的答案的思维链。值得注意的是,默认情况下许多数据集仅提供评估分割这一指标。为此我们特意进行了人工整理构建了八组包含带有思维链提示的小样本示例其中每张图1均展示了典型的一个案例其余详细内容可参考附录表20所述的具体实例这些案例均为未经任何额外优化版本其鲁棒性研究可参考第3.4节以及附录第A.2节的相关内容为了考察这种形式的思维链提示是否能够有效促进一系列数学文字问题的成功推理我们采用了这八组样本来参与所有基准测试除了特别标注外其余包括AQua在内的测试体系均采用了这一方案其中值得注意的是AQua作为多项选择题类型而非自由回答题类型

语言模型。**** 我们对五个大型语言模型进行了评估。 第一个基于GPT-3的InstructGPT模型(Brown等人,2020)包括拥有3.5亿、13亿、67亿和1750亿参数规模的不同版本(Ouyang等人, 2022)。第二个是LaMDA模型(Thoppilan等人, 2022),它包含4.22亿、20亿、80亿、680亿和1370亿参数版本的不同实现。第三个是PaLM项目开发的PaLM系统(Chen等人, 2021),其涵盖80亿、620亿和5400亿参数配置。第四个是UL2 20B规模的UL2架构(Tay等人, 2022),第五个是Codex系列中的CodexLLama(OpenAI API中的实现)。在采样过程中采用贪婪解码策略从各模型中提取样本(尽管后续研究表明通过多轮采样结果投票可提升思维链提示效果Wang等人, 2022a)。对于LaMDA系统,在每个实验均设置五个独立随机种子,并根据示例顺序的不同进行结果计算。由于不同种子间表现差异不大为了提高效率我们统一采用了单个示例顺序的标准计算方式。

3.2结果

图4详细展示了思维链提示的关键结果,在附录中的表2汇总了不同模型集合及其规模与基准条件下的实验结果。三个核心发现包括:研究表明,在较大的模型架构下(Wei等, 2022b),思维链提示能够显著提升系统的推理能力;具体而言,在接近1000亿参数规模的模型中才能观察到明显的性能提升效果;通过定性分析发现,在小规模模型中虽然能够生成流畅但缺乏逻辑性的思维链提示( Wei et al., 2023a),但其整体表现仍然低于标准提示)

除了能够提供高级提示系统外,在更具挑战性的场景下应用这些提示也能带来显著提升。例如,在GSM8K数据集上(这是基线性能最低的数据集),最高版本的GPT和PaLM模型的性能提升了至少一倍以上。另一方面,在MAWPS中的基础测试集SingleOp上(仅需执行单一操作)的应用中,模型的性能提升要么为负数要么非常微小。

第三段落进行了以下改写:
通过 GPT-3 175B 和 PaLM 540B 的思维链提示与之前最高水平技术相比表现出显著的优势,并且传统的最高水平技术通常是基于标记数据集上特定任务模型的微调。
图 4 展示了 PaLM 540B 如何运用思维链提示在 GSM8K SVAMP 和 MAWPS 上达到了领先水平
而在另外两个数据集 AQuA 和 ASDiv 上 PaLM 通过思维链提示达到了领先水平约两个百分点(参考附录中的表 2)

这段改写遵循了以下原则:

  1. 每句话均仅进行了表达方式的变化
  2. 使用了更为具体的表述
  3. 调整了部分句式的结构
  4. 增加了一些连接词使语义更加连贯

为深入解析思维链提示的有效性机制, 研究团队对LaMDA 137B生成的GSM8K思维链进行了系统性分析. 在评估过程中, 我们选取了50组样本进行评估. 其中约46%的案例显示出基本正确的推理过程, 剩余约54%则暴露出严重语义理解偏差或推理逻辑漏洞. 针对这些发现, 进一步的研究工作已展开以期完善模型性能.

3.3消融研究

使用思维链提示观察到的优势引发了一个自然问题,即是否可以通过其他类型的提示来实现相同的性能改进。 图 5 显示了对三种思维链变体的消融研究,如下所述。

尽管仅包含数学公式的提示可能在某些情况下不够完善******(如图 5所示),但这种设计策略仍然有效)。这一发现表明,在GSM8K数据集上仅通过数学公式进行指导并不能充分捕捉到问题的本质(即问题语义的高度复杂性)。然而,在涉及较少推理步骤的任务中(如单步或多步问题),这种设计策略确实能够提升模型性能(如附录[表 6](https://yiyibooks.cn/__trs__/arxiv/2201.11903v6/index.html#A2.T6 "表 6"))。

专注于变量计算。 一个直观的想法是,在复杂问题中将问题拆解为多个部分(即中间符元)。 为了评估变量计算对推理性能的影响, 我们进行了一项实验设置, 其中模型被指示生成仅包含点(...)的形式, 其数量等于解决该问题所需方程式的字符总数. 该变体的表现与基准组相当接近, 这表明单独的变量计算并非成功的关键因素, 并且在通过自然语言表达关键推理步骤方面似乎具有一定的有效性.

回答后的思维链。**** 思维链提示的另一个潜在优势可能是,在预训练期间获得的相关知识中进行更好的访问。 因此,在这种情况下我们考察了另一种配置:即思维链提示仅作为答案之后的补充提供给模型。 这种变体与基准情况表现基本一致,并且表明顺序推理在激活知识之外的因素方面也具有一定的有效性。

3.4思维链的鲁棒性

在评估模型性能的关键考量中, 示例的数量与质量往往具有同等重要的影响作用——具体而言, 调整仅由标注者A提供的基础示例排列顺序, 会导致GPT-3在SST-2任务上的准确率从接近随机水平(54.3%)跃升至当前最先进水平(93.4%)(Zhao等人, 2021)。 在本节的最后一部分, 我们探讨了不同标注者构建思维链的一致性与鲁棒性。 除了前面基于标注者A撰写的思维链实验结果外, 论文另两位合著者(标注者B与C)独立完成了相同少样本示例下的思维链构建工作(如附录H所示)。 此外, 标注者A还提出了一种更为简洁的思维链方案, 其灵感来源于Cobbe等人(2021)所提出的解决方案框架

图 6 展示了该模型在 GSM8K 和 MAWPS 上取得的这些成果(其他数据集的相关消融结果可在附录中找到)。 尽管不同思维链标注之间存在一定程度的差异(如同上所述),但所有提示集合的表现均显著优于基准线。 这一结果表明,在适当应用下(如 Le Scao and Rush, 2021; Reynolds and McDonell, 2021; Zhao et al., 2021 所述),即使仅使用单一语言风格也能获得良好的效果。

为了验证成功生成的思维链提示在其他数据集上的适用性, 我们还通过在独立的数据源中选取了三个包含八个示例的数据集进行实验, 并将这些结果与之前手动编写的样本进行了对比分析. 这些数据来自一个独立的新数据源, 并且该源中的样本都包含了类似的思维链推理过程. 图 6显示, 这些自动生成的提示与我们手动编写的样本表现不相上下, 并且显著优于标准提示.

除了涉及标注者、自主开发的思维链以及多样化的示例之外,在各种语言模型上均显示出良好的鲁棒性之外,在深入研究后我们进一步发现,在基于算术推理的任务提示下,在不同排列顺序及样本量的情况下仍能维持稳定的性能(参见 第 A.2 节)。

4常识推理

尽管思维链专长于处理数学文字题, 但其语言特征则使其广泛应用于常识推理问题.这些问题是基于一般性知识去推演物理现象以及人类行为的交互.常识推理是与世界互动的重要环节, 目前自然语言理解系统仍无法实现这一目标(Talmor 等人, 2021).

基准。

提示。 我们采用了上一节相同的实验配置。 对于CSQA和StrategyQA系统而言,在训练集中随机抽取样本,并自行编写其思维过程以形成少样本案例。 而针对BIG-bench系列任务由于缺乏原始数据集,在评估集范围内选取前十名样本作为少样本案例,并在剩余评估区域展示相关结果。 对于SayCan系统,则基于Ahn等人(2022)研究成果中的训练数据集选取六个案例,并自行撰写相应的解题思路以完成少样本学习任务的验证工作。

结果显示(如图7所示)PaLM在这些任务上表现优异。在所有任务中,模型规模的扩大显著提升了标准提示的有效性;其中尤其以思维链提示的方式在PaLM 540B上展现出最大的提升效果。通过引入思维链提示机制,PaLM 540B相较于其基准版本实现了显著的进步,在StrategyQA测试中准确率从69.4%提升至75.6%。在此领域(如体育理解)的表现尤为突出,在这项测试中PaLM 540B的表现准确率达到95.4%,远高于无辅助知识的普通用户水平84%。

图7应用了思维引导提示以提升语言模型的常识推理能力。具体而言,则采用了PaLM这一特定语言模型。这些数据主要来源于CSQA(Talmor等人于2019年)与StrategyQA(Geva等人于2021年)的研究排行榜。截至本研究启动前的一天(即截至本研究启动前的一天),这些数据仅限于单模型的研究成果列举在表4中

5符号推理

我们最后的实验评估涉及符号推理这一项,在人类看来比较简单却对语言模型而言却具有一些难度。我们发现思维链提示不仅使语言模型能够在标准提示设置中完成那些对符号推理能力有一定难度的任务,并且通过促进长度泛化的能力推断出在较少样本示例中所见不到的更长输入的时间跨度。

任务。

我们使用以下两个玩具任务。

  • 最后一个字母连接。 此任务要求模型连接姓名中单词的最后一个字母(例如, “Amy Brown”“yn” )。 这是一个比第一个字母连接更具挑战性的版本,语言模型已经可以在没有思维链的情况下执行。 3 我们通过随机连接姓名普查数据 (Printable Name Meaning Art | Name Census) 中前一千个常用名字和姓氏来生成完整的姓名。
  • 抛硬币。 此任务要求模型回答在人们翻转或不翻转硬币后,硬币是否仍然正面朝上(例如, “一枚硬币正面朝上。 菲比翻转了硬币。 奥斯瓦尔多没有翻转硬币。 硬币仍然是正面朝上吗?”“否”

基于这些明确构造的符号推理任务

结果

这些域内与域外评估的结果如图8所示,在附录表5中详细列出了数据。其中采用PaLM 540B模型时,在经过思维链提示后可实现接近100%的成功率(值得注意的是标准提示已经成功解决了PaLM 540模型中的硬币翻转问题;尽管LaMDA 137B模型未能解决这一问题)。需要注意的是这些域内评估属于" toy tasks "类型因为它们依赖于少样本示例中的思维链结构已经提供了完美的解决方案;因此模型的任务就是在测试集示例中重复相同的步骤使用现有符号即可完成操作。然而对于小型模型而言仍然存在不足即它们无法对不可见符号进行抽象操作的能力只有在参数规模达到100B时才得以显现。

针对域外评估的情况,在常规提示下这两个任务均未达到预期效果。
基于思维链提示的应用,在一定程度上实现了向上扩展曲线。
从而促进语言模型在更大范围内提升了其生成能力,并超越现有的能力范围。

6讨论

我们在研究思维链提示作为一种简单机制时发现,在大型语言模型中诱导多步推理行为具有显著效果。实验证明,在算术推理任务上使用该提示方式相比消融研究能显著地提升性能表现,并且这一优势适用于不同标注者、示例以及各种语言模型(参见第3部分)。基于常识推理实验的研究表明:这种基于链式推理的语言特性使其能够广泛应用于各种场景(参见第4部分)。此外,在符号推理任务中我们观察到:通过仅提示现有语言模型即可实现有序推广至更长序列长度(参见第5部分)。值得注意的是,在撰写本文过程中我们始终未对任何训练好的语言模型进行微调。

思维链推理作为模型规模的产物而出现,在人工智能研究领域已成为一个重要议题(Wei 等人, 2022b)。对于许多具备平坦扩展曲线的标准提示类推理任务而言, 使用思维链提示会导致显著增加其扩展曲线的增长幅度。研究表明, 思维链提示显著扩大了大型语言模型能够成功执行的任务范围——换句话说, 我们的实验表明, 单靠标准提示只能实现大型语言模型能力的基本下限。这种观察可能涉及解决的问题更多——例如, 当模型规模进一步扩大时, 我们是否能预估出其推理能力将会得到多大的提升?还有哪些新型提示方法能够进一步拓宽语言模型能够解决的任务边界?

至于局限性, 我们首先强调, 尽管类比推理系统成功模仿了人类推理过程, 但这并不能充分解释神经网络是否具备真正的"推理能力", 因此这一问题仍需进一步探讨. 其次, 尽管在小样本场景下, 通过人工辅助类比推理系统进行补充训练的成本相对较低, 但对于微调任务而言, 这种注释成本可能会变得非常高昂(尽管这可以通过合成数据生成或零样本推广来解决). 再者, 推演路径的准确性存在疑虑, 这会导致最终答案可能出现偏差; 提高语言模型的事实推导能力仍是一个待探索的研究方向(Rashkin 等人, 2021;Ye 和 Durrett, 2022;Wiegreffe 等人, 2022 等等). 最后, 类比式推导仅在应用到大规模语言模型时才会出现, 因此其实际应用中的计算资源需求显著增加; 进一步研究可聚焦于如何在更小规模的语言模型中实现类似功能.

7相关工作

这项工作源自许多研究领域的启发,在附录 C 中系统阐述了这些领域。我们具体阐述了两个研究方向及其相关的论文,在本工作中涉及的这些论文可能与本研究最为相关。

主要研究领域是通过中间步骤来解决推理问题。Ling等人(2017)最先提出了一种基于自然语言理由的方法,在解决数学文字题时采用了一系列中间步骤。这种方法与基于形式语言进行推理的研究形成了鲜明的对比(Roy等人, 2015;Chiang和Chen, 2019;Amini等人, 2019;Chen等人, 2019)。在此基础上,Cobbe等人(2021)进一步扩展了相关工作,构建了一个规模更大的数据集,并对预训练语言模型进行了微调训练,而非从零开始进行参数优化。在程序合成领域,Nye等人(2021)则采用了另一种方法:利用语言模型能够通过逐行推断中间计算结果来推导出程序的最终输出,并发现其分步推理方法相较于直接预测最终输出的效果更为显著。

本文也自然地与最近大量关于提示的工作高度相关。 自 Brown 等人(2020)推广少样本提示以来,多种通用方法通过引入自动学习提示、向模型提供指令等方式显著提升了模型的提示能力。 尽管上述研究主要通过扩展输入内容来实现性能提升,在一定程度上拓展了模型处理提示的能力范围;然而我们这项工作聚焦于另一个维度的技术路径:利用思维链这一创新机制来拓展语言模型的输出表达能力。

8结论

我们已对思维链提示进行了深入研究作为一种高效通用技术手段来增强语言模型的能力。通过系统性地考察算术运算符号操作以及常识推理等多个维度我们发现思维链推理展现出一种新型特征即在足够大的模型规模下能够执行原本受线性缩放限制的任务类型。这一发现不仅拓展了现有技术边界也为后续优化语言模型性能提供了新的思路。

参考文献

全部评论 (0)

还没有任何评论哟~