Advertisement

Towards Reasoning in Large Language Models: A Survey

阅读量:

文章目录

  • 项目标题
  • 摘要部分:简述研究的核心内容及目标
  • 引言章节:介绍研究背景及其重要性
  • 推理本质解析:探讨推理的概念与内涵
  • 大型语言模型推理路径探索:深入分析其处理机制
  • 评估其推理能力:系统性地进行能力测试
  • 研究发现及其意义:总结主要成果与价值
  • 反思、讨论与未来方向:总结经验并提出改进策略
  • 结论陈述:明确研究结论并展望未来

题目

大型语言模型中的推理:一项调查

在这里插入图片描述

论文链接:https://arxiv.org/abs/2212.10403 项目GitHub链接:https://github.com/jeffhj/LM-reasoning

摘要

推理构成了人类智能体系的核心组成部分,在解答问题、制定决策以及培养批判性思维等方面发挥着核心作用。近年来,在自然语言处理领域取得了显著进展的同时也展现出强大的应用潜力。值得注意的是,在一定程度上大型语言模型在某种程度上展现了强大的推理能力;然而目前仍不清楚其具体能力究竟多强。本文旨在系统探讨当前大型语言模型(LLM)在推理方面的知识状态与技术发展现状;并详细阐述提升LLM推理技术的方法与路径;同时总结现有研究发现及其意义;最后则提出了未来研究的方向与建议。我们的目标是通过对这一领域的最新发展进行全面梳理与深入分析;并以此激发更多学者对未来研究工作的兴趣与探索欲望。

推理是一种认知过程,在依赖于利用证据、论据以及逻辑来得出结论或进行判断的过程中扮演着重要角色。它在解决数学题等智力活动中扮演着关键角色,并且有助于个人进行决策、解答问题以及培养批判性思维能力。研究领域涵盖心理学(Wason与Johnson-Laird于1972年)、哲学(Passmore于1961年)以及计算机科学(Huth与Ryan于2004年),这些研究对于帮助个人提高决策能力并促进理性思考具有重要意义。

引言

近年来,在大型语言模型领域(包括Brown等人于2020年、Chowdhery等人于2022年、Chung等人于2022年以及OpenAI于2022年等的研究团队)中取得了一系列重要进展

然而,在某些推理任务上表现出色的LLM目前尚不清楚其是否真正执行了推理过程及其实现的程度。例如,Kojima等人(2022)断言,“LLM是一种有效的零样本推理器(第1页)”,而Valmeekam等人(2022)却得出了结论:“即使在常见的规划/推理任务上,LLM也未达到可接受的性能水平,而这些任务对人类而言并无任何障碍(第2页)。”Wei等人(2022b)进一步揭示了这一局限性:“我们认为,尽管思路链模拟了人类推理者的行为模式,但这并不能表明神经网络真正执行了推理过程(第9页)。”因此,在本文中,我们的目标是全面概述这一领域的发展现状,并深入探讨其当前的理解与研究。我们从探讨推理概念入手(§2)。随后,我们将聚焦于LLM中增强或引出推理的技术(§3)、法学硕士中评估推理的方法与基准(§4)以及该领域的主要发现与启示(§5)。最后,我们将反思并讨论该领域的现状与未来发展方向(§6)。

在这里插入图片描述

论文的结构。

什么是推理?

推理是通过逻辑和系统的方法对事物进行思考的过程,并利用证据和过往经验得出结论或做出决定(Wason and Johnson-Laird等学者于1972年发表相关研究;Wason于1968年提出理论;Galotti于1989年深入探讨这一领域;Fagin等学者在2004年提出新观点;Mc Hugh and Way于2018年总结最新成果)。这一过程涉及基于可用信息进行推断、评估论点并得出合乎逻辑的结论。尽管"推理"在文学和社会学中被广泛使用为基本术语,但它本身是一个高度抽象的概念,并涵盖了广泛的内涵。为了帮助读者更好地理解这一概念及其分类,请总结几种主要认可的推理类型:演绎推理。其本质在于基于前提的真实性来得出结论,在这种情况下所得出的结果必须从前提中严格推导而来。因此若前提是真实的,则所得出的结果也必然真实无误。

  • 前提:哺乳动物无一例外地拥有肾脏。
  • 前提:每个鲸鱼都属于哺乳动物家族。
  • 结论:由此可见,每一个鲸鱼都具备拥有肾脏的能力。

归纳推理方法是一种基于观察或证据推导出结论的逻辑分析手段。基于现有证据推导出的结论很可能正确但未必绝对正确;例如:所有的天鹅都是白色的。

  • 观察:任何具有翅膀的生物通常都是鸟类。
  • 观察:我们观察到某种具有翅膀的生物。
  • 结论:这种生物很可能属于鸟类。

溯因推理是一种基于观察得出结论的推理方法。
溯因推理是一种通过最佳解释给定观察集合得出结论的推理方式。
其结论是基于现有证据最有可能做出的解释。
例如:

  • 观察结果表明:车辆无法正常运行,并在发动机舱内发现一滴液体。
    • 结论:最可能的原因是散热器出现漏水现象。

除了归纳推理之外, 其他类型的推理涉及类比推理, 即通过比较两个事物或现象来推导结论; 因果推断, 即识别事件或现象之间的因果关系及其影响; 概率评估, 即基于结果的可能性或概率来进行决策; 以及形式逻辑与非形式认知模式之间的区别。形式逻辑是一种遵循严格规则和程序的系统化过程, 常用于数学证明和逻辑分析; 而非形式认知则依赖于直觉、经验和常识, 常用于日常决策。前者具有更高的条理性与可靠性, 后者则更具灵活性与适应性, 但可能缺乏系统性支持。参考Galotti (1989) 和Bronkhorst等人(2020) 的研究, 可以更深入地理解这两种不同思维模式的区别与应用

基于语言模型的推演概念已有一段时间

走向大型语言模型中的推理

多步骤推理常被视为语言模型和其他 NLP 模型的主要缺点(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。研究表明,在一定规模的语言模型中可能会出现这种能力的表现形式(Wei et al., 该研究涉及具有超过1e+10参数的大规模模型)。为了聚焦于改善现有小规模模型如GPT-3等大型语言模型(LLM)中的推理能力这一主题,在本文中我们将主要关注如何优化和提取 GPT-3 和 PaLM 这类 LLM 中"推理"技术路线的关键要素。

全监督微调方法在探讨大型语言模型推理机制时具有重要应用价值。值得注意的是,在现有研究中基于特定数据集的全监督微调研究旨在优化小型语言模型的推理能力。例如,Rajani等(2019年)针对预训练GPT-2(Radford等,2018年)这一基准架构,采用了基于解释性训练生成预测理由的方法,并证实该方法在常识性问答任务中取得了显著成效(Talmor等,2019年)。此外,Talmor等(2020年)进一步将RoBERTa(Liu等,2019年)应用于隐式预训练知识与显式自由文本结合的学习框架下进行推理研究,Hendrycks等(2021)则通过生成分步解决方案的方法评估了预训练语言模型在竞赛数学问题上的应用效果。

Nye等人(2022)开发了一种语言模型来处理复杂推理过程,并将其应用于程序合成与执行。他们所采用的方法是构建所谓的"便笺簿"——即中间计算阶段与最终答案之间的接口。为了深入了解这一领域的发展状况,请读者参考Helwe等人(2021)以及Bhargava与Ng(2022)的相关研究综述。在完全监督的微调过程中存在两大主要缺陷:其一,在构建包含明确推理的数据集时面临巨大挑战;其二,在特定数据集上进行训练限制了其在特定领域的应用能力,并导致模型过分依赖于训练数据中的人工产物而非真实的推理机制来进行预测。

提示与情境学习作为提示与场景学习,在大型语言模型领域得到了广泛应用。例如如GPT-3(由Brown团队等于2020年提出),它通过场景学习展示了优异的基于少量样本的能力。这些问题可以通过⟨输入、输出⟩样本来辅助解决,并且通常会结合隐性或显性的'推理'机制潜在地解决了问题。然而研究表明,在涉及多步骤推理的任务中仍表现出不足(Bommasani团队等于2021年;Rae团队等于2021年;Valmeekam团队等于2022年)。这可能源于对这些模型功能全面探索的缺失

通过引导LLM生成推理路径来代替直接给出答案是一种有效的方法。为此我们可以指导LLM明确构建推理路径。一种常用方法是基于Wei等人(2022b)的研究提出的思路链提示系统。该系统通过在LLM的输入提示中融入具体的步骤说明例如在示例提示中⟨输入⟩部分将被替换为⟨输入、步骤说明、输出⟩三元组的形式(如图2所示)。例如在一个算术问题的解决过程中⟨输入⟩部分将被替换为⟨输入、步骤说明、输出⟩三元组的形式(如图2所示)。例如对于"Roger有5个网球他又买了2罐网球每罐有3个网球他现在有多少个网球?"这个问题⟨输入⟩部分将被替换为"Roger一开始有5个球。每罐有3个网球共买了2罐因此共有6个网球加上之前的5个球总共11个网球"这样的描述;⟨输出⟩部分则给出最终的答案即'11'。通过这种方式模型将学会按照特定逻辑推导出结果实验数据显示这种方法显著提升了LLM在少样本学习任务中的性能表现甚至在某些情况下达到了令人惊叹的效果

文献探讨了多种思路链提示方案的形式各异,并可应用于特定问题的解决。其中Kojima等人(2022)提出Zero-shot-CoT方案,在LLM输入后仅需短语"让我们一步一步思考"即可引出推理过程;Madaan等研究者(2022年)和Gao等研究者(2022年)则通过使用代码训练的LLM模型,在推理任务上取得了显著效果;此外Chen等人(包括提出Codex模型的Chen et al, 2021)也进行了相关探索;Wang等人则提出了迭代式的思路链提示方法;He等人则尝试在思路链中融入外部知识以提升推理精度

在思路链之前的研究中(如Nye等人(2022)),他们还采用了名为"scratchpads"的中间计算方法来提升语言模型在微调与少样本学习中的推理能力,并特别重视程序性思维的研究。Shi等人(2022)则提出了三种不同的思路链条应用方法:一是利用母语中的自然思路链条;二是利用英语中的固定式思路链条(不论输入问题是何种语言);三是将问题先进行英译处理后再生成英语中的思路链条。Chen(2022)将这种路径依赖性的思维模式应用到了基于表格的数据推理任务中,并发现仅凭一个训练样例就可获得良好的推理效果。Prystawski等人(2019)通过实证研究证实了这种路径依赖性的思维模式对于隐喻语义选择能力的提升作用。研究者们成功地将这种路径依赖性的思维链条应用到多模态科学问题求解中去并取得了显著成效

在这里插入图片描述

图 2:思路链提示和理性工程的图示,其中星号(*)表示要解决的目标问题。

原理细节化旨在构建和开发能够更有效于LLM推理的原理示例。Fu等(2022b)提出了一种基于复杂性提示的方法,在生成具有更多推理步骤的原理方面表现突出。他们的实验结果表明,在LLM性能随着提示复杂性增加而显著提升的情况下获得了明显的效果。同样地,Zhou等(2022c)提出的算法提示方法显示,通过提供更全面的问题解决示例,能够在一定程度上提高简单数学计算任务的推理能力。Zhang等(2022b)则设计了Auto-CoT系统,该系统通过将数据集中的问题划分为不同的簇类,并利用ZeroShot-CoT方法生成每个簇类中具有代表性的问题的推理原则,从而自动构建样本聚类模型。研究表明,增强范例的多样性对于促使LLM产生更有说服力的理由至关重要

reasoning exploration approaches not only provide more optimal examples but also allow large language models (LLMs) to explore diverse reasoning pathways, thereby enhancing their performance on reasoning tasks. This concept is known as reasoning exploration. Given that complex problems often permit multiple modes of thinking and can lead to unique correct answers, Wang et al. (2022c) introduced a decoding strategy termed "self-consistency," aiming to improve upon the conventional greedy decoding method used in chain-of-thought prompts. This strategy involves sampling a set of distinct rationales rather than relying solely on greedy rationales and selects the most consistent answer through marginal sampling of rationales. Fu et al. (2022b) adopted a similar approach by voting for the most compelling rationale. To further boost performance, Li et al. (2022b) proposed generating diverse demonstration cases for each problem through sampling from a sample library, thereby enriching the sampling diversity.

在LLM生成理论机制的有效性方面进行了深入研究具有重要的理论价值因为其不正确性可能引发严重的问题Ye和Durrett于2022年的研究工作中指出有效的理论机制能够显著提升模型的预测准确性为此开发出了一套系统的理论机制评估框架该框架的核心在于通过引入辅助工具对LLM生成的理论进行筛选以确保其具备高度的相关性和准确性针对这一问题Cobbe等人提出了一种创新的方法他们建议采用经过训练的辅助工具对LLM生成的内容进行评分并根据这些评分结果选择最优方案以实现最佳效果与此同时Li等人还提出了另一种基于同一方法论但更加注重知识体系整合的方式他们认为将系统内在的知识体系与外部辅助工具相结合能够进一步提高理论机制的质量与上述研究不同Weng等人则提出了一种更具自适应性的方法他们认为通过让模型自身承担部分评价任务能够实现更加精准的结果导向

尽管思路链提示能够在LLM中有效触发推理过程,在面对高度复杂的任务时可能会遇到挑战。例如涉及组合泛化的任务(Lake & Baroni, 2018;Keysers等, 2020)。有效的方法是将复杂的问题拆解为更小、更易于管理的子问题。通过逐一解决这些子问题并整合其解决方案的能力能够显著提升整体效果。这一技术通常被称为分而治之策略或问题分解定位法(Talmor & Berant, 2018;Min等人, 2019;Perez等人, 2020)。

基于此一思想,Zhou et al(2022a)提出了一种从最少提示到最多提示的方法,该方法包含两个主要步骤:将复杂问题分解为若干子问题,并按照特定顺序依次解决这些子问题,其中每个子问题都依赖于前一个已解决子问题的答案以促进后续处理。在此基础上,Drozdov et al(2022)提出了动态从最少到最多提示的方法,其核心目标在于通过基于提示的句法解析技术将复杂问题逐步分解,并根据具体需求动态选择样本以实现更现实的语义解析目标。此外,Khot等人(2022)开发了一种称为分解提示的技术,其基本原理是将复杂任务划分为若干个可由LLM处理能力范围内的子任务,每个子任务专门负责特定领域的问题求解。与此同时,Dua等人(2022)提出了一种称为连续提示的技术,它采用迭代方式将复杂任务逐步拆解为一系列简单任务,其中后一个子任务能够利用前一个已求解完成结果作为输入以提高效率。值得注意的是,上述方法均通过多次前向传递过程实现了对复杂任务的逐步拆解与求解。然而,Press等人(2022)则建议采用CoT(COntext Only)提示策略在一次前向传递中完成对输入任务的整体拆分与求解过程。总体而言,这些创新性技术有望通过将复杂任务细分为更为易于管理的基础单元来显著提升LLM处理复杂任务的能力

除了现有的技术外,在LLM中促进特定任务或设置推理的技术也在不断扩展。其中Creswell等人(2022)提出了一种基于LLM的选择推理框架,并从一组事实中选择和推断推理步骤以得出最终答案。Kazemi等人(2022)则建议采用从目标事实到支持它的事实集的后向链接方式而非传统的前向链接方式。此外Jung等人(2022)提出了一种通过提示LLM进行归纳和递归以合理化每个选项的方法。Zhou等人(2023b)设计了一种处理复杂数值的技术其核心在于将复数替换为简单的数字表达式从而简化计算过程。此外一些研究者致力于将LLM中的推理能力提取到更小规模的模型中如Li等人(Yunus et al., 但具体年份未明)。最后我们推荐读者参考Dohan等人(待发布)关于语言模型级联立场的文章该文章提出了一种统一的框架来整合思路链提示及其相关研究领域

混合方法尽管采用提示技术能够辅助提取大型语言模型中的推理信息以应对推理任务。然而,在实际应用中并未提升LLM自身的推理能力,因为其参数数量和结构未做调整。另一方面,"混合方法"的目标是同时提升LLM处理复杂逻辑的能力,并通过更高效地辅助其完成多轮对话来增强整体性能.一方面这种方法确实提升了LLM的处理能力;另一方面它通过引入提示等技术进一步优化了其应用效果.

一种提升LLM推理能力的方法是通过包含"推理"主题的数据集进行模型预训练或微调。研究表明,在采用CoT提示的情况下,在科学与数学数据集上经过训练的LLM能够在定量推理等问题上展现出更好的性能水平。进一步的研究表明,在使用SQL数据进行持续性预训练能够有效提升语言模型(如T5)在自然语言处理任务(如数字与逻辑推理)中的表现能力。此外,在经过PaLM与T5的联合微调后生成的Flan模型中包含了1.8千个微调任务项目,并且这些项目均基于CoT数据集。研究结果表明CoT数据对于维持模型的推演能力具有决定性作用

此外,在对 OPT 模型(Zhang 等人提出)进行微调训练的基础上(此处需注意保持原文中的数学公式...原样保留), Yu 等人验证了该模型在多个推理数据集上的有效性表现。与此同时,在深入研究领域知识处理机制的过程中(此处需注意保持原文中的数学公式...原样保留), Anil 等人致力于探讨LLM在处理长度不同问题方面的适应性。他们得出了结论:通过结合少样本暂存器(或思路链)进行微调训练,并利用草稿提示的方法显著提升了LLM在处理较长问题方面的性能;这一发现表明,在传统监督学习范式下难以实现的效果在这里得以显现。

引导和自我改进 一些研究未能在预构建数据集上进行微调而转而探索通过引导过程使LLM自我提升推理能力的可能性 Zelikman等人(2022)提出的自学推理器(STaR)就是个实例 在CoT提示下 模型最初会生成初步原理 接着依据导致正确答案的关键原理进行优化 这一过程可反复进行 每次迭代都能产出一个性能提升的模型 这种改进能让模型不断产出更高质量的训练数据 最终带来进一步优化

测量大型语言模型中的推理

在本节中归纳了评估大语言模型推理能力的方法与基准体系。通过评估在特定任务上的性能来衡量大语言模型(LLM)的推理能力是一种常见方法, 如准确率等指标即是其中之一。本文列举了一些关键的评估基准, 包括算术推理能力相关的指标等。算术推理能力指的是运用数学概念与原理解决算术运算问题的能力, 这种能力主要体现在利用逻辑思维与数学法则确定解决问题的具体步骤与策略上。本文列举的具体基准包括 GSM8K 数据集(由 Cobbe 等人于 2021 年提出)、Math 数据集(Hendrycks 等人开发)、MathQA 数据库(Amini 等人构建)、SVAMP 数据集(Patel 等人制作)、ASDiv 数据库(Miao 等人开发)、AQuA 库(Ling 等人整理)以及 MAWPS 数据集(Roy 和 Roth 于 2015 年发布)。值得注意的是, Anil 等人 (2022) 制作了奇偶校验数据集与布尔变量分配数据集, 用于研究LLM在长度扩展性方面的表现(参考第3.3.1节)。

常识推理是基于日常知识体系对未知情境进行推断与预测的过程;它是人类认知能力的重要组成部分,有助于我们更好地理解和应对复杂环境以及他人的行为模式.在信息不完备的情况下,该过程能显著提升决策效能.针对LLM的常识推理评估体系,现有研究主要涵盖CSQA系统(Talmor等, 2019)、StrategyQA框架(Geva等, 2021)以及ARC基准(Clark等, 2018)等.对于深入了解这一领域感兴趣的读者,可参考Bhargava与Ng(2022)所作的研究综述.符号推理则是一种基于抽象符号的操作性思维模式,通过严格的逻辑运算处理抽象概念之间的关系.在这一过程中,研究者通常采用特定的任务设计来考察系统的处理能力.例如,Wi等人(2022b)提出了两个具体的应用场景:最后一个字母连接任务以及抛硬币实验两种类型

在实践中使用多种基准来间接评估LLM的推理能力是一个普遍的做法。这些基准通常包含大量任务以测试LLM的各项推理技能。例如,在BIG-bench(Srivastava等人,2022)中包含了大约200个任务以测试LLM的各项推理技能包括日期理解、单词排序和因果判断等任务。此外还有其他基准如SCAN(Lake和Baroni, 2018)和Anil等人(2022)提出的基准它们主要关注于评估LLM的泛化能力以及其潜在的应用潜力。为了进一步验证LLM的表格推理能力还可以参考如Chen(2022)所提出的基于WikiTableQA(Pasupat和Liang, 2015)、FetaQA(Nan等人, 2022)开发的专门测试表格理解与关系推导的能力评估体系。此外还有一些专注于检验LLM生成关系推导能力的新颖评测框架如CommonGen(Lin等人, 2020; Liu等人, 2023a)以及Open Relation Modeling(Huang等人, 2017b,d)。

尽管LLM在各种推理任务中展现出令人 impressions 表现(Wei等人, 2022b; Kojima等人, 2021;其他相关研究),但其预测结果究竟基于真实的推理过程还是简单的启发式方法这一点仍不十分明确。这种结论往往难以深入探讨的原因在于现有的大多数评估指标更注重任务结果的准确性,并未直接考察推理过程的质量。尽管已有部分努力致力于开发指标和基准来系统性地分析LLM中的推理能力(Golovneva等人, 2019; Saparov等人, 2019),但这些研究大多停留在表面层面,并未深入挖掘其内在机制。为此,Ashwin等人提出了一个名为ROSCORE的新指标体系,该体系不仅能够系统性地考察LLM生成内容的质量,还特别关注了其逻辑推理能力的相关指标,从而为深入理解LLM的工作原理提供了新的视角。

Han等(2022a)提出了一个名为FOLIO的数据集来评估LLM的一阶逻辑推理能力

发现与启示

在本节小结中, 我们系统梳理了大型语言模型进行推理研究的关键发现与启示。从法学硕士的视角来看, 推理能力似乎是一种新兴的能力, 这一观点得到了 SPS 研究者的实证验证: 我们认为, 当处理大量数据时, 大型模型展现出显著的逻辑分析能力, 其表现主要体现在参数数量上显著提升这一特征上

研究表明,在采用思路链(CoT)提示(Wei等人, 2022b)的情况下,LLM在各类推理任务中的表现得到了显著提升(Weietal., 2022a,b; Suzgun等人, 2022)。实验数据显示,在LLM中实施这一提示策略能够显著增强其在不同推理领域的效率和效果(Saparov和He, 2022第4.2节)。然而,在面对多选题时,LLM偶尔可能会选择不正确的步骤而导致证明过程出现漏洞或错误结果(Anil等人, 除了其他因素外)。值得注意的是,在模型规模增长的过程中,标准提示方法的表现呈现稳定的提升趋势(Wei等人, 除其他因素外;Zhou等人, 同样可见;Anil等人, 则进一步证实了这一点)。此外,在这项研究中发现,在采用CoT提示的情况下不仅能够有效提高LLM的表现还能显著增强其分布外稳健性(Anil等人, 则证实了这一点),这方面的优势是标准提示或完全监督微调策略所无法观察到的

LLM展现出与人类相似的认知特征,在推理能力方面具有显著的相似性。研究团队(2022)指出,在认知文献中描述的人类推理模式已被LLM所呈现。具体而言,该模型在其预测结果主要受先验知识与抽象逻辑处理的影响,并且其对逻辑有效性的评估往往取决于假设结论的实际可信度。这些发现表明,在处理复杂推理任务时尽管存在明显局限性,但语言模型仍能模仿人类进行类似的思维过程。然而,在处理涉及人类具有挑战性的问题时可能出现明显的不足。

然而LLM看似具备§3所述的核心推理能力(Valmeekam等, 2022),但在更为复杂的推理场景或涉及隐含意义的任务面前仍显力不从心;Han等(2022a)及Ruis等(2022)亦有此论断。例如Valmeekam等人的研究表明即使面对人类易于处理的相对简单的常识规划领域GPT-3(Brown等人, )与BLOOM(Scao等人, )等LLM依然难以充分发挥其应有的作用。这些研究结果提示当前的基准测试可能过于简单不足以真实反映LLM的核心推理能力或许还需更为具有挑战性的任务才能全面评估其推理能力的表现。

反思、讨论和未来方向 为什么要推理?

推理是通过系统化的方法对事物进行分析的过程。它构成了人类认知能力的重要组成部分。将其推理机制注入到语言模型中,则能使该类模型具备处理复杂问题及细微判断的能力。如解决各类问题、进行决策以及制定计划等任务。从而提升该类模型在后续应用中的效率,并增强其泛化能力。同时,在提升模型性能的同时也能使其更具可解释性和可解释性

恰当的任务/应用?据 Valmeekam 等人(2022)的研究结果表明, 当前的基准可能存在不足之处. 传统的测试往往局限于一些过于简单的人工任务, 这类测试难以真实模拟复杂的人类认知过程. 因此, 为了全面评估LLM的能力, 关键在于设计更具挑战性的应用场景. 我们的研究不应仅关注那些可由其他程序轻松完成的任务, 而应聚焦于更具实际意义的问题. 据此可知, 决策分析(Edwards, 1954)、法律推断(Levi, 2013)以及科学研究中的推理机制(Zimmerman, 2000)等均属于此类关键应用场景. 需要强调的是, 将注意力集中于解决基本算术问题是没有意义的. 在开展相关研究时应当明确具体的目标任务是否具有实际价值,并确保所提出的解决方案能够在更为复杂的实际情境中得到应用.

语言模型真的能够推理吗?有几个迹象表明LLM能够推理,包括

多种涉及的推理任务均显示出卓越的效果(Suzgun et al, 1997)。
具备引导性的提示进行逐步推导出结果的能力是该系统的核心特点之一。(Wei et al, 1998a)
类人思维模式对提升内容效果有显著影响。(Dasgupta et al, 1997)

但现有研究未能充分证明LLM具备真正的推理能力。
就第一条而言,目前尚不清楚模型是基于逻辑推理还是启发式方法进行预测(Patel et al, 2021)。
对于现有的大多数推理基准测试而言,在理论上我们可以构建一个基于启发式规则的系统以达到卓越的表现。
一般而言,在依赖启发式规则的情况下,并不具备真正的逻辑推理能力。
就第二条而言,尽管模型表面上看起来是在逐步推导答案,但实际上生成的原因可能既不正确也不具一致性。因此,在技术上来说,模型更像是模仿式的反应而非系统的逐步推导过程。
就第三条而言,在某些情况下LLM展现出的行为看似与人类类似,但这并不一定意味着它们具备真正的人类式的思考能力。

此外,还有一些观察结果表明 LLM 可能无法进行推理:

  1. LLM 仍然难以完成需要复杂推理的任务 (Valmeekam et al, 2022; Han et al, 2022a; Ruis et al, 2022)。如果 LLM 真的是优秀的推理者,它们应该能够处理人类可以通过推理简单解决的任务;
  2. LLM 在推理中会犯错误,如上所述;
  3. 研究发现,LLM 在下游任务上的表现对训练数据中某些术语(例如数字)的频率很敏感 (Razeghi et al, 2022; Jung et al, 2022),如果模型通过推理解决数学问题,则不会出现这种情况;
  4. 语言模型被发现很难将记忆的相关信息关联起来 (Huang et al, 2022c)。

就目前而言,对现有研究结果得出结论尚显过早。事实上,在人工智能领域中关于LLM能否实现真正意义上的通用认知能力存有争议 (Bender and Koller, 2020; Li et al, 2021; Manning, 2022; Piantasodi and Hill, 2022)。为了更深入探讨这一问题,我们需要从训练数据、模型架构以及优化目标等多个角度进行详细研究,并开发更加科学有效的评估指标来系统衡量LLM系统的推理能力。然而,在现有技术条件下现有的LLM系统在推理能力方面仍显不足

提升大型语言模型(LLM)的推理能力。尽管思路链提示等技术可能有助于揭示LLM内部的推理机制(Wei et al, 2022b),但它们无法解决超出现有水平的问题。为了有效提升LLM中的推理能力,则需要借助促进推理的训练数据、模型架构以及优化目标设计。例如,在采用包含CoT数据的数据集上进行微调能够显著提升其推理能力(Chung et al, 2022),此外,在引导模型进行自我反思的过程中也能进一步提升其推理水平(Zelikman et al, 2022; Huang et al, 2022a)。目前仍有许多研究需要深入探索,在这一领域取得重大突破值得期待。

结论

本文旨在系统回顾大型语言模型推理领域的最新进展与现有知识。本研究探讨了LLM(大型语言模型)推理技术的改进途径以及评估推理能力的方法,并归纳了相关基准标准。同时总结了该领域先前研究的主要发现及其重要意义。尽管在自然语言处理及相关领域大型语言模型已经取得了显著进展,但它们在真正意义上实现有效推理方面仍存在诸多疑问。无论是通过何种机制实现这一目标尚存debated观点。进一步的研究将有助于深入了解LLM在推理能力方面的潜力,并探索如何提升LLM的推理能力及其潜在应用领域。我们期望本文能够作为该领域现状的有用概述,并激发对未来研究的关注与讨论。

全部评论 (0)

还没有任何评论哟~