Advertisement

论文翻译:A Survey on In-context Learning

阅读量:

Posted on December 31, 2022 (version v1), the document was last revised to June 18, 2024 as this latest version (v4).
An Exploration of In-Context Learning: A Comprehensive Review
https://arxiv.org/pdf/2301.00234

关于上下文学习的研究

文章目录

  • 关于上下文学习的研究

  • 摘要

  • 1 引言

  • 2 定义和公式化

  • 3 模型训练

    • 3.1 预训练
    • 3.2 预热
  • 4 提示设计

    • 4.1 示范组织

      • 4.1.1 示范选择
      • 4.1.2 示范重新格式化
      • 4.1.3 示范排序
    • 4.2 指令格式化

    • 4.3 评分函数

  • 5 分析

    • 5.1 影响因素

      • 5.1.1 预训练阶段
      • 5.1.2 推理阶段
    • 5.2 学习机制

      • 5.2.1 功能模块
      • 5.2.2 理论解释
  • 6 应用

  • 7 挑战和未来方向

  • 8 结论

  • 限制

关于上下文学习的研究

摘要

随着大型语言模型(LLMs)能力的提升,在下层架构中嵌入式地实现上下文学习(ICL)已逐渐成为现代自然语言处理研究中的新范式。其中LLMs通过基于少数示例强化的上下文进行预测,在这种框架下探索评估和推断LLMs能力的方式已逐渐成为研究中的一个重要方向。在本文中我们致力于系统地探讨其进展及其面临的挑战。首先我们将对ICL这一概念进行形式化定义并澄清其与现有研究的相关性。随后我们将组织并讨论一系列先进技术包括训练策略的设计、提示方案的优化以及相关的性能分析等维度的技术创新点。此外我们还将深入探讨其在数据工程与知识更新等关键领域的具体应用场景并对其潜在局限性展开分析最终提出若干值得进一步探索的研究方向以期推动这一新兴领域的发展为此我们希望我们的工作能够为后续研究提供新的视角并激发更多相关领域的关注

1 引言

随着模型和数据规模的持续扩大(Brown et al., 2020; Chowdhury et al., 2023; OpenAI, 2023; Touvron et al., 2023a, b),大型语言模型(LLMs)逐渐突显了它们具备强大的上下文理解能力(ICL),即通过从少量示例中提炼出核心信息来完成任务。多项研究表明,在运用这种上下文学习机制后,LLMs能够擅长解决数学推理问题等系列复杂任务(Wei et al., 2022c)。这些卓越的能力已被广泛认可为大型语言模型的重要特征(Wei et al., 2022b)。

上下文学习的核心理念在于通过类比获得经验。参考图1所示的示例,请注意语言模型如何通过ICL进行决策的过程。首先,在这种机制下,模型需要一些示范来进行上下文构建。这些示范通常采用自然语言模板的形式编写。接着,在构建完成之后,模型将查询问题与已有的提示性上下文片段相互关联并形成输入数据,在此基础上被输入到语言模型中进行推理运算。值得注意的是,在监督学习阶段通常会对模型参数进行反向梯度更新以优化性能;而在ICL机制中则采取了与之不同的策略:它并不负责更新模型参数本身;相反地,则是期望能够深入挖掘示范样本中所蕴含的潜在模式,并以此为基础作出精准预测的结果输出

在这里插入图片描述

图1展示了上下文学习的概念说明。ICL作为一种信息检索技术,在系统设计中要求设计者提供多个基于自然语言模板编写的示例来构建有效的提示上下文。这些精心设计的示例将被系统整合到提示中,并与查询内容结合使用。基于此提示与查询组合的形式,大型语言模型则根据这一输入内容进行预测计算。

在这里插入图片描述

图2:上下文学习的分类。

作为一种新兴范式,ICL展示了显著的优势。首先,在基于自然语言编写的情况下(Brown et al., 2020),该方法提供了便于理解的接口以促进LLMs之间的通信。通过调整示例和模板结构(Liu et al., 2022; Lu et al., 2022; Wei et al., 2022c; Wu et al., 2023b),这一范式使得将人类知识融入LLMs变得更加便捷。其次,在类比学习方面(Winston, 1980),上下文学习过程与人类的学习机制相似。第三,在监督学习框架下不同(Sun et al., 2022),ICL作为一个无需训练的学习框架具有显著优势:不仅能够大大减少适应新任务所需计算资源,并且能够实现语言模型即服务的目标。

尽管前景广阔,在当前应用中也存在一些值得深入探讨的问题和引人入胜的特性。

鉴于ICL研究的快速增长, 我们的调查旨在使社区对最新动态保持高度敏感。在后续部分中, 我们将深入探讨相关研究, 并将在附录A中总结关键发现。我们特别关注存在的挑战及未来发展方向, 并期望我们的研究成果能够为对该领域感兴趣的初学者提供详实的路线图, 同时对未来的研究活动提供有益的启发。

2 定义和公式化

遵循Brown et al. (2020),我们在这里提供上下文学习的正式定义:

上下文学习作为一种模式或方法被设计为允许语言模型能够基于少量样本实现其任务目标。

正式定义中,在预训练语言模型 \mathcal{M} 的基础上,在给定查询输入文本 x 和其对应的一组候选答案 Y = \{y_1, \ldots, y_m\} 的情况下,默认情况下会通过最大分数的方式选择预测结果。这一过程的前提条件是基于示范集 C 的学习机制。具体而言,在这种学习机制中,
集合 C 包含可选的任务指令 I 以及数量为 k 的示范示例,
因此,
C = \{I, s((x_1, y_1)), \ldots, s((x_k, y_k))\} 或者
s’((x_1, y_1), I), \ldots, s’((x_k, y_k), I)\}
其中,
s’((x_i, y_i), I) 是根据任务用自然语言编写的特定示例;
而每个候选答案 y_j 则来源于整个输入序列上的评分函数 f

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

最终预测标签 ( \hat{y} ) 是具有最高概率的候选答案:

在这里插入图片描述

通过定义分析可以看出ICL与相关概念之间存在显著差异:首先,在提示学习方面 IC L作为一种特殊的提示调整方法 其核心在于将示例视为特定类型的提示 使用离散模板或软参数来引导模型生成所需输出;其次 在少样本学习领域 ICL完全摒弃了传统机器学习中对模型参数进行迭代更新的需求 而是以LLM预训练为基础 直接执行任务

3 模型训练

尽管现有的LLMs在展现潜在的应用前景方面取得了显著进展。然而研究结果表明,通过预先进行系统的推理训练能够显著提升这些LLM的能力。Chen et al. (2022); Gu et al. (2023); Shi et al. (2024)

3.1 预训练

增强LLMs的ICL能力是一个直接的方向,可以通过预训练或持续预训练来实现。例如,Gu et al.(2023)和Shi et al.(2024)提出了一种通过重组预训练语料库的方法,使模型能够跨先前示范进行推理。此外,Li et al.(2024c)引入了一种元蒸馏预训练过程,该过程允许LLMs利用蒸馏示范向量进行推理,从而在不牺牲有效性的情况下显著提升了ICL效率。

在这里插入图片描述

图表3:经过两个关键阶段——预训练与预热——提升了ICL性能的具体说明

3.2 预热

另外一种提升其性能的途径是在预训练与ICL推理之前进行持续性强化训练阶段,并将此过程命名为模型预热。这一过程属于可选项,在推理前通过调整相关参数设置来优化LLMs的表现。

由于大多数预训练数据并非专为ICL设计(Chen et al., 2022),研究人员提出了多种预热机制以缩小预训练与ICL推理之间的鸿沟。Min et al. (2022b) 和 Wang et al. (2022b) 建议在多样化的具体任务上进行LLMs的进一步微调以增强其ICL能力。为了促进模型从上下文中学习输入与标签之间的对应关系,Wei et al. (2023a) 提出了符号映射策略,在自然语言标签(如"正面/负面情感")中引入任意符号(如"foo/bar")作为替代。Chen et al. (2022) 开发了一种自监督方法以使原始文本与下游任务中的ICL格式实现对齐。此外,研究表明指令具有潜在的价值 Mishra et al. (2021); Wei et al. (2022a)。在超过60个经过特定指令模板描述的数据集上进行实验调整后137B LaMDA-PT Thoppilan et al. (2022),FLAN Wei et al. (2022a) 显著提升了LLMs遵循指令的能力,并进一步提高了零样本和少样本ICL性能。Chung et al. (2022) 和 Wang et al. (2023b) 进一步扩展了这一研究方向,在超过1,000个具体指令的基础上进行了深入探索和应用研究

4 提示设计

在这里插入图片描述

表1:代表性示范设计方法的总结。

在这一部分,我们关注推理期间ICL的原则,包括示范组织(§4.1)和指令格式化(§4.2)。

4.1 示范组织

已有研究表明, ICL的性能高度依赖于示范表面及其处理方式(其中包含了示范示例的选择, 格式化和排序)\cite{Zhao et al., 2021; Lu et al., 2022}). 在本节中,我们将深入探讨这些组织策略, 并将其系统性地分类为三类(如表1所示).

4.1.1 示范选择

选择示范的目的在于解答核心问题。我们对相关研究进行了分类工作:一类基于预先设定的标准的无监督方法以及另一类则是有监督的方法。

无监督方法
一种直接的方法是基于其与输入实例之间的相似度选择最近邻(刘等, 2022; 王等, 2019; 高等, 1986)。度量指标包括基于句子嵌入计算的L2距离和余弦相似度等方法。例如,在文献中提到刘等(2017)提出了KATE模型作为第一个基于k-近邻(kNN)的无监督检索器;类似地,在跨语言场景中也可以采用kNN检索多语言对齐的技术(王等, 1986)。此外,在文献中还提到了结合图结构信息和置信度分数以进一步优化多语言对齐的方法(高等, 1986)。除了传统的距离度量指标外,在文献中还探讨了互信息Sorensen指数以及困惑度Gonen模型在无标签数据场景下的有效性(李等, 1986)。特别地,在文献中提出了一种通过压缩标签长度来优化kNN示例排列的方法(王等, 1986)。此外,在文献中还提出了一种新的评估指标:验证集上所有(x,y)对的概率P(y|x_i,y_i,x)乘以P(y|x)的平均值,并在此基础上引入了多样性约束(李等, 1985)。

监督方法
现有的通用检索系统为多种NLP应用提供了便利的基础。然而由于缺乏针对具体任务的监督机制,在实际应用中往往表现出较低的效果。基于此,在过去的研究中已经提出了大量监督式的方法:包括Rubin et al. (2022)、Ye et al. (2023)、Wang et al. (2023e)和Zhang et al. (2022a)等学者的工作。其中EPR Rubin et al. (2022)通过提出一个双阶段的策略来训练一种密集型检索系统作为示范选择器。该方法首先采用无监督学习技术(如BM25)捕获相关样本作为候选集;随后利用这些候选数据构建一个基于有标签的数据进行优化的密集型检索模型。在此基础上Li et al. (2023d)进一步提出了统一示范检索器的概念以应对多任务场景下的选择问题。与以往仅依赖单个示范样本的工作不同Ye et al. (2023)则采用了全局搜索的方式从整个示例集中提取信息以模拟示例间的相互联系关系。此外Mavromatis et al. (2023)引入了一种自适应ICL模型AdaICL它能够根据需要对未标注数据进行预测并生成每个实例对应的不确定性评分。

基于提示调整的研究者Wang等人(2023e)将大语言模型视为能够在少数示范中推导出概念(theta),并通过这些概念进行标记化生成的主题模型。他们表示这些潜在概念是由与任务相关的标记来表示的,并且这些概念被训练以使P(y|x, theta)最大化。在示范的选择过程中,则是基于其对概念变量可能性的推断而进行的,在这一过程中采用了P(theta|x,y)的概率评估方法。此外,Zhang等人(2022a)提出了利用强化学习来进行示例的选择方法。他们将示例选择建模为马尔可夫决策过程(Bellman,1957),并通过Q学习算法来选择最优示例作为训练样本。这里的关键在于动作定义为选取一个示例,并将其作为奖励来源定义为其标记验证集准确率的表现形式

在这里插入图片描述

表1:基于公平性的示范选择方法对比研究。CQA与News分别代表常识问答数据集与AG新闻数据集。最佳性能表现突出。通过在topk (Liu et al., 2022)、votek (Su et al., 2023)以及mdl (Wu et al., 2023b)等基准上的实验验证, 我们发现topk能够最有效地选择最优示例.为了系统性地对比多种无监督方法在不同指标下的表现, 我们选择了上述三个代表性基准作为评估标准.实验结果可在表1中详述

4.1.2 示范重新格式化

而非仅依赖于直接从训练数据中选择示例的策略,在这一领域还存在另一种研究方向是利用LLMs对现有示范的表示进行重新格式化。例如,Kim et al. (2022)提出了一种直接从LLMs生成示范的方法以减少对外部示范数据的依赖性问题。其方法通过将特殊定位嵌入用于分别编码每个示范示例,并结合重新调整后的注意力机制来优化测试阶段的表现。相比之下,在这一领域还存在另一种研究方向是基于潜在表示空间对现有的模式进行修改和优化(Liu et al. 2024a; Li et al. 2024a)。具体而言,在这种思路下,Liu et al. 开发了一种名为潜在上下文向量(ICVs)的方法,这些潜在上下文向量则在推理过程中用于调整LLM的潜在状态,从而提升模型遵循示范任务的能力。

4.1.3 示范排序

对选定的示范示例进行安排也是示范组织的重要环节。Lu et al. (2022) 已证实顺序敏感性是一个普遍难题,并影响各种模型的表现。针对这一挑战,在以往的研究中已提出多种无需训练的方法来排列示范示例。特别是Liu等(2022)根据输入相近程度将示例按位置排列,并将最接近的示例置于最右侧作为示范。此外,Lu等(2022)引入全局与局部熵指标,研究表明这些指标与ICL性能呈正相关关系,因而采用熵指标确定最优排列方案。此外,ICCL(刘等, 2024b)建议采用由简单至复杂的排列方式,从而逐步提升示范示例的复杂性水平

4.2 指令格式化

一种常见的格式化示范方法是将示例 ( (x_1, y_1), \ldots, (x_k, y_k) ) 与模板 \mathcal{T} 直接连接起来。然而,在涉及复杂推理的任务(例如数学文字问题和常识推理)中仅凭k个示例难以学习从x_iy_i的映射关系。尽管提示系统已研究过模板工程(Liu et al., 2023c),但一些研究者致力于通过使用指令I来描述任务来为ICL设计更优的示范格式(Honovich et al., 2023)。发现给定多个示例后LLMs能自主生成任务指令(Zhou et al., 2023c)。基于LLMs的强大生成能力(Wang et al., 2023f; Chen et al., 2024),提出了一种自动提示工程师来实现指令自动生成与选择功能。为了进一步提升自动生成指令的质量(Wei et al., 2022c),研究者们提出了策略以引导LLMs从自身生成中获取指导信息(Zhang et al., 2023c; Wang et al., 2022a; Zhou et al., 2023a)。此外,在模型中引入思维链(CoT)以增加中间推理步骤(Wang et al., 2023c)已被证明有助于提升问题解决能力和理解深度(Wei et al., 2019a; Chen et al., 1998b)。最近的研究成果还强调了逐步推理过程在模型增强中的重要性(Zhang et al., 1986b; Wang et al., 1987a; Liu et al., 1986c)。

在这里插入图片描述

4.3 评分函数

在这里插入图片描述

表3:不同评分函数的比较与分析

在这里插入图片描述

5 分析

为了深入理解ICL这一技术,在本节中我们系统分析了其性能的关键影响因素(Shin et al., 2022; Yoo et al., 2023; Kossen et al., 2023)以及其有效性的内在机理(Dai et al., 2023a; Irie et al., 2021)。本节重点探讨了影响因素(§5.1)和学习机制的运作原理(§5.3),如图5所示。

在这里插入图片描述

图4:归纳了与ICL性能高度相关的要素,并探讨了其实现原理的不同视角。

5.1 影响因素

我们对相关研究进行了探讨;这些研究旨在探讨哪些关键因素影响ICL性能,并特别关注预训练阶段与推理阶段的影响。

5.1.1 预训练阶段

我们首先介绍影响预训练阶段的关键因素之一是预训练语料库的多样性对ICL性能的影响Shin et al. (2022); Yadlowsky et al. (2023); Raventós et al. (2023)。值得注意的是Shin et al. (2022)研究表明源域数据量的重要性超过语料库规模这一发现表明通过整合多个语料库可能会诱导模型生成ICL能力同样地Raventós et al. (2023)通过实证研究发现任务多样性阈值的重要性当这一阈值被超越时LLMs在未接触的任务上展现出强大的ICL推理能力此外Chan et al. (2022)等研究者还探讨了数据分布对ICL性能的影响其中Chan等(2019)发现当训练数据呈现特定分布特征如突发性即项目以集群形式出现而非均匀分布在时间线上时模型更容易实现ICL能力

除了以上提及的研究外,进一步研究探讨了影响ICL性能的关键因素。Wei等人(2022b)揭示了大量规模模型在多个任务中的新能力,并提出,当预训练模型经过大量预训练步骤或拥有大量参数时,它能够获得一些新的ICL能力。Ding等人(2016)指出,在推理阶段,上下文样本应相互关注,以避免当前因果LLMs导致次优的ICL性能

5.1.2 推理阶段

在推理阶段中示范示例的各种属性对ICL性能产生显著影响。研究表明,在输入-标签设置方面(如配对格式、标签空间暴露及输入分布)对ICL性能的影响至关重要。然而,在这一研究领域存在明显分歧:与Min et al. (2022c)的研究结论相悖的是Yoo et al. (2022); Pan et al. (2023a); Tang et al. (2023a)等后续研究发现准确的输入-标签映射关系对模型性能具有直接影响。此外,Wei et al. (2023b) 进一步补充道,在某些特定条件下(如颠倒或语义无关的映射)也能实现有效学习。

从示范构建的角度出发来看

5.2 学习机制

从学习机制的角度来看,我们深入研究了为什么ICL有效。

5.2.1 功能模块

ICL能力与Transformers内部特定功能模块之间存在密切关联。其中Olsson等(2022)首次识别了被称为“归纳头”的特定注意力头,这些头能够复制先前的模式以预测下一个标记,并逐步发展ICL能力。此外,在这一领域中,Wang等人(2023b)则关注了Transformers中的信息流动,并发现,在ICL过程中,示范标签词充当了固定点角色,在此过程中整合并扩散关键信息以实现最终预测。

5.2.2 理论解释

在这一小节中,我们从不同角度阐述了ICL的理论基础。
贝叶斯视角
从贝叶斯框架的角度来看,ICL被视为隐式贝叶斯推理,在这种框架下 IC L通过识别示例中的共享潜在概念来实现其功能(Xie et al., 2022; Wies et al., 2023; Ahuja et al., 2023; Jiang, 2023; Wang et al., 2023e)。其他观点则指出LLMs通过注意力机制模拟了贝叶斯模型平均算法(Zhang et al., 2023b)。当上下文示例数量增加时,在这种框架下 IC L的隐式贝叶斯推理逐渐接近核回归方法(Han et al., 2023a)。

梯度下降视角
梯度下降带来了另一个有价值的视角来理解ICL(信息准则学习)。Dai et al. (2023a) 建立了Transformer注意力与梯度下降之间的对偶形式,并发现基于GPT的ICL在多个角度上显示出与显式微调相似的行为。其他研究试图通过简化回归设置连接ICL和梯度下降(von Oswald et al., 2023; Ahn et al., 2023; Mahankali et al., 2023; Li et al., 2023c)。例如,在一项研究中(von Oswald et al., 2023),具有手动构造参数的线性仅注意力Transformer与通过梯度下降学习的模型高度相关;另一些研究表明(Li et al., 2023c),仅自注意力Transformer表现出与梯度下降训练后模型相似性。然而,在这些简化设置引发的关于其现实适用性的讨论中(Shen et al., 2024),一些人认为Transformers在线性回归中执行ICL时主要依赖高阶优化技术而非传统意义上的梯度下降。

除了将其视为单一算法的结合体之外,在这一领域还形成了多种独特的研究视角

这类研究已取得了解释ICL的重要进展。然而,在当前的研究中,这些大多集中于简单任务与小型模型领域。进一步拓展对复杂任务与大型模型的分析可能成为下一阶段的重点之一。

6 应用

基于友好界面和简洁提示策略的基础上进行设计开发的智能计算模型(ICL),广泛应用于传统自然语言处理领域 Kim et al.( 作者信息省略 ); Min et al.( 作者信息省略 ); Zhu et al.( 作者信息省略 ))。特别地,在采用明确指导推理流程的例子中 ICL展现了卓越的效果 Wei et al.( 作者信息省略 )); Li等( 作者信息省略 ))以及综合泛化能力 Zhou等( 作者信息省略 ))

我们深入研究了ICL在前沿技术和热门领域的广泛应用情况,并重点考察了其在数据处理与分析技术、强化学习技术以及动态知识管理方面的创新实践。

数据工程:与传统的人工注标方法及嘈杂自动注标方式相比,在成本较低的前提下ICL生成了质量相对较高的数据集从而显著提升了性能。Wang et al. (2021); Khorashadizadeh et al. (2023); Ding et al. (2023)。
模型增强:ICL在提升检索性能方面展现了巨大潜力其通过在输入中添加基础文档的方式显著增强了检索增强方法Ram et al. (2023)的效果此外用于检索任务的ICL技术还展示了引导模型向更安全输出方向发展的潜力Panda et al. (2023)及Meade et al. (2023)。
知识更新:现有的LLM系统往往包含过时或错误的知识内容Dong et al. (2023)。而通过精心设计的示例修正ICL技术已被证明是一种高效可靠的方式与基于梯度的方法相比其成功率达到更高水平De Cao et al. (2021)。

正如所言,在传统与新兴的人工智能自然语言处理应用领域中(ICPML),ICL都展现了显著的优势

7 挑战和未来方向

在这一部分,我们回顾现有的挑战并讨论ICL的未来方向。

在ICL框架中,示例的引入带来了两大挑战:其一是在示例数量增多时,系统的计算开销显著增加(效率方面),其二是受限于LLMs的最大输入限制(如3k字符),这使得可扩展性受到影响。此前研究已尝试通过将冗长的文本示例压缩为短向量,并通过优化推理速度来提升效率。然而,在某些情况下(如需处理过长文本或快速推理场景),这种策略难以实施。因此,在保证性能的前提下提升ICL方法对大规模数据集的支持能力仍是一个关键难点。

泛化
ICL对精选自注释示例的高质量训练数据表现出高度依赖性,在面对语言和任务资源匮乏的情况下,这类高质量示例往往数量稀少,从而给ICL模型带来泛化能力上的挑战 He et al. (2024)。鉴于高标注数据与低标注数据之间的可用性存在显著差异 Chatterjee et al. (2024); Tanwar et al. (2023),这一发现进一步推动了利用高标注数据以改善低标注条件下任务性能的研究方向。

该研究领域基于最近关于扩展上下文内容生成模型的新进展展开了针对大量实例引入到ICL中效果的研究 Agarwal et al., Bertsch et al., 以及Li等人提出的LongICLBench框架。然而, 研究表明, 单纯增加样本数量未必能提升模型性能, 并且可能带来负面影响。此外, 未来仍需深入探究这一现象的本质原因。值得注意的是, Li等人开发了一个名为LongICLBench的新框架, 其涵盖了多种极端标签分类任务, 并揭示了现有方法在理解和处理扩展现状中的局限性。

8 结论

在本文综述中, 我们系统梳理了ICL领域的最新成果, 整合前沿技术, 深入探讨其理论框架, 并重点分析其应用前景. 据此, 我们首次系统性地对ICL的研究进展进行了全面评述. 本研究旨在总结ICL现状, 提炼关键观点, 并对未来研究方向提出若干建议

限制

这篇论文对现有的方法与分析进行了系统综述与深入探讨。然而,在示范设计及ICl原理分析领域中存在大量具有重要价值的研究成果尚未被充分认识到;此外, 本研究还提出了若干关于Icl未来发展方向的重要设想, 包括Aancillary Context ICls, efficiency and scalability aspects in ICls等关键方向与技术挑战.针对上述提到的关键方向与技术挑战, 我们的后续研究计划将重点开展

全部评论 (0)

还没有任何评论哟~