Advertisement

Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning

阅读量:

(1)Abstract

基于少样本的上下文学习使得预训练语言模型无需依赖梯度下降的方法进行训练,在输入部分加入少量示例后即可执行完全未见过的任务。然而由于ICL计算、内存及存储成本过高每次预测都需要处理全部示例**参数高效微调方案(包括适配器模块提示调优及稀疏更新方法等)则为这一问题提供了一种替代方案只需优化极少部分模型参数即可完成新任务

(2)Introduction

预训练语言模型已成为自然语言处理中的关键技术,因为它们可以显著提高任务的数据效率——即以较少的标注数据获取更优的结果。传统方法通常是在预训练模型的基础上,通过梯度下降方式在下游任务上进行全参数微调(fine-tuning)。尽管这种方式取得了许多 SOTA 结果,但微调后模型被固定用于某个单一任务,整个参数集都被替换 ,这在面对多个任务时成本高昂且难以扩展
另一种流行的替代方案是上下文学习(In-Context Learning, ICL),该方法通过输入带提示的示例,引导模型完成任务 。少样本提示通常将少量的输入-输出对组织为自然语言指令和示例,再加上一个待预测的未标注样例。ICL 的最大优势是无需梯度更新,模型即可立即适用于多种任务。因此,其性能完全取决于预训练阶段学到的能力。

在这里插入图片描述
在这里插入图片描述

另一种替代方案是参数高效微调(PEFT),这种方法基于预训练模型,在更新过程中仅对少量新增或特意选择的参数进行调整。

在这里插入图片描述
在这里插入图片描述

(3)T-Few 方法的设计

①模型与数据集

首先需要挑选一个预训练模型。
在理想条件下,
该模型经过微调后仍能在新任务上达到较高性能。
研究者通过前期实验将多种PEFT方法应用于不同预训练模型,
发现T0方法表现出色。
T0基于T5[1],
是一种基于编码器-解码器结构的Transformer模型[33].

非似然训练与长度归一化 :作者在训练之前采用了非似然训练与长度归一化两种方法,并使语言模型在少样本微调中的性能得到了显著提升。

在这里插入图片描述
在这里插入图片描述

③使用(IA)³进行参数高效微调

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

以下是图表以及总结:

³的示意图以及T-Few配方中使用的损失项。左: ³引入了学习的向量lk、lv和lff,分别通过元素-wise乘法(可视化为⨁)对注意力机制中的键(keys)和值(values)以及位置-wise前馈网络中的内部激活进行重新缩放。右:除了标准的交叉熵损失LLM,我们引入了非似然损失LUL,降低了错误输出的概率,以及长度归一化损失LLN,将标准的softmax交叉熵损失应用于所有输出选择的长度归一化对数概率。

(IA)³图解与T-Few配方中所采用的关键损失项概述。左侧展示:(IA)³开发了学习向量lk、lv和lff,并采用元素级乘法运算(标记为⨁)来重新缩放注意力机制中的键(keys)、值(values)以及position-wise前馈网络中的内部激活;右侧则展示了除常规交叉熵损失LLM外还引入非似然损失LUL以降低错误输出概率,并结合长度归一化损失LLN将标准化的softmax交叉熵损失应用于各输出选项的长度归一化对数概率计算。

(4)Experiment

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~