Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning
(1)Abstract
基于少样本的上下文学习使得预训练语言模型无需依赖梯度下降的方法进行训练,在输入部分加入少量示例后即可执行完全未见过的任务。然而由于ICL计算、内存及存储成本过高每次预测都需要处理全部示例**参数高效微调方案(包括适配器模块提示调优及稀疏更新方法等)则为这一问题提供了一种替代方案只需优化极少部分模型参数即可完成新任务
(2)Introduction
预训练语言模型已成为自然语言处理中的关键技术,因为它们可以显著提高任务的数据效率——即以较少的标注数据获取更优的结果。传统方法通常是在预训练模型的基础上,通过梯度下降方式在下游任务上进行全参数微调(fine-tuning)。尽管这种方式取得了许多 SOTA 结果,但微调后模型被固定用于某个单一任务,整个参数集都被替换 ,这在面对多个任务时成本高昂且难以扩展
另一种流行的替代方案是上下文学习(In-Context Learning, ICL),该方法通过输入带提示的示例,引导模型完成任务 。少样本提示通常将少量的输入-输出对组织为自然语言指令和示例,再加上一个待预测的未标注样例。ICL 的最大优势是无需梯度更新,模型即可立即适用于多种任务。因此,其性能完全取决于预训练阶段学到的能力。


另一种替代方案是参数高效微调(PEFT),这种方法基于预训练模型,在更新过程中仅对少量新增或特意选择的参数进行调整。


(3)T-Few 方法的设计
①模型与数据集
首先需要挑选一个预训练模型。
在理想条件下,
该模型经过微调后仍能在新任务上达到较高性能。
研究者通过前期实验将多种PEFT方法应用于不同预训练模型,
发现T0方法表现出色。
T0基于T5[1],
是一种基于编码器-解码器结构的Transformer模型[33].
②非似然训练与长度归一化 :作者在训练之前采用了非似然训练与长度归一化两种方法,并使语言模型在少样本微调中的性能得到了显著提升。


③使用(IA)³进行参数高效微调



以下是图表以及总结:

(IA)³图解与T-Few配方中所采用的关键损失项概述。左侧展示:(IA)³开发了学习向量lk、lv和lff,并采用元素级乘法运算(标记为⨁)来重新缩放注意力机制中的键(keys)、值(values)以及position-wise前馈网络中的内部激活;右侧则展示了除常规交叉熵损失LLM外还引入非似然损失LUL以降低错误输出概率,并结合长度归一化损失LLN将标准化的softmax交叉熵损失应用于各输出选项的长度归一化对数概率计算。
(4)Experiment





