Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning

阅读量：

（1）Abstract

基于少样本的上下文学习使得预训练语言模型无需依赖梯度下降的方法进行训练，在输入部分加入少量示例后即可执行完全未见过的任务。然而由于ICL计算、内存及存储成本过高每次预测都需要处理全部示例**参数高效微调方案（包括适配器模块提示调优及稀疏更新方法等）则为这一问题提供了一种替代方案只需优化极少部分模型参数即可完成新任务

(2)Introduction

预训练语言模型已成为自然语言处理中的关键技术，因为它们可以显著提高任务的数据效率——即以较少的标注数据获取更优的结果。传统方法通常是在预训练模型的基础上，通过梯度下降方式在下游任务上进行全参数微调（fine-tuning）。尽管这种方式取得了许多 SOTA 结果，但微调后模型被固定用于某个单一任务，整个参数集都被替换，这在面对多个任务时成本高昂且难以扩展
另一种流行的替代方案是上下文学习（In-Context Learning, ICL），该方法通过输入带提示的示例，引导模型完成任务 。少样本提示通常将少量的输入-输出对组织为自然语言指令和示例，再加上一个待预测的未标注样例。ICL 的最大优势是无需梯度更新，模型即可立即适用于多种任务。因此，其性能完全取决于预训练阶段学到的能力。

另一种替代方案是参数高效微调（PEFT），这种方法基于预训练模型，在更新过程中仅对少量新增或特意选择的参数进行调整。

（3）T-Few 方法的设计

①模型与数据集

首先需要挑选一个预训练模型。
在理想条件下，
该模型经过微调后仍能在新任务上达到较高性能。
研究者通过前期实验将多种PEFT方法应用于不同预训练模型，
发现T0方法表现出色。
T0基于T5[1]，
是一种基于编码器-解码器结构的Transformer模型[33].

②非似然训练与长度归一化：作者在训练之前采用了非似然训练与长度归一化两种方法，并使语言模型在少样本微调中的性能得到了显著提升。

③使用（IA）³进行参数高效微调

以下是图表以及总结：

³的示意图以及T-Few配方中使用的损失项。左： ³引入了学习的向量lk、lv和lff，分别通过元素-wise乘法（可视化为⨁）对注意力机制中的键（keys）和值（values）以及位置-wise前馈网络中的内部激活进行重新缩放。右：除了标准的交叉熵损失LLM，我们引入了非似然损失LUL，降低了错误输出的概率，以及长度归一化损失LLN，将标准的softmax交叉熵损失应用于所有输出选择的长度归一化对数概率。

(IA)³图解与T-Few配方中所采用的关键损失项概述。左侧展示：(IA)³开发了学习向量lk、lv和lff，并采用元素级乘法运算（标记为⨁）来重新缩放注意力机制中的键（keys）、值（values）以及position-wise前馈网络中的内部激活；右侧则展示了除常规交叉熵损失LLM外还引入非似然损失LUL以降低错误输出概率，并结合长度归一化损失LLN将标准化的softmax交叉熵损失应用于各输出选项的长度归一化对数概率计算。

（4）Experiment

全部评论 (0)

还没有任何评论哟~

Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning

（1）Abstract 少样本的上下文学习使得预训练语言模型无需任何基于梯度的训练，仅通过将少量训练示例作为输入的一部分，即可执行从未见过的任务。然而，ICL的计算、内存和存储成本非常高，因为每次进行...

FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning

文章汇总动机 CLIP注意图更关注背景，全面微调后的CLIP关注在了非显著特征的地方。FDAlign注意图倾向于关注标签相关的信息。解决办法总损失有两个损失函数组成：对VisualEncode...

DEPT：DECOMPOSED PROMPT TUNING FOR PARAMETER-EFFICIENT FINE-TUNING

论文汇总当前的问题 1PromptTuning通常收敛缓慢，并且对初始化敏感； 2PromptTuning延长了输入序列的总长度，从而加剧了计算需求即训练/推理时间和内存成本，这是由于Transfo...

Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory

UniPT:UniversalParallelTuningforTransferLearningwithEfficientParameterandMemory 论文链接：https://arxiv.o...

MoELoRA: Contrastive Learning Guided Mixture of Experts on Parameter-Efficient Fine-Tuning for LLMs

为了增强大型语言模型（LLM）对下游任务的适应性，通常需要进行微调。尽管如此，更新数十亿个参数的过程需要大量的计算资源和训练时间，这对大规模模型在各种...在这项工作中，我们介绍了一种新的PEFT方法...

DFT: Parameter-Efficient Fine-Tuning with Discrete Fourier Transform

文章汇总动机相比LoRA，进一步压缩可训练参数以进行微调LFMs。效果如下：解决办法相比LoRA，这里的\DeltaW为E\in\mathbbR^2\timesn和c\in\mathbbR^...

ADALORA: ADAPTIVE BUDGET ALLOCATION FOR PARAMETER-EFFICIENT FINE-TUNING

更好且精简的解读版本： < 文章汇总 LoRA：W=W^0+\Delta=W^0+BA AdaLoRA：W=W^0+\Delta

论文解读：Pushing the Limits of Simple Pipelines for Few-Shot Learning External Data and Fine-Tuning Make

文章汇总作者打破常规FSL的规定，使用了外部数据来进行预训练，提出了:Pretraining→Metatraining→FinetuningPMF的小样本学习的新范式，即先在大的数据集上进行与训练，...

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

ParameterEfficientFineTuningforLargeModels:AComprehensiveSurvey PDF:<https://arxiv.org/pdf/2403.1460...

是否确定退出登录?

Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning

（1）Abstract

(2)Introduction

（3）T-Few 方法的设计

①模型与数据集

②非似然训练与长度归一化 ：作者在训练之前采用了非似然训练与长度归一化两种方法，并使语言模型在少样本微调中的性能得到了显著提升。

③使用（IA）³进行参数高效微调

（4）Experiment

全部评论 (0)

相关文章推荐

Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning

FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning

DEPT：DECOMPOSED PROMPT TUNING FOR PARAMETER-EFFICIENT FINE-TUNING

Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory

MoELoRA: Contrastive Learning Guided Mixture of Experts on Parameter-Efficient Fine-Tuning for LLMs

DFT: Parameter-Efficient Fine-Tuning with Discrete Fourier Transform

ADALORA: ADAPTIVE BUDGET ALLOCATION FOR PARAMETER-EFFICIENT FINE-TUNING

论文解读：Pushing the Limits of Simple Pipelines for Few-Shot Learning External Data and Fine-Tuning Make

Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

Parameter-Efficient Fine-tuning 相关工作梳理

②非似然训练与长度归一化：作者在训练之前采用了非似然训练与长度归一化两种方法，并使语言模型在少样本微调中的性能得到了显著提升。