【论文速读】Adapter tuning:Parameter-Effificient Transfer Learning for NLP
arxiv:1902.00751v2
摘要
在自然语言处理领域中, 微调大型预训练模型被视为一种高效的知识传递手段。然而, 在面对众多下游任务时, 单独进行微调会导致较高的参数消耗: 每个任务都需要构建一个新的独立模型, 这种模式不仅耗时耗力, 而且难以实现多模态或多领域的知识共享。**为此, 我们提出了一种基于适配器模块的知识传递方案: 适配器模块设计了一个紧凑而扩展性良好的解决方案, 它能够通过仅增加少量可训练参数实现跨任务学习, 并且能够在不重新访问已有知识的情况下支持新任务的学习与推理。具体而言, 该方法将BERT变压器模型部署到26个不同的文本分类子任务中, 并包含GLUE基准测试集作为评估指标。实验结果表明, 在所有26个子任务上(包括GLUE基准测试), 该方法达到了当前最先进的性能水平, 并且在每项任务上的新增可训练参数量仅为基础模型的3.6%。与直接微调相比, 在GLUE基准测试中的表现优于传统逐 task 微调方案(默认设置下使用的总参数量是基础模型的100倍)
导言
文章的核心思路是构建了一个adapter类似于适配器来实现对预训练模型微调所需参数的有效管理。具体而言该系统将预训练模型微调所需的参数从原先的大规模模型转移到若干个较小规模的适应器中从而实现了对下游任务性能的有效支撑同时显著降低了模型训练所需的参数数量并提升了整体效率。
Adapter tuning for NLP
我们提出了一套新型方法用于在多个实际应用场景中优化大型文本模型。该方法主要特点包括以下三点:稳定性、高效性以及泛化能力。
它获得了良好的性能
它允许按顺序对任务进行训练,也就是说,它不需要同时访问所有数据集,
它只为每个任务添加了少量的额外参数。
这些属性在云环境下具有特殊的价值,在云服务框架内多个模型需针对一系列后续任务展开训练从而要求实现高度共享的目标
在标准微调中进行优化时(或:在标准微调过程中),新增的顶层以及原始权重会被协同训练(或:协同优化)。对比而言,在适配器调优阶段(或:过程中),原始网络中的参数会被固定(或:保持不变),从而能够广泛应用于多个任务(或:应用场景)。
适配器模块有两个主要特性:少量的参数和一个接近标识的初始化。
1902.00751v2
摘要
在自然语言处理领域中,在对大型预训练模型进行微调时展现了显著的优势
导言
文章的主要思路是开发了一个adapter(类似于适配器),用于将预训练模型微调所需的参数从原先的大规模模型转移过来,并主要针对原先的大规模预训练模型将其转移到只需训练少量适应器模块。这种转移方式能够达到与传统方法在下游任务上表现相似的效果,并且通过这种方式大大减少了所需优化的参数量,并显著提升了处理效率。
Adapter tuning for NLP
我们提出了一种在多个下游任务中优化大型文本模型的策略。该策略包含三个主要特性:
它获得了良好的性能
它允许按顺序对任务进行训练,也就是说,它不需要同时访问所有数据集,
它只为每个任务添加了少量的额外参数。
这些属性在云服务环境中发挥着关键作用,在云服务体系中,许多模型需要对多个后续任务目标进行训练,并且必须实现高度共享
在常规微调过程中,在新增层与原有权重之间实现了协同训练。与之相比,在适配器优化策略中,则通过固定原始网络参数的方式实现了模块化设计。这种设计允许它们在不损失原有功能的前提下实现多功能扩展。
适配器模块有两个主要特性:少量的参数和一个接近标识的初始化。
外部链接的图片无法正常上传。网站可能存在防盗链配置,建议先将图片保存到本地设备后再进行上传操作。
为每个Transformer层增加两个适配器模块:首先是在多头注意力操作完成后的投影操作阶段,在此之后紧接着,在两个前馈网络结构单元之后
right:adapter拥有一个bottleneck(瓶颈),它相较于原始模型中的注意力和前馈层具有较少的参数量。该适配器还配置了一个跳跃连接。在调优过程中,绿色层会对下游数据进行训练活动,并涉及适配器、层归一化参数以及最终分类器等组件(图中未展示相关细节)。

左:我们在每个Transformer层中增加了两个适配器模块:首先在其多头注意力机制执行完毕后的投影操作后,并经两次前馈网络处理后。
右侧的adapter模块包含了一个瓶颈(Bottleneck),其中包含了相对于原始模型中的注意力机制和前馈网络较少的参数量。该模块还配备了跳跃连接。在适应器优化过程中,绿色层将对后续的数据进行训练,并涉及到了该模块及其各归一化子模块以及最终分类器
