【论文速读】Adapter tuning：Parameter-Effificient Transfer Learning for NLP

阅读量：

arxiv：1902.00751v2

摘要

在自然语言处理领域中, 微调大型预训练模型被视为一种高效的知识传递手段。然而, 在面对众多下游任务时, 单独进行微调会导致较高的参数消耗: 每个任务都需要构建一个新的独立模型, 这种模式不仅耗时耗力, 而且难以实现多模态或多领域的知识共享。**为此, 我们提出了一种基于适配器模块的知识传递方案: 适配器模块设计了一个紧凑而扩展性良好的解决方案, 它能够通过仅增加少量可训练参数实现跨任务学习, 并且能够在不重新访问已有知识的情况下支持新任务的学习与推理。具体而言, 该方法将BERT变压器模型部署到26个不同的文本分类子任务中, 并包含GLUE基准测试集作为评估指标。实验结果表明, 在所有26个子任务上(包括GLUE基准测试), 该方法达到了当前最先进的性能水平, 并且在每项任务上的新增可训练参数量仅为基础模型的3.6%。与直接微调相比, 在GLUE基准测试中的表现优于传统逐 task 微调方案(默认设置下使用的总参数量是基础模型的100倍)

导言

文章的核心思路是构建了一个adapter类似于适配器来实现对预训练模型微调所需参数的有效管理。具体而言该系统将预训练模型微调所需的参数从原先的大规模模型转移到若干个较小规模的适应器中从而实现了对下游任务性能的有效支撑同时显著降低了模型训练所需的参数数量并提升了整体效率。

Adapter tuning for NLP

我们提出了一套新型方法用于在多个实际应用场景中优化大型文本模型。该方法主要特点包括以下三点：稳定性、高效性以及泛化能力。

它获得了良好的性能

它允许按顺序对任务进行训练，也就是说，它不需要同时访问所有数据集，

它只为每个任务添加了少量的额外参数。

这些属性在云环境下具有特殊的价值，在云服务框架内多个模型需针对一系列后续任务展开训练从而要求实现高度共享的目标

在标准微调中进行优化时（或：在标准微调过程中），新增的顶层以及原始权重会被协同训练（或：协同优化）。对比而言，在适配器调优阶段（或：过程中），原始网络中的参数会被固定（或：保持不变），从而能够广泛应用于多个任务（或：应用场景）。

适配器模块有两个主要特性：少量的参数和一个接近标识的初始化。

1902.00751v2

摘要

在自然语言处理领域中，在对大型预训练模型进行微调时展现了显著的优势

导言

文章的主要思路是开发了一个adapter（类似于适配器），用于将预训练模型微调所需的参数从原先的大规模模型转移过来，并主要针对原先的大规模预训练模型将其转移到只需训练少量适应器模块。这种转移方式能够达到与传统方法在下游任务上表现相似的效果，并且通过这种方式大大减少了所需优化的参数量，并显著提升了处理效率。

Adapter tuning for NLP

我们提出了一种在多个下游任务中优化大型文本模型的策略。该策略包含三个主要特性：

它获得了良好的性能

它允许按顺序对任务进行训练，也就是说，它不需要同时访问所有数据集，

它只为每个任务添加了少量的额外参数。

这些属性在云服务环境中发挥着关键作用，在云服务体系中，许多模型需要对多个后续任务目标进行训练，并且必须实现高度共享

在常规微调过程中，在新增层与原有权重之间实现了协同训练。与之相比，在适配器优化策略中，则通过固定原始网络参数的方式实现了模块化设计。这种设计允许它们在不损失原有功能的前提下实现多功能扩展。

适配器模块有两个主要特性：少量的参数和一个接近标识的初始化。

外部链接的图片无法正常上传。网站可能存在防盗链配置，建议先将图片保存到本地设备后再进行上传操作。

为每个Transformer层增加两个适配器模块：首先是在多头注意力操作完成后的投影操作阶段，在此之后紧接着，在两个前馈网络结构单元之后

right：adapter拥有一个bottleneck（瓶颈），它相较于原始模型中的注意力和前馈层具有较少的参数量。该适配器还配置了一个跳跃连接。在调优过程中，绿色层会对下游数据进行训练活动，并涉及适配器、层归一化参数以及最终分类器等组件（图中未展示相关细节）。

左：我们在每个Transformer层中增加了两个适配器模块：首先在其多头注意力机制执行完毕后的投影操作后，并经两次前馈网络处理后。

右侧的adapter模块包含了一个瓶颈（Bottleneck），其中包含了相对于原始模型中的注意力机制和前馈网络较少的参数量。该模块还配备了跳跃连接。在适应器优化过程中，绿色层将对后续的数据进行训练，并涉及到了该模块及其各归一化子模块以及最终分类器

全部评论 (0)

还没有任何评论哟~

【论文速读】Adapter tuning：Parameter-Effificient Transfer Learning for NLP

arxiv：1902.00751v2 摘要对大型预训练模型进行微调是自然语言处理中一种有效的传递机制。然而，在存在许多下游任务的情况下，微调是参数效率较低的：每个任务都需要一个全新的模型。作为一种替...

Adapter Tuning：详细解读Parameter-Efficient Transfer Learning for NLP

DiffusionModels专栏文章汇总：入门与实战前言：大语言模型实在是太火了，各种技术日新月异，研究diffusionmodels的从LLMs中找一些研究灵感已经是基操了。当模型比较小的时候，...

【论文笔记】Parameter-Efficient Transfer Learning for NLP

🍎个人主页：小嗷犬的个人主页 🍊个人网站：小嗷犬的技术小站 🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。基本信息标题:ParameterEfficientTransfer...

MetaLR: Meta-tuning of Learning Rates for Transfer Learning in Medical Imaging论文速读

论文速读 MetaLR:MetatuningofLearningRatesforTransferLearninginMedicalImaging 摘要方法实验结果 MetaLR:Metatunin...

Parameter-Efficient Transfer Learning for NLP

Abstract 对大型预训练模型进行finetune是NLP领域一个有效的迁移学习机制。然而在面临大量的下游任务是，finetuning是parameterinefficient的，因为每个下游任务...

【论文速读】Prompt Tuning：The Power of Scale for Parameter-Effificient Prompt Tuning

arxiv：2104.08691v2 摘要在这项工作中，我们探索了“prompttuning（提示调优）”，这是一种简单而有效的机制，用于学习“softprompts（软提示）”，以条件下冻结的语言...

论文阅读：Cross-Domain Transfer Learning for Dependency Parsing

文章目录摘要：关键词：一、简介： 1.1作者要讨论的问题 1.2作者提出的解决方法 1.2.1迁移学习 1.2.2预训练与协同训练 1.2.3作者的模型二、相关工作 2.1TokenLevel...

论文阅读笔记：Transfer Learning for Deep Sentiment Analysis

摘要：为了解决情感分类中数据不足的问题，本文通过一个专用的内存模块引入外部一般线索（本文称为情感嵌入），这部分信息来自于其他的数据，将这部分信息加入到神经网络的处理过程中，可以获得更好的泛化能力。本...

论文阅读：Large-Scale Transfer Learning for Natural Language Generation

迁移学习的思路是：先在大规模的未标注文本语料上无监督地预训练一个语言模型，再把预训练好的语言模型迁移到特定的任务上，对模型参数进行微调。目前迁移学习的大部分研究集中在文本分类和NLUnaturalla...

论文阅读之 Deep Transfer Learning for Person Re-identification

DeepTransferLearningforPersonReidentification 1\.摘要 2\.结论 3\.深度ReID模型 3.1概述 3.2各部分功能 3.3模型的测试 4\.深度迁...

是否确定退出登录?

【论文速读】Adapter tuning：Parameter-Effificient Transfer Learning for NLP

摘要

导言

Adapter tuning for NLP

摘要

导言

Adapter tuning for NLP

全部评论 (0)

相关文章推荐

【论文速读】Adapter tuning：Parameter-Effificient Transfer Learning for NLP

Adapter Tuning：详细解读Parameter-Efficient Transfer Learning for NLP

【论文笔记】Parameter-Efficient Transfer Learning for NLP

MetaLR: Meta-tuning of Learning Rates for Transfer Learning in Medical Imaging论文速读

Parameter-Efficient Transfer Learning for NLP

【论文速读】Prompt Tuning：The Power of Scale for Parameter-Effificient Prompt Tuning

论文阅读：Cross-Domain Transfer Learning for Dependency Parsing

论文阅读笔记：Transfer Learning for Deep Sentiment Analysis

论文阅读：Large-Scale Transfer Learning for Natural Language Generation

论文阅读之 Deep Transfer Learning for Person Re-identification