Advertisement

Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory

阅读量:

UniPT: A Versatile Parallelizable Framework for Transfer Learning, Optimizing the Utilization of Parameters and Memory

简介

在大规模互联网数据上的大深度神经网络已经取得了显著成果,在多种计算机视觉(CV)与自然语言处理(NLP)任务中表现出色。最流行且直观地将迁移预训练知识引入下游任务的方法是全微调。然而这一方法对整个模型而言具有高昂计算成本,并且对于拥有百万级参数的大规模模型来说更为昂贵。此外,在较小规模的数据集上还容易导致过拟合问题。为此研究参数的有效迁移学习方法(即PEFT)获得了越来越多的关注它促进了通过调整部分网络参数或者引入少量可训练模块实现领域自适应。

现有的最优参数高效压缩技术(SOTA)在PEFT领域大致可分为三类:1. 参数微调策略:仅优化特定任务相关的可训练参数,并固定其余基础模型参数;2. 适配器微调:通常在每个backbone层后插入新的瓶颈形状模块(这是唯一需要微调的部分),新模块包含一个线性下投影、一个非线性激活和一个线性上投影;3. 提示引导策略:首先将固定数量的可学习向量作为额外输入附加到输入中,在此之后仅学习这些提示并在微调阶段冻结预训练模型的原始参数)。尽管上述PEFT方法显著减少了可训练参数数量及存储需求,但其在训练阶段仍面临内存消耗巨大的挑战(如图1所示)。具体而言,在所有这些PEFT方法中,“后传梯度”仍然需要穿过几乎完整模型架构才能完成传播过程(此处"后传梯度"特指未被冻结的部分)。这种内存密集的特点严重限制了PEFT技术在计算资源受限的实际应用环境中的适用性。

在这里插入图片描述

因此,最近的一些研究强调了在整个训练过程中参数和记忆效率的要求。特别是,实现良好平衡的最成功方法是梯子侧调整(Ladder Side Tuning,LST)。如图1d所示,首先通过保持与预训练的网络相同结构但将每个原始层维度减少预定义的缩减因子来构建轻量级侧网络。然后他学习静态门控梯子连接,以组合侧网络和预训练网络之间每层的成对令牌特征。然而,这种设计有几个潜在缺点:1. 可扩展性:侧网络与原始预训练网络共享线性结构复杂性,使其效率受到原始架构影响,即预训练网络越大,侧网络效率越低。2. 适应性:静态门机制无法动态适应不同样本的最佳聚合策略。相反,只是简单地总结了相应层的输出,并忽略了来自侧边和预训练网络的成对令牌。3. 泛化性:大部分之前策略主要适合Transformer家族。例如,在其他流形的神经网络中(CNN),LST的梯子门连接无法直接处理跨层特征之间空间维度和通道维度差异。因此,如何将这些PETL方法扩展到更多不同体系结构仍然是一个棘手的问题,而且还没有得到充分的探索。

基于上述分析与考量,在现有研究基础上本文首次提出了一种内存高效且具有普适性的PETL(Progressive Error Transfer Learning)策略命名为通用并行调整(Universal Parallel Tuning UniPT)。该方法通过引入一种轻量级可学习式并行网络来促进迁移过程其中该网络结构完全不受backbone架构的影响具有良好的扩展性并通过多架构实验得到了验证(泛化性能)。 UniPT系统由两个关键组件构成:第一部分为并行交互模块它通过打破各层间的固有顺序关系分别对各层进行独立处理从而实现了对各层次之间令牌特征的均等化处理并强化了每一层次内部更加具有区分度的特征表征;第二部分为置信度融合模块它采用自适应机制以整合跨层级特征信息并通过优化算法实现了最佳性能表现无需人工参数调节确保了方法的有效性和高效性

本文方法

本文所提出的UniPT体系包含两个主要组件:一个并行交互机制(Parallel Interaction mechanism)以及一个置信度融合机制(Confidence Fusion mechanism)。

通用并行调整

如图2所示,在预训练的基础上搭建一个小规模并行架构,并行网络将各中间层特征转化为与最终表示具有竞争关系的内容。其参数更新过程无需依赖大型预训练模型(如ResNet-50)所带来的高昂计算开销,并显著降低了整个训练过程中的内存占用需求。

并行交互层

本文构建了轻量级并行交互层,这些层独立于预训练的网络。如图2a所示,它们从预训练的backbone中提取每一层中间层作为输入,并独立地处理每一层特征。由于最后的输出具有相对更强大的表示范式和自适应能力,因此本文利用预训练网络最后输出作为每一层内交互指导。它们不仅自动选择每层内部的适当特征来补充最终表示,而且有效地保证了跨层相同位置特征在集成后具有良好的语义一致性。具体地,首先通过约简率r映射所有N层的K隐藏特征到统一维度d=D/r。在获得所有层特征F=\{F_{i}\in \mathbb{R}^{K\times d}|i\in {0,1,\ldots,N}\},计算第N层(查询)和其他层特征(键)层特征键内积矩阵。之后采用ReLU激活\sigma和L1范数消除所有负连接并生成查询特征和所有键特征之间的归一化注意力权重。考虑到这些权重偶尔是0,添加一个额外的单位矩阵偏差来获得最终的注意力权重M=\{M_{i}\in \mathbb{R}^{K\times K}| i\in \{0,1,\ldots,N-1\}\}。最后混合特征计算表示为:
M_{i}=L1Norm_{F_{i}}\sigma(F_{N}F_{i}^{T})+I,\quad F_{i}^{\prime}=M_{i}F_{i}
置信度聚合层

本文研究了一个自适应置信机制

在这里插入图片描述

不同backbone应用

该方法在不同架构\phi中得到了广泛应用,并涵盖包括卷积神经网络(CNN)、自注意力网络(Transformer)以及编码器-解码器结构等主要应用领域。UniPT系统由两部分组成:一是并行交互模块\psi,二是置信度融合模块\theta

在Transformer应用

如图3a所示,在现有架构基础上,UniPT实现了无缝整合。针对仅接收文本或图像作为输入的一类单模态特征编码器(如BERT或ViT),其处理流程包括以下几个关键步骤:首先将输入信息(即所有中间层的状态以及原始最终状态)经由\psi_{1:N}层进行初步处理,并通过\theta层进一步整合至最终特征输出。而对于类似CLIP ViL这样的跨模态特征映射,则需要将图像与文本的特征先被映射至同一维度空间,并与后续的跨Transformer \psi_{1:N}层进行关联。这种设计不仅保持了与预训练Transformer输出在数值大小及维度上的完整性,并通过平行的\psi_{1:N}层和\theta层增强了最终输出的质量。

CNN应用

基于二维卷积核的深度神经网络架构(如ResNeXt)在图像输入处理中展现出显著性能。各层具有不同的组块数量与结构设置,具体架构如图3b所示。不同层次之间的中间特征图在空间分辨率与通道数量上均有所提升,并通过数值倍增实现了信息量的有效扩展。鉴于各层次之间存在差异性特征提取需求,在跨层特征处理中单独操作将无法实现统一协调作用。为了避免计算开销的上升,在浅层特征提取过程中仍需采取相应的优化策略:即通过减少对单个层级特征信息的关注范围来降低复杂度水平。为此,在深入分析现有方法局限性后提出了一种新的分解机制:将标准交互层划分为预交互(Pre-interaction)与后交互(Post-Interaction)两个独立模块进行分别处理。这种设计不仅能够有效避免单门控机制导致的信息干扰问题,并且能进一步提升模型的整体性能表现

编码器-解码器应用

基于传统Transformer框架的扩展,在图3c中, 编码器-解码器模块被设计用于执行特定自回归任务, 其中一个典型的应用领域是多模态检测中的MDETR架构. 在开发新的编码器模块UniPT_E (ψE,θE) 时, 我们模仿并优化了原始Transformer架构的功能特性, 并在此基础上实现了有效的图像与文本特征融合. 对于解码部分, 解码模块 UniPT_D 接收输入 (ψD,θD), 这些输入不仅包含自身信息, 还包括来自编码部分 UniPT_E 的输出信息. 在设计交互机制时, 我们将其划分为前向交互和后向交互两个阶段. 首先, 在解码部分内部特征与编码部分输出之间建立交互关系; 然后通过这一机制的应用, 在每个后续的解码层都能够获得更加丰富的特征表示.

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~