Advertisement

论文阅读-Attention Bottlenecks for Multimodal Fusion(多模态特征融合)

阅读量:

一、论文信息

论文题目:

该平台提供了关于注意力瓶颈在多模态融合中的研究综述与实现方案

GitHub平台:官方文档 > https://github.com/google-research/scinic/tree/main/scinic/projects/mbt

会议: NIPS2021

作者团队:

文献:@article{nagrani2021attention,
标题:注意力瓶颈在多模态融合中的作用,
作者:Nagrani A, Yang S, Arnab A, Jansen A, Schmid C, Sun C.
期刊与时间:arXiv预印本:2107.00135
}

二、动机与创新

2.1 动机

人类具备同时处理多种信息源的能力,在认知科学中具有重要意义。然而,在开发统一模型方面依然面临诸多困难主要是因为不同信息源的学习过程具有显著差异;其中一些特定的信息源往往携带比其他信息源更为丰富的知识内容,并且各自采用独立的编码方式进行表征。鉴于各类型信号存在显著差异性特征,在实际应用中构建统一的数据处理框架仍然面临诸多技术难题。

Transformers 已经显示出在多种领域(如 ViT 对图像分类、ViViT 对视频分类以及 AST 对音频分类)的良好性能(参考链接: patch 并将其转换为一维序列的方法(因为这些模型能够处理不同长度的序列),常规扩展无需改变模型结构(可以直接将多模态 patch 序列输入到 Transformer 中)。这种方法使注意力机制能够在空间域和频率域之间灵活建模(即允许注意力在图像的不同时空区域以及音频频谱图中频率与时间维度之间自由建模)。然而作者指出,在所有层完全成对地使用注意机制可能是不必要的(因为视觉和音频输入通常包含大量细粒度信息中存在大量冗余),由于注意机制的时间复杂度与序列长度呈二次关系增长(这种情况下难以有效扩展到较长的视频)。

2.2 创新

第一种技术是一种常见的多模态学习方法,在这一领域中广泛应用。通过将跨模态的信息约束在网络的后一层来实现信息整合的同时,其余层则采用单模态学习策略以避免信息混杂的问题。该技术通常被称为Mid Fusion(中期融合)模型,如图所示即为Mid Fusion示意图。

本文的主要创新点在于提出了一种受限式跨模态注意力机制,在处理各子任务时实现了高效协同。该框架通过约束层内不同子任务之间的交互关系,在不影响模型性能的前提下显著降低了计算复杂度。具体而言,在模型架构中我们设计了一种新型的关键路径(如图所示),使得层内的跨任务交互必须经过这些关键节点进行整合处理。实验结果表明该方法较传统无约束版本具有显著优势,并且能在合理的时间预算内完成复杂的任务学习过程。具体而言,在layer内部的不同子任务之间需建立注意力关系;而单个子任务内部则采用传统的自注意力机制;层间的跨注意力计算则基于各子模块的部分特征表示进行操作

三、方法

在本文中,该研究提出了一种Multimodal Bottleneck Transformer(MBT)模型用于整合多模态数据。

3.1 The ViT and AST architectures

ViT和AST基于Transformer架构设计,在处理序列特征方面表现出色。具体而言,在RGB图像(或音频频谱图)中提取一组互不重叠的空间位置特征块,并将其转换为一维序列。

在这里,E代表一个线性投影操作符,在将每个token映射至R^d空间的过程中起作用;Zcls被定义为一个特殊标记,在分类任务中作为特征标识符使用;P则表示一种可学习的位置编码机制,用于标识输入特征的空间位置信息。

随后将token输入至包含L个Transformer层的编码器中。每个Transformer层主要包含三项:多头自注意力机制(MSA)、归一化操作(LN)以及多层感知机(MLP)。具体架构如下:

其中MSA过程采用点积注意力机制;通过同一个矩阵进行线性变换得到的queries, keys和values表示为:类似地,在涉及两个跨模态输入的情况下,则表示为:

3.2 Multimodal Transformer

3.2.1 Fusion via Vanilla Self-Attention

基于多模态数据的融合模型通常由常规Transformer构成。对于一个时长为t秒的视频clip而言,在开始阶段需要提取多个统一采样的RGB图像片段,并将其音频波形转换成一个谱图特征作为输入信号。随后采用类似于ViT架构的方法,在每个时间步上将提取到的图像片段与对应的音频谱特征进行联合表示学习,并将所有时间步上的特征连接起来形成一个序列。形式上,在从F个采样帧中提取出Nv个RGB图像片段和Na个音频谱特征后,则该输入样本对应的token序列可表示如下:

符号||被用来表示拼接操作。进一步地,在RGB patch与谱图patch之间,则采用了两种不同的投影函数进行处理。此外,在每个模态中分配了一个分类token,并赋予其类别标签Zcls-rgb这一特性使得各个模态之间具有明确的区分度。随后,在这些多模态token上应用传统的Transformer架构以实现跨模态特征融合过程。值得注意的是,在传统的Transformer架构中,默认情况下自注意力机制能够有效地整合来自不同源的信息(此处指视觉patches与音频patches)。

3.2.2 Fusion with Modality-specific Parameters

此外,在现有模型的基础上将其扩展至每个模态具有独立参数的情况,并通过注意力机制实现不同模态间的互动。随后采用modality-specific的方式训练各模式的参数以实现信息交换功能。从而作者设计了一个cross-transformer层:

在其中Zl是在拼接结果的基础上进行处理(文中未提及这一过程的具体细节),而cross-transformer的设计采用了两个不同的输入部分进行融合(不同于传统的transformer架构),其主要区别在于计算过程中采用了新的公式形式:将原来的自注意力机制替换为交叉注意力机制(cross-attention)。当参数设置相同时,在这种情况下本节所述方法与3.1节内容相同,在此情况下交叉Transformer采用交叉注意力机制完成相关的处理流程。

注意,交叉Transformer层的参数 ,对于每个模态都是不同的。

3.2.3 Fusion via Attention Bottlenecks

为了解决原始attention机制带来的计算复杂度过高问题,在输入序列中加入了B个融合瓶颈token,并通过这种方式降低了计算复杂性;

然后,在模型内部使用这些关键令牌来限定跨模态注意力。对于层而言,token遵循以下规则计算。

视觉信息和音频信息的向量(Zrgb和Zspec)仅限于通过瓶颈token来进行更新。研究者设定瓶颈token的数量远低于原始token数量以降低整体计算复杂度水平。在跨模态信息传递过程中,并非直接传递给另一方而是迫使每个模态自身先浓缩自身的信息之后再传递最重要的部分给另一个模态从而避免双方之间发生冗余内容的交换。在该公式框架下瓶颈token的向量经历了两个阶段首先是利用视觉信息进行一次更新接着利用音频信息进行第二次更新以确保模型能够高效地完成多模态融合任务。

3.3 Where to Fuse: Early, Mid and Late

通常,在ViT等架构中,每一层都由相同的操作单元构成。然而,在多模态学习中,一个常见的做法是通过深度模块分别实现各模态特征的增强与融合。

基于这一核心思想,在此过程中,作者具体而言,在此过程中首先采用了标准Self-注意力机制来对不同模态中的token进行建模,并在完成该步骤后将所有token进行拼接后得到一个整合后的表示;随后使用剩余的层来进行跨模态token信息的融合

当特定条件满足时,则与之相对应的是'早期融合';若特定条件满足则与之相应的为'晚期融合';当特定条件满足时,则与之相对应的是'中期融合'。即表示为:

其中,代表上一节中提到的三种融合策略。

3.4 Classification

对于上述的各种模型而言,在为实现分类目标的过程中, 应结合最后一步的输出结果与线性层进行融合, 并对经过Softmax处理后的数据取平均值以获得最终的分类结果。

四、实验

实验任务:视频分类;

数据源:AudioSet, Epic-Kitchens-100以及VGGSound(在附录部分还包含数据集Moments in)

Time and Kinetics上的结果);

本文使用ViT-Base作为backbone,bottleneck tokens的数目设置为B=4。

4.1 Fusion实验

本文对三种fusion方式分别进行了实验:

首先,在自注意力机制中最为基础的形式是层内注意力机制。这种机制允许每一层的注意力模块能够无限制地访问所有隐式的中间单元。具体而言,在这一过程中(也就是将视觉特征与音频特征进行连接后),所有的单一模态的信息都会被整合并直接输入到后续的标准transformer层中进行多模态信息的融合。

采用不同参数设计的简单cross-attention机制:在不同的transformer层中设置各不相同的参数配置时会发现即使在同一层内部各个不同的模态之间也会互相影响即这种情况下注意力机制依然能够充分整合各类信息

在该方法中,在每种模态的表示过程中,“更新过程”仅限于通过与瓶颈位置相关的注意力机制。“具体而言”,这意味着attention仅作用于单模态信息与瓶颈位置之间的关系。

上面提到的(2)(3)融合方式仅限于单层范围内,在探讨early、mid、late融合方式对模型性能的影响时,我们进行了关于Lf值的具体实验研究。

不同模态share weights:

本文就不同模态间共享权重的影响进行了相关实验研究。
具体结果可在附录中的图7部分查看。
当融合网络架构选择较浅层结构时,在保持独立参数设置的情况下表现更为优异。
对于深度融合架构而言,在共享权重设置上与前一阶段相比差异较小;
这可能暗示着模型前期各层主要捕获各自特定模态的信息特征,
在后续阶段则增强了多模态信息的整合能力。

融合层Lf的选择:

本文对(2)(3)和两种fusion方法做了不同融合层选择的实验,

在左侧图像中,在实验结果中表明(mid fusion相比early和late),这表明当将融合层置于较后的位置时(即较晚阶段),前面各层则负责分别提取每一种模态的独特特征。

attention bottlenecks:

从上图左侧可以看到,在不同融合层的选择下采用基于注意力机制的瓶颈层模型显示出优于简单交叉注意力架构的效果。实证研究显示本文提出的模型在计算资源消耗方面具有显著优势,并通过引入GFLOPs指标进行评估(如上图右侧所示)。具体而言,在采用了少量的关键瓶颈位置(B=4)时,在多模态信息融合性能提升的同时显著降低了计算负担。此外还对B=4、36、64、256、1024等关键瓶颈位置数目进行了实证研究发现各参数组合下的性能差异均不超过0.5mPA因此后续实验全部采用B=4设置从而实现了高效的多模态信息整合过程

4.2 输入采样和数据集大小

本节深入分析了不同模态上采样策略对模型性能的影响,并通过与单模态模型的对比展示了其优势。其中,在与仅专注于RGB图像的纯视觉transformer以及仅专注于音频信号的纯音频transformer的对比中,本文将分别仅专注于RGB图像的模型与其他两种模型进行了系统性评估和比较分析。

采样窗口大小t:本文提出的方法具备灵活处理不同输入长度的能力(值得注意的是,在Transformer中输入tokens数目通常是固定的;对于较短的序列,则采用填充技术以满足要求)。本文通过不同采样窗口t值(2、4、6、8秒)对视频进行实验。在推理过程中,作者采用了多窗口采样的策略以确保覆盖整个视频内容。从图中可以看出,在输入数量逐渐增加的过程中(纯音频模型performance同步上升),audio-only和audio-visual的表现持续提升;然而纯视觉模型performance下降(作者推测这可能与步长过长导致帧数量减少有关)。后文实验中设置t=8秒。

同步与异步采样:

在训练过程中应用Mixup regularizer时,在多模态输入上存在两种不同的实现方式——其中一种方式是通过从一组混合权重中按概率参数 α 进行采样来生成所有虚拟模式标签对。此外,在本文中我们提出了一种称为‘模式独立加权’的方法(Modular rerualizer),该方法为每个模式独立地采样各自的加权系数。与传统的Mixup regularizer相比,在AudioSet基准测试上表现出略微提升的效果。

数据集规模的影响 :上图右中体现了训练样本规模不同的差距。

4.3 性能提升

与单模态和sota对比:

attention maps的可视化:

五、总结

本文任务是视频分类,方法是多模态视觉(图像)和音频融合。

本文的主要思路是:原始transformer里面的attention层能够充分处理各token之间的关联关系。然而由于这种机制会导致模态内的重复信息被过多考虑从而造成计算资源的不必要的消耗因此本文对原始transformer中的attention机制进行了优化具体而言通过引入模态内注意力与模态间注意力相结合的方式实现了对计算复杂度的显著降低同时又能够保留住模型的有效表达能力其中ModNet采用中间融合策略(mid fusion)系统性地分析了融合层在不同模型阶段(early、mid、late)上的效果

全部评论 (0)

还没有任何评论哟~