Multimodal Fusion(多模态融合)

Jeff Dean表示,在中段期阶段的2020年里,在多任务学习和多模态学习领域将实现显著发展,并且能够解决更多相关的问题。他认为这种趋势将会非常有趣。
多模态学习
为使人工智能进一步加深对周围事物的理解能力,并非仅限于单一数据源的解析能力;该系统需具备解析多元模态数据的能力。通常情况下,多元模态系统需处理的主要任务包括:识别、分类、理解和生成不同形式的数据内容。
- 表征(Representation)。建立一个多模态信息的一致表征方法, 主要包括两组主要途径: 首先是基于协调表示的方法, 即每个模态分别进行映射, 并通过相关度距离约束其表示; 其次是联合表示的方法, 即多个模态共同映射生成统一的表征。
- 翻译(Translation)。一种从一种模态到另一种模态的转换方式, 可以分为基于候选集的例子式翻译(如检索任务) 和基于生成器的例子式翻译(Decoder-Encoder架构)。
- 对齐(Alignment)。探索各模态间子成分之间的对应关系, 包括显式的与隐式的对齐策略。其中, 注意力机制作为一种高效的显式对齐方法, 被广泛采用。
- 融合(Fusion) 。整合多模态信息的技术体系, 主要涵盖两类: 基于模型的agnostic融合方法(前后向传播均不依赖特定模型结构), 和基于模型深入融合的方法(如注意力机制等); 同时这也是本文重点整理的内容。
- 联合学习(Co-learning)。通过多源知识丰富性促进单源知识贫瘠性的学习过程, 分为平行学习(如迁移学习)、非平行学习(零样本迁移学习)以及混合型联合学习模式。
此图表源自多模态综述:Multimodal Machine Learning: A Survey and Taxonomy
接下来重点介绍一些多模态融合方法。
多模态融合 (Multimodal Fusion)
通常来说,模态指的是事物以特定方式呈现或存在的手段。而多模态则是指两个或多个不同模式的综合运用。在当前研究领域中主要针对图像、文本与语音等三种典型模式进行处理。之所以要进行多模态融合处理是因为不同模式之间存在差异性特征(导致信息量重复),同时也能从不同角度解析同一事物(体现出更高的解析价值)。此外,在实际应用中还可能涉及复杂的信息交互关系(使得特征提取更加全面)。综上所述,“冗余性与互补性的结合”是多模态融合的核心特征。

传统特征融合算法大致可分为三个类别:包括(1)遵循贝叶斯决策理论的方法、(2)建立在稀疏表示理论基础上的技术以及(3)以深度学习理论为基础的设计。传统的处理方式通常未经过系统整理;在深度学习框架中,默认遵循从基础到高级、从浅层到深层依次进行特征提取与信息整合的原则。
- pixel level 对原始数据的最低分辨率进行综合处理
- feature level 对抽象特征进行综合处理 这是应用最为常见的方法 主要包含两种形式:早期融合和后期融合 如上图所示 早期指先将特征进行拼接或相加后再输入模型 其缺点在于难以充分利用不同模态之间的互补信息 并存在冗余问题 可通过主成分分析PCA 或者自编码器AE等方法来缓解这些问题 而后期融合则是在特征提取的不同阶段分别生成结果后再进行综合处理 具体来说 不融合的方式类似于集成学习方法 各个模态的结果会在最终阶段统一评估 最大优点是可以增强模型的鲁棒性 当采用灵活的融合方式时 可以在多层神经网络的不同层级上实现特征的自由组合 这种方式具有较高的灵活性 如金字塔型特征融合结构
- decision level 对决策结果进行综合考量
- hybrid 综合运用多种不同的融合策略来达到最佳效果

就一些详细方法上,这篇文章主要整理部分博主自己看过的paper:
该特征提取方法主要依赖于矩阵运算;
该类算法通常基于传统神经网络架构;
该框架以生成模型为理论基础;
该策略的核心在于注意力机制的应用;
其他相关方法包括但不限于神经架构搜索(NAS)、生成对抗网络(GAN)以及图神经网络(Graph-based)等。
该方法通过结合矩阵与特征信息实现高效计算;
无需引入额外参数的shuffle和shift操作。
TFN(Multimodal Tensor Fusion Network)
首先是基于矩阵的TFN,TFN属于early fusion,是一个典型通过矩阵运算进行融合特征融合的多模态网络,即直接对三种模态的数据(如Text,Image,Audio)的三个特征向量X,Y,Z,进行:{h}_{m}=\begin{bmatrix}{ { {h}_x}}\\ {1}\end{bmatrix}\otimes\begin{bmatrix}{ { {h}_y}}\\ {1}\end{bmatrix}\otimes\begin{bmatrix}{ { {h}_z}}\\ {1}\end{bmatrix}
便得到了融合后的结果m,如下图:

缺点:TFN基于模态间的张量外积(Outer product)这一方法计算不同模态元素之间的相关性效果显著, 但这一做法会导致特征向量维度明显提升进而使模型规模显著增大使得模型规模增大而难以有效训练
该方法采用低秩矩阵分解技术(Low-rank Multimodal Fusion),源自Efficient Low-rank Multimodal Fusion with Modality-Specific Factors一文发表于ACL2018年期刊上。该方法可被视为基于张量外积的改进型(equivalent upgrade to Transformer-based fusion models)。其中具体实现见图示。通过将权重参数进行低秩矩阵分解(low-rank matrix factorization),该方法将输入序列经过张量外积操作后进行全连接处理(full connection),并将其输出可视为多个独立低维向量叠加的结果(sum of multiple independent low-dimensional vectors)。这种设计显著降低了模型参数的数量(number of model parameters)。

缺点:虽然是TFN的升级,但一旦特征过长,仍然容易参数爆炸。
PTP (polynomial tensor pooling)
源自论文《Deep Multimodal Multilinear Fusion with High-order Polynomial Pooling》,发表于NIPS 2019。
传统的双线性和三线性融合机制存在局限性, 无法充分释放多模态融合的能力以及受限于固定的交互顺序. 不可忽视的是, 简单地同时融合特征无法捕捉复杂的局部相互依存关系. 因此, 我们发展出一种基于多项式张量池化的新模块(PTP). 其核心思想在于通过连结模型输出并在后续层中执行低秩分解操作来实现多模态特征的有效整合.

另外一种处理矩阵的方法是采用两两组合的方式进行操作。这种技术最初应用于NEURAL TENSOR NETWORK(NTN),该模型最初被设计用于实体关系检测领域;不过博主认为这种方法同样具有一定的应用价值和趣味性。在该模块的主要工作流程中,默认将APO分别视为三个模态;通过这种方式能够生成T1、T2等中间矩阵,并最终融合出U这一综合结果作为输出预测值。

深度学习浪潮来袭后,可以在一定程度上缓解矩阵方法的缺点。
**深度结构化语义模型(DSSM)**在搜索引擎领域中是一种重要的模型架构。作为一种混合检索方法(late fusion),它利用深度神经网络将查询词和标题转化为低维语义向量,并基于余弦距离计算两者之间的相似度;此方法既能用于计算内容间的相似性评估任务、也能提取某一特定模态的内容特征表达;此外还支持多模态协同表征(例如:多模态数据可以通过统一映射空间实现联合表征)。具体而言:此方法既能用于计算内容间的相似性评估任务、也能提取某一特定模态的内容特征表达;此外还支持多模态协同表征(例如:多模态数据可以通过统一映射空间实现联合表征)。具体而言:多模态协同表征可以通过将不同模态的数据映射到同一空间实现)。

其他玩法:在训练过程中可以通过 recurrent residual fusion (RRF) 的机制采用多个残差模块,并通过递归网络生成三次迭代结果与原始输入进行 concat 操作,并最终完成特征融合。
Dynamic Fusion for Multimodal Data
现有的融合方法显得生硬且不够流畅。有没有更加流畅自然的融合方法呢?最常用的就是自编码器(AE)AE(autoencoder)这一方案最为经典:先对各个模态进行编码提取特征,在通过解码器将其还原成完整的特征表示;最后通过计算各特征之间的差异程度来进行优化训练。
基于AE的应用后,GAN的出现时间预计不会太晚.从图中可以看到,不再采用固定模态融合方式,而是通过自学习机制来实现'how'类型的融合过程.在处理过程中,视频与语音会被分别转换为统一表示后再参与对抗训练;其中,视频通常与语音配对使用,因此会在先完成融合步骤.

另在CVPR 2019年期间,《MFAS: Multimodal Fusion Architecture Search》首次采用基于神经架构搜索的方法进行how-wise融合
MFN(Memory Fusion Network)
出自Memory Fusion Network for Multi-View Sequential Learning的研究成果,在AAAI 2018会议上获得了认可。
自19至20年间起始以来, 注意力机制已成为学术界主导的研究方向,众多研究者致力于探索这一领域的深入发展路径。MFN作为一种创新性方法,主要通过融合时序特性和多模态特征,实现了对两者关系的全面建模与信息提取,从而显著提升了多视图数据的学习效果。该模型架构包含三个关键组件:首先, [Memory]单元的设计目标在于捕获上一时间步所有模态之间的互动关系;其次, 通过门控机制进行筛选;最后, 利用注意力机制分配权重以优化信息融合效果。具体而言,[Memory]模块能够有效整合不同模态的历史信息特征;[Gated]层则负责对输入信号进行筛选与过滤;而[Atnention]机制则用于动态分配各子模块之间的关联权重,从而实现对复杂数据关系的全局建模与精细刻画

淘宝视频中的多模态信息也具有非常丰富的特性。然而,在实际应用中若单纯采用LMF和TFN模型可能会导致参数数量急剧上升的问题。因此不得不对各个模态的特征进行降维处理。需要注意的是降维处理会带来一定的损失,在经过降维处理后的数据在进行外积运算时会失去一部分信息,并且这种情况下所得到的数据结果也会不如直接采用不同模态之间的特征拼接能够更好地保留数据特性。
实际上,在研究领域中

此外, 传统的分类任务通常只有一个目标, 而淘宝采用了一种层次分明的分类体系. 因此, 他们随后开发了一种叫做 HMC 的分层多标签分类器. 这种模型基于一种特殊的多目标损失函数设计, 即该模型构建了一个多层次的目标损失函数, 其中包含一级别别类间、二级别别类间的以及各级别别之间存在的各类别不匹配所对应的三种不同损失部分.
多交互式记忆网络
该文章同样采用了注意力机制,在生成文本与图像时采用基于Aspects导向的注意力机制来指导模型生成文本与图像对应的注意力向量。该方法采用了与注意力机制相似的技术(如参考记忆网络),具体来说,请参考下图中的Textual和Visual Memory Network框架,并通过GRU与Attention结合的方式进行多级特征融合优化
其重点在于:为了获取跨模态以及单模态内部的交互信息,该模型采用了Multi-interactive attention机制。值得注意的是,在多轮时Textual与Visual会通过注意力机制相互融合信息(感觉很像Co-Attention的处理方式)。

除此之外还有许多其他的玩法包括但不限于注意力机制的各种变种从最基础到复杂的架构都有详细的探讨涵盖了从最简单的自注意力机制到Transformer架构再到BERT系列的各种预训练模型都被深入研究
补充了ICLR 2020年的一篇文章。这篇论文是Transformer的一种变形。这种变形非常有趣。这项研究专注于多模态机器翻译任务——具体来说,在传统机器翻译的基础上加入了图像信息以辅助翻译过程。因为人类使用的语言各有不同,但人们的认知水平基本上是相同的。同一个图像所描述的意义在不同语言中会保持一致。

该方法较为简洁明了,在Transformer架构中的解码器端同样纳入了图片的表征信息(其中,在图中被重点标注的部分通常代表了核心内容),具体而言,在编码过程中使用的是Q向量(如图所示为H向量),而对应的图像特征则由K和V两个向量表征。随后通过注意力机制对语义相似的部分进行融合操作,最终将整合后的多模态特征传递至解码器完成翻译过程。
MCF(Multi-modal Circulant Fusion for Video-to-Language and Backward)
之前整理的研究工作主要聚焦于矩阵或特征分析。这篇IJCAI期刊上的文章则提出了一个多模态融合策略。

本文的核心在于研究基于循环矩阵的多模态特征交互方法。其具体操作方式即为将vector的每一行依次右移一位从而构建matrix这一过程,旨在探索不同模态向量之间的全部可能交互作用。其中V和C分别表示视觉特征和文本特征,通过以下步骤可实现特征间的有效融合:首先生成两个循环矩阵A=circ(V)和B=circ(C),随后将这两个矩阵与原特征进行交互即可得到融合后的表示G=\frac{1}{d}\sum^d_{i=1}a_i\cdot C和F=\frac{1}{d}\sum^d_{i=1}b_i\cdot V
Adversarial Multimodal Representation Learning for Click-Through Rate Prediction
继续补充一篇WWW20’的阿里论文报告,虽然主题是点击率预估相关技术研究中的融合方法这一领域的问题求解思路和创新点等部分的内容分享和讨论中发现了一些有趣的见解和观点。
传统的多模态融合方法通常通过将各模态特征依次连接来实现信息整合。这本质上等同于为每个模态设定固定的权重系数。另一种方法则是通过学习机制动态调整各模态的重要性,在不同任务中灵活应用这种能力往往能取得更好的效果。其中使用注意力机制进行特征融合是一种有效的方法。然而各个子空间之间既存在冗余性也存在互补性特性(即部分信息可能重叠而其他方面又互为补充)。值得注意的是基于冗余信息计算得到的动态权重可能无法充分捕捉到各个子空间的独特重要性。
为解决该问题,作者基于不同的分析视角,并考虑到不同模态的独特性与稳定性,并从其非确定性和冗余性两个方面展开研究。

因此,在传统的多模态融合框架(基于普通注意力机制的MAF)的基础上加入双判别器对抗网络(即DDMA),既能够有效捕获动态共性特征又能在一定程度上保持模型的稳定性和一致性。如图所示

双判别器是为了挖掘:
基于各类型数据间的共性分析(第一个判别器能够识别出一种源自共同潜在子空间的独特属性,并特别突出显示其模态一致性特征,从而干扰第二个鉴别器的工作流程)
通过知识共享促进各类型数据间的迁移学习机制研究(这一过程有助于促进各类型数据间的迁移学习机制研究).
Cross-modality Person re-identification with Shared-Specific Feature Transfer 补充一篇CVPR2020的最新论文作为补充材料,并介绍其行人重识别的核心融合策略具有创新性。
Cross-modality Person re-identification with Shared-Specific Feature Transfer 补充一篇CVPR2020的最新论文作为补充材料,并介绍其行人重识别的核心融合策略具有创新性。
仍然遵循着上一篇博文中提出的方法论框架,在当前研究领域内已有大量学者致力于探索如何通过整合不同模态数据到统一的空间模型中以实现共性表达的问题。然而,在仅关注共性特征的过程中所付出的信息损失不容忽视,并由此导致了对数据多样特性的潜在消退。
所以如何寻找不同模态间的 共同点和特殊性 ?从信息互补的角度来看,在分析各模态特性的同时需要考虑其特有的标识能力。那么如何实现二者的分离呢?即需要找到一种方法将这两类特性区分开来。研究者提出了一种基于跨模态共享特征转移的新算法(cm-SSFT):

(注:RGB图和红外IR图是两种模态)
- Two-stream。特征提取器输出了两种不同模态的特征表示。绿通道代表RGB颜色信息、黄通道代表红外(IR)信息;这两部分分别代表了颜色特性和红外特性、然后蓝色部分则体现了两者的共同共性和独特共性。
- 共享特定传输网络(Shared-Specific Transfer Network, SSTN)。识别同一模态及跨模态样本间的相似性关系,并通过共享与特定特征之间的传播机制,在不同模态间填补特定信息不足、强化共享特性表现力;这一方法 borrow 了生成对抗网络(GAN)中消息传递的思想;直观而言就是将共享特征求解为不同模态样本间的关系建模问题。
- 在特征提取器模块中我们增加了两个项目对抗重建块(Project Adversarial Reconstruction Blocks)以及一个模块化适应模块(Modality-Adaptation Module),以获取具有区分类别性的共享与特定特征; specificity discriminator 将每个共享特征归类到其对应的原始模态类别中;specificity projector 则将独特特征求解映射到共享特征空间中;最后将共享与独特特征拼接后的结果作为后续模块输入。

基于特征投射提升文本分类效果的方法。探讨共性与个性的文章有一篇发表于ACL 2020年。基本思路是通过特征投射改进文本分类技术。直接看模型有两个网络,分别是projection network (P-net)和common feature learning network (C-net).
- C-net:该方法旨在提取公共特征。其中,fp表示初始特征向量而fc表示共性特征向量。通过投影操作实现两者之间的关联:f_p^*=proj(f_p,f_c)
- P-net:该模型计算去除了公共影响后的个性化特征。具体而言,在学习过程中将输入文本的信息向量被映射到一个更具区分性的语义空间中以消除共同影响:f_p'=proj(f_p,(f_p-f_p^*))
这里所说的正交投影其做法是将输入特征向量fp按照特定规则进行处理使其模被限制在公共特征空间内从而使新生成的公共特征向量fp*仅携带xi相关的公共语义信息随后通过相减并再次进行投影操作最终得到的结果必然不在与公共特征向量fc正交的方向上

[ACL2021] A Text-Centered Shared-Private Framework via Cross-Modal Prediction
for Multimodal Sentiment Analysis
继续补挖掘共性和个性的文章,来自ACL21。这篇文章的任务是情感分析。首先作者认为在这个任务中,并不是所有模态都同等重要,即1文本在这个任务中更重要。因此2其他模态只是提供辅助信息,且可以被分为共享语义和私有语义。模型框架如上图,具体实现是通过掩码矩阵完成的。掩码矩阵的具体做法如下图,即1展开特征的每一维,可以利用注意力计算一些上下文权重,2卡阈值大的作为共享语义(图2中的卡了大于0.2),3所有维计算完毕后得到图3的结果作为共享掩码矩阵即可。而个性掩码矩阵是没有连上边的部分,数据模态独有的信息。

随后通过掩码矩阵计算各种注意力。在Transformer架构之后进行concat运算以实现共有的语义和两类私有语义即可。
补MM20的文章
- 1 现有多数多模态训练方案普遍采用一种常见策略:每个编码器分支专注于特定模态(通常涉及双路径处理),导致模型参数规模扩大,并且不同模态间的异质性未能得到统一整合;(SingleFlow)这一策略是否可行?
- 2 多模态信息融合的核心要素体现在两个方面:一是融合函数的设计原理;二是融合模块的具体实现位置。
无论如何从任何思路出发,在现有技术中仅能适用于对称特征的情形。
这一认识与双流架构的视角高度契合。
所以作者提出的解决方案为:
通过私有化Batch Normalization(BN),可以实现多种模态表示的一致性。其中,在Batch处理时首先会触发BN层的作用,并在其通道方向上应用仿射参数计算出偏置和方差;从这一角度来看,则表明这种设计使得我们可以将特征映射到任意尺度的可能性得以实现;因此为何不将这些参数纳入网络结构中呢?这样一来,在同一个网络中就能同时处理多种模态的信息;具体而言,在下图中可以看到:共享的空间卷积层(Conv)部分保持一致;而每个模态特有的BN层则进行了独立隐私保护。

双模不对称融合机制。通过 shuffle 与 shift 的方式,在不额外增加参数的前提下实现各模态之间的信息传递。其中,通过通道打乱顺序的操作增强了不同通道之间的多模态特征交互能力,并显著提升了整体特征表示效果(如图 a)。而 pixel-wise shift 操作则作为各通道内空间方向的融合方式(类似于上文中介绍的 circulant matrix),倾向于增强空间特征识别能力,并能有效捕获目标边缘处的细粒度信息(特别是针对小尺寸目标),其具体实现过程如图 b 所示。值得注意的是,在这一过程中并未引入额外参数,在两个不同的模态之间同时执行 shuffle 操作并完成非对称 shift 运算(如图 c)。

自适应多模态融合技术在面部动作单元识别中的应用研究
我们参考了MM2020的相关研究,并专注于融合部分的技术探讨。文章标题中的**"self-adaptive"**一词意味着模型能够自动选择最适合的模态特征。从而使得该模型具备良好的鲁棒性和自适应能力!这一过程可通过采样方法得以实现!
- 即为同时从三个模态的特征中进行采样。具体而言,在图的下半部分展示了这一过程:单个模态获得特征后横向连接形成矩阵,在各个维度上通过采样自动选择最合适的表现特征,并最终能够通过多轮采样获得更加丰富的表征信息。
- 不可避免的是,在经过上述处理后数据变成了离散形式而导致无法直接进行梯度传播。因此作者借鉴了VAE框架中的重参数化技巧,并采用Gumbel-Softmax方法来实现这一目标。

Attention Bottlenecks for Multimodal Fusion
久违了!又见面了!本文带来了最新内容!通过在两个Transformer之间引入一个共享令牌(shared token),从而起到不同模态之间的通信瓶颈作用(communication bottleneck),并有效地降低了计算注意力的需求(cost of attention computation)。如图所示为四种不同的融合方式示意图。

- late fusion缺乏跨模态信息的交互机制
- mid fusion通过引入注意力机制进行特征间的相互作用,并在后续层中展现出良好的效果
- bottleneck fusion则通过引入单个中间token来进行特征间的全局连接,并在各层中均表现出稳定性
- bottleneck mid fusion如右侧图所示,在局部层中实现共享令牌的特征融合过程
通过这种方式能够实现多模态交互在特定位置下的共享token集合限制。
这篇博文感觉越读越多…不过如您还有其他相关论文感兴趣的话,请在文章底部评论区留言。
另外,下一篇博文整理了在多模态领域中也很常见的应用领域:
- Cross-modal Retrieval 跨模态检索
- Cross-modal Video Moment Retrieval(跨模态视频时刻检索)
- Cross-modal Pretraining in BERT(跨模态预训练)
- Diversified Retrieval(多样性检索)
- Ad-hoc Video Search(AVS跨模态视频检索)
- Domain Adaptation(领域自适应,MMD,DANN)
- 多模态信息用于推荐系统问题(MMGCN,MKGAT)
- Zero-Shot Image Retrieval(零样本跨模态检索)
- Multi-Label Image Classification(多标签图像分类)
- Video Caption(跨模态视频摘要生成)
- 多模态预训练中的Prompt(MAnTiS,ActionCLIP,CPT,CoOp)
- 多模态预训练Prompt续篇(ALPRO,Frozen)
以上篇章不定期更新,更全更及时的集合请参考博主的索引:
