Tailor Versatile Multi-modal Learning for Multi-label Emotion Recognition
题目:Customized versatile multi-modal learning as a means to multi-label emotion recognition
时间:2022年
总结:
1、作者构建了一个对抗性的多模态表征框架。该框架通过表征异质性表征共性与多样性的对抗性描述方式来提升标签表示的判别能力。
2、开发了一种类似于BERT的Transformer编码器结构,在整合过程中逐步融合这些表征,并将其与标签语义融会贯通(tailored label representation)。
3、
关键词:多模态多标签情感识别(MMER)、论文方法(TAILOR)、
文章目录
- 题目:Customized Multi-model Extraction for Multi-label Emotion Recognition
-
前言
-
1. 简介
-
2. 相关研究
-
3. 方法
- 3.1. 单模态提取器
- 3.2. Adversarial Multi-Modality Refinement
- 3.3. Label Modality Alignment
-
4. 实验
-
- 4.1. 实验装置
- 4.2. 实验结果与分析
-
5. 结论
-
前言
多模态多标签情感识别(MMER)致力于从异构的视觉、音频和文本模态中提取并识别各种人类情感特征。传统的研究方向主要集中在将多种模态投影到一个共同潜在空间中以学习统一表示,并试图通过统一表示来捕捉所有标签的共同语义信息。然而这种方法存在两个主要缺陷:其一忽视了各模态之间的多样性特征;其二未能充分挖掘不同模态与标签之间的关联关系。在此背景下本文提出了一种通用多模态学习框架TAILOR旨在通过细化多模态表示来增强各标签间的判别能力
总结:对抗性的多模态细化组件;基于BERT的Transformer编码器模块被设计出来,并采用逐层递进的方式融合这些表示;将其与关联语义信息相结合后能够生成特化的标签表示。
1. 介绍
在现实场景中,视频普遍具备多元表达形式,并采用丰富的情感标记如喜悦与激动进行标注。MMER是一种基于提取自视觉流、语音流以及文本序列的技术,用于从这些多模态数据中识别不同的情绪类型.
多模态学习(Baltrusaitis、Ahuja 和 Morency, 2019)整合了来自多个异构数据源的信息,并带来了两个关键挑战:模态内部表示与模态间融合问题。在处理模态内部表示时,研究者们主要关注于如何利用各模态的一致性和互补性来缩小不同模态之间的差异性。然而,在以往的方法中,默认的做法是将每种模态投影到共享潜在空间中以去除冗余特征。但这种做法忽视了一个重要事实:不同模式从不同角度揭示了情感的独特属性。就融合问题而言,在现有的多模式融合方法中主要可分为三类:基于聚合的方法、基于对齐的方法以及二者的混合策略(Baltrusaitis、Ahuja 和 Morency, 2019)。其中基于聚合的方法则采用串联(Ngiam et al, 2011)、张量(Zadeh et al, 2017)或注意力机制(Zadeh et al, 2018b)等技术手段来进行多模态信息整合;而基于对齐的方法则以潜在跨模式适应为中心思想,在此框架下将一种模式的数据转换为另一种模式的形式化表示(Tsai et al, 2019)。多模态学习的核心挑战在于如何同时兼顾各模式的独特性并实现整体一致性;以及如何通过交互式对齐机制实现不同分布模式之间的有效融合以完成跨模式整合任务
总结:
多模态学习两大关注点:一种是各模式内表征构建、另一种是异模式融合机制。
其关键难点主要体现在:
其一,在于如何在保障各模式多样性的同时整合共性特征;
其二,则是如何通过交互手段对齐不同分布的模式以达成跨模式融合。
该领域研究者(Zhang & Zhou, 2014)开发出了一种能够有效提取复杂对象丰富语义的技术。研究表明(Zhu et al., 2018)认为,在多目标学习中保持类别间的相关性至关重要。现有方法通常基于对不同类别之间相似性的分析来进行特征提取,并将提取到的相关特征进行整合。然而这些方法未能充分捕捉类别间的协作关系。另一方面近年来已有大量研究致力于分别从每个类别出发进行建模与优化这些独立生成的表征可能由于忽略了类间相关性的潜在联系而导致性能不足
综上所述,在多标签学习中,主要的难点在于如何有效地编码每个标签的固有特性和判别特性,在这两个不同的空间中。
针对这一难题,我们开发出了专门针对多标签情感识别任务的多功能多模态学习(TAILOR),该方法能够充分应对模态异质性和标签异质性。为了弥合这种差异,在三个关键领域中聚焦于模式交互、相关性以及模态依赖关系。
在模态特征空间中, 我们对预训练技术采取较低重视程度. 针对模态内部表示形式, 我们构建了一个对抗网络, 通过系统性地提取通用语义信息及其正交性约束条件下的共性和多样性特征. 针对跨模态融合过程, 我们提出了一种创新性的粒度级联融合方案, 其体系架构与BERT模型相似地采用了先进的Transformer编码器技术.
在标签嵌入空间中,我们采用了基于自注意力机制(如Vaswani等人的研究)来捕捉高阶标签之间的相互关联,并进一步整合以提取标签的语义信息。
为了解决模态特征空间与标签空间间的差异,在此基础上实现两者的融合与统一, 我们采用了基于Transformer解码器的技术路径, 将融合后的多模态表征与目标域中的知识进行精准对准, 其核心目标在于基于目标域知识引导各子任务的学习过程.
图 1 清晰展示了现有方法与本研究提出的方法之间的差异。主要贡献可归纳如下
该研究团队开发了一种专为多标签情感识别(TAILOR)设计的复合型多模态学习新框架。该框架通过对抗式的方式揭示了不同模态间的共性与差异性,并显著提升了标签表示间的判别能力。
该模型具备对抗性的能力来提取私有和通用模态表示。接着设计一个类似于BERT架构的Transformer编码器。采用分阶段的方法逐步融合这些表示。将这些表示与标签语义相结合。被系统化为定制的标签表示。
基于CMUMOSEI基准数据集展开的一系列详实的实验结果表明,TAILOR系统在配准与非配准配置中展现出卓越的性能特征。

总结:
在以下三个空间中捕获模态交互、label correlations以及label-mode dependencies。
通过adversarially extract private and universal modal representations。
随后设计一个类似于BERT的Transformer编码器,
通过粒度下降的方式逐步融合这些表示,
并将其与label语义相结合,
生成定制化的label表示。
2. 相关工作
情绪识别在单模态 、双模态 和多模态 方面已取得大量研究。不同模态间的融合效果直接影响整体性能水平。最直接的方法是通过连接各子空间特征图实现信息传递。考虑到各子空间间存在互补性,在此基础上提出了多种融合方法。这些方法主要包含张量融合(Zadeh et al 2017;Liu et al 2018)、记忆融合(Zadeh et al 2018a)以及分解融合(Valada、Mohan 和 Burgard 2020)等技术手段。这些传统聚合机制虽然有效但往往忽视了各子空间的独特性。为了弥补这一不足 近年来基于对齐的深度学习方法逐渐受到关注 其中生成对抗网络(GAN)等技术推动了对双模态或多模态联合分布学习的研究 (Pham et al 2018; Tsai et al 2018; Pham et al 2019; Mai, Hu, and Xing 2020)。在这种框架下 基于Transformer架构的方法开始展现出潜力 即可通过对齐操作实现一种子空间到另一种子空间的信息转换 (Goodfellow 等人 2014)。然而 这类方法往往忽视了各子空间的独特性 而近年来针对特定子流的设计则逐渐成为主流方向 (Wang et al 2020b)。在此基础上 提出了专门针对某一种或几种子流进行融合 并仅整合其特有的补充信息 (Wu et al 2019;Hazarika et al 2020)。例如 基于共同语义信息构建跨模式共享表示的同时仍能保持各自特有的模式特征
在多标签学习领域中,构建标签间相关性的模型已被广泛认可为一种重要方法(Zhang and Zhou 2014;Zhu, Kwok, and Zhou 2018;Feng, An, and He 2019;Wang et al 2020a)。然而,在某些情况下仅学习共享特征子集可能并非最佳选择。另一种关键策略是基于标签特异性进行的学习(Zhang and Wu 2014;Huang et al 2016;Zhang et al. 2021),其中每个目标类别通过识别关键指标如视觉注意力(Chen et al. 2019a,b)和文本注意力(Xiao et al. 2019)等来实现分类任务
近年来,多模态多标签情感识别受到了广泛关注。例如,在Ju et al 2020和Zhang et al 2021a的研究中指出,在除了标签间的相关性外,并对模态到标签以及特征到标签之间的依赖关系进行了建模。
总结
3. 方法
在本节中,我们首先给出了多模态多标签情感识别系统的数学模型描述。具体而言,在公式推导过程中采用了以下符号体系:小写字母用于表示标量值(如a),大写字母代表向量(如A),并用粗体标记矩阵形式的变量值(如a、A)。其中:
- X_v∈R^{dv×τv} 表示视觉模态的空间特征,
- X_a∈R^{da×τa} 表示音频模态的空间特征,
- X_t∈R^{dt×τt} 表示文本模态的空间特征,
- Y={y₁,y₂,…,y_l} 表示具有l个标签的目标空间。
系统的构建目标是通过函数F:X_v⊗X_a⊗X_t→2^Y的方式实现对未知视频数据的情感标签预测能力。
此外,在模型训练阶段引入了一种对抗性学习机制来提升跨模态信息融合的效果。
图2展示了TAILOR的主要架构设计框架及其核心模块划分情况。

“backprop”(即back propagation,反向传播之简称)
总结:
3.1. 单模态提取器
在 CMUMOSEI 数据集中每种模态的预提取阶段特征由异步协调序列进行表征。为了有效利用长时依赖关系信息,在本研究中我们采用了 nv-layer、na-layer 和 nt-layer 基于 Vaswani 等人(2017)提出的 Transformer 编码器架构分别对视觉特征、音频特征以及文本特征进行了序列级别的上下文增强。该编码器架构包含两个主要组件:多头自注意力模块与位置前馈网络模块。其中采用了残差连接机制(He 等人, 2016),随后实施了层归一化处理。最终我们成功地获得了新的视觉嵌入 V ∈ ℝ^{d×τ}、音频嵌入 A ∈ ℝ^{d×τ} 和文本嵌入 T ∈ ℝ^{d×τ} 表示形式。
3.2. 对抗性多模态细化
众所周知,在不同数据模式之间的表征差异越大,则其融合过程中的互补性就越强(Yu et al 2020)。然而,在单模式体提取器能够捕捉长期时间依赖关系的同时存在模式间隙的问题限制了其处理特征冗余的能力。基于对抗性网络理论的启发,在后续融合过程中我们设计了一种对抗性的多模式细化模块来辅助融合过程。该模块将多种模式划分为互不重叠的公共部分与专用部分以便于协作并分别实现异构模式的一致性和特异性的提取。
总结:多种模态分解为两个不相交的部分:公共表示和私有表示
为了保持一致性目标,我们设计了一个基于参数 \theta_G 的生成器 G(\cdot;\theta_G) ,其将各个模态映射至具有分布对齐的公共潜在子空间中。除共性外 ,每个模式都包含特定的信息 ,能够与其他模式互补。通过参数集合 \{\theta_v,\theta_a,\theta_t\} 构建了全连接深度神经网络 f_v(\cdot;\theta_v) 、f_a(\cdot;\theta_a) 和 f_t(\cdot;\theta_t) ,用于分别投影单模态嵌入 \{V,A,T\} 。公共和私人表示的形式则可表示为:

其中:

以确保常见表示和特定表示的独特性为目标

其中 W ∈ R d×3 是权重矩阵,b ∈ R τ×3 是偏置矩阵。 I 的真实模态标签表示为 O ∈ {Ov; Oa; Ot}

共有的表示C\{v;a;t\}被编码到一个共享的潜在子空间中,并且这些潜在子空间倾向于具有相似的概率分布。因此,在训练过程中,生成器G(\;;\theta_G)被激励以混淆鉴别器D(\;;\theta_D), 从而使得生成器无法区分输入数据C\{v;a;t\}的不同源模态。为了实现这一目标, 我们构建了一个训练数据集\mathcal{DC} = \{(C_v^i,O_v); (C_a^i,O_a); (C_t^i,O_t)\}_{i=1}^n, 其中针对共模态分类问题进行了相应的处理。常见的对抗损失函数为:

其中 LC 采用梯度反转层进行训练(Ganin 和 Lempitsky 2015),该层在整个网络架构中负责对输入样本执行正向传播而不修改其值,在逆向传播过程中则会将传递给上一层节点的梯度数值取反处理。

正交约束
通过正交损失对 C{v;a;t} 和 P{v;a;t} 中的冗余进行施加惩罚以实现对多模态数据不同维度的编码效果的具体而言

其中 ||·||_F² 表示 Frobenius norm 的平方。

其中 y^ j;m i 是用 Cm 预测的,y j i 是真实值。如果第 j 个标签相关,则 y j i = 1,否则为 0。
3.3. 标签模态对齐
在各自从private space和common space进行映射之后,为了实现multi-label classification task的整体表征,我们需要将这些表征进行整合。
层级式跨模态编码器 精炼的公共与私有表征能够整合具有一致性和互补性的信息内容,在此过程中有关模式之间相互作用的信息极为有限或缺失。直接将这些表征进行连接会导致忽视其间的相互作用关系,并可能导致冗余信息积累进而引发次优化结果(Zhang et al. 2018)。基于上述分析我们开发了一种类似于BERT架构(Kenton 和 Toutanova 2019)的新型跨模态编码机制以更有效地捕捉模式间的关系

图表 3展示了两种模态 A 和 B 之间跨模态编码机制 (CME) 的架构。经过融合后将三种表示(包括输入模态表达、标记嵌入和位置信息)输入到 Transformer 编码器中。
给定两种模态a和b,分别表示为A∈ℝ{d×τ_a}和B∈ℝ{d×τ_b},其中d代表维度大小, τ_{a,b}表示序列长度.一方面,为了保持两种模态的时间信息,我们采用位置嵌入矩阵E∈ℝ{d×(τ_a+τ_b)}对其进行增强.另一方面,由于异构特性,各单个模态的空间分布存在差异性,这使得多模态融合面临巨大挑战.为此类多模态融合问题带来了巨大挑战.为此类问题,我们通过分别向模式a和模式b引入两个嵌入矩阵EA∈ℝ{1×τ_a}和EB∈ℝ^{1×τ_b},以捕获两者的统计规律.如图3所示,将模式表征、位置嵌入以及模式标记嵌入进行叠加后输入至nc层Transformer Encoder模块中进行处理,得到两模式联合表达Z∈ℝ^{d×(τ_a+τ_b)}.整个跨模式编码器可形式化地定义为Z=CME(A;B).
此外,就粒度而言,视觉和音频模态比文本模态更细粒度(Alayrac et al 2020),这在现有的融合方法中很少被考虑。为了弥补这一缺陷, 我们设计了分层跨模态编码器(HCME)来利用不同粒度级别的跨模态交互。私有表示 P {v;a;t} 和通用表示 Cf{v;a;tg }以层次结构融合,并以粒度下降的方式逐渐相互补充

其中变量C由三个子部分构成:C_v、C_a和C_t之和,并且属于实数矩阵空间\mathbb{R}^{d\times\tau};同时变量M同样属于实数矩阵空间\mathbb{R}^{d\times4\tau}。HCME则通过建模为三个相互关联的模式组来实现数据融合。每对模式之间动态交互影响,并从中提取和整合关键信息。
总结:
标签引导解码器
标签相关性在有效的多标签分类中起着重要作用。对于原始标签空间Y = [Y1; Y2; · · · ; Yn] ∈ R l×d中的 l 个可能标签 ,我们使用标签索引来生成标签嵌入 L = [L1;L2; · · · ;Ll ] ∈ R l×d ,其中l是标签数量,d是标签维度,与模态维度相同。 ~k = {1; 2; · · · ; l}\k 表示除第 k 个标签之外的所有标签。 Lk ∈ R 1×d 是第 k 个标签的标签嵌入,而 L~k = [L1; · · · ;Lk−1;Lk+1; · · · ;Ll ]∈ R (l−1)×d 是 ~k 的标签嵌入。为了协作地利用标签相关性,我们采用了带有 hl 头的自注意力机制。对于第 i 个头,

其中rkk和rekek分别代表标签之间的特定关系;而rkek则反映其他l-1个标签对第k个标签的作用;相反地,rekk则体现第k个标签对其他l-1个标签的反作用;对于第i个多头结构而言,其语义嵌入S可表示为:

其中

基于按行缩放的方法,默认情况下计算出一个softmax向量sk=σ(rkk)vk+σ(rke_k)ve_k,在融合自身语义含义的同时也考虑到了与其他标签之间的协作关系;除了添加残差连接后再进行层归一化(LN)外,在此过程中我们还得到了最终特定于每个标签的结果

根据 tag semantics, there is an intrinsic dependency between tags and modalities. Consequently, the tag-specific semantic embeddings L ∈ R^{l×d} can be regarded as the teacher guiding the learning of each label's specialized representation. Building upon the design principles of the Transformer decoder (Vaswani et al., 2017), we propose a tag-guided decoder that leverages tag semantics to select discriminative features from joint multimodal representations M ∈ R^{d×4τ}. The underlying potential dependencies from modality space to label space are captured by hm-head self-attention mechanisms.

然后定制形式 H = [H_1; \dots; H_l] \in \mathbb{R}^{l \times d} 被前馈网络(FFN)以及带有残差连接的两层归一化(LN)所生成。

总结:
多标签分类
对于每一个具体的k值对应的某个特定的多分类问题来说,在该问题中将定制化的表示H_k输入到一个线性函数中,并随后会生成最终的sigmoid输出结果作为该多分类任务的结果

修改说明

关键在于将最后的多标签分类损失 L_{ml} 与其他几种如公共对抗性损失 LC 、私有对抗性损失 LP 以及公共语义损失 L_{cml} 和正交损失 L_{dif} 结合起来。最终的目标函数得以计算得出。

这里α、β和γ是权衡参数。
总结:
4. 实验
在本节中,我们对我们提出的 TAILOR 方法进行实证评估和分析
4.1. 实验装置
数据集
研究方法
实验结果

d是模态维度,t是序列长度
评估标准
基于最常用的技术(Zhang 和 Zhou, 2014),我们主要采用了四个典型的技术性术语:准确性(Accuracy)、微F1值(Micro-F1)、精确率(Precision)和召回率(Recall)。这些技术术语数值越高,则模型性能越优。
比较方法
在实验中采用多标签分类(MLC)方法进行评估与分析。具体而言,在经典技术BR(Boutell et al 2004)、LP(Tsoumakas和Katakis 2007)以及CC(Read等人2011)的基础上,在各类现有技术的各模态进行整合后作为新的输入数据集参与实验评估。而对于依赖单一模态的数据集而言,则仅采用对应的模态类型作为输入数据来进行分析研究。研究者还指出,在现有的多标签学习问题研究中发现了一种更为有效的视角:将多标签学习问题视为一种基于序列生成模型来处理关联性问题的方式值得深入探索与应用研究。此外,在另一种研究框架下——即LSAN模型——则综合分析了文档内容特征与标签语义关联关系,并在此基础上提出了一个多 modal 的联合学习方案以提升模型性能表现的同时构建相应的表示空间结构
在对比分析方面
研究揭示了
RAVEN 则
MulT 则
SIMM 基于
MISA 则
HHMPN 则采用
实现细节
我们配置了超参数 α=0.01、β=5×10^−6 和 γ=0.5。采用批量大小为64的数据处理方式。在单模态编码器部分设置了nv和na均为4,在跨模态编码器中选择了nc=3的数量级。编码器与解码器中的隐藏层数量为256个,并分别设置了8个头数(hl=hm)。TAILOR模型的所有参数均通过Adam优化算法(Kingma和Ba,2015)进行训练,并设置了不同的初始学习率:对齐设置使用了1e-5的学习率作为起始值,而未对齐设置则采用了较高的初始学习率值(即1e-4)。为了提升模型性能,在所有实验运行时我们采用了预热策略配合线性衰减的学习率计划方案。
4.2. 实验结果与分析
实验结果

表2:相较于最新的技术,在具有对齐的和未对齐的多模态序列方面, TAILOR 方法在多模态多标签 CMU-MOSEI 数据集上的预测性能表现尤为突出. 各评估标准的最佳表现均以加粗显示.
消融研究
旨在深入探讨 TAILOR 的性能特性, 我们对其中涉及的关键组成部分进行了系统性地考察: 包括 AMR 模块. HCME 模块以及 LGE 模块三个主要部分. 具体消融结果详见表 3.

表 3展示了TAILOR在CMU-MOSEI对齐数据集上的消融实验结果。其中,'w/o'代表移除分量而'w/'代表添加分量,其间的融合顺序是关键因素。MTE为模态令牌嵌入缩略语,LE为标签嵌入,LC则指代标签相关性参数。当采用相同权重时,则通过密集层实现各模态信息的整合。
以下是几个值得指出的观察结果。
最低水平的表现证实了对抗性多模态学习的重要性。通过整合这些技术到 AMR 优化过程中,并整合这些技术到 AMR 优化过程中,并整合这些技术到 AMR 优化过程中,并整合这些技术到 AMR 优化过程中,
这些指标(2)、(3)及(12)逐步提升。
• (4)、(5) 比(12) 更差,这表明联合考虑多模态数据的共性和多样性会带来更好的性能。
改变HCME 的融合顺序因融合顺序的变化而导致性能下降,在实验结果中发现第6和第7号模型的表现更为优异于第1至第5号模型,并证实了HCME在合理性和最优性方面的有效性
• (8) 比 (12) 更差,其中模态标记嵌入确实可以帮助弥合低级模态差距。
该文提到:在第10至12个实验结果中,在指标9的基础上逐步向理想状态发展,并且整体上优于第9个结果。
研究表明:基于模态特征的有效性特征不仅具备良好的标签相关性,并且能够显著提升各标签的区分度。
抗干扰能力研究 在多模态细化(AMR)模块中,我们通过综合优化常规抗干扰损失、专用抗干扰损失、通用语义相关项、正交约束项以及总体性能指标等关键指标,实现了模型的全面提升。

常见对抗性损失 LC 、私人对抗性损失 LP 和总体损失 LAll
如图4所示,在测试过程中,个人对抗损失 LP 和全局损失 LAll 基本呈现出单调下降并稳定趋近于零的趋势。相比之下,在初始阶段会出现波动但最终趋于稳定的常规对抗损失 LC 的表现更为理想。值得注意的是,在两种对抗学习方法均无法进一步提升系统性能的情况下达到了该系统的最优收敛状态。

此外,在AMR中展示了判别器D(·; θD)生成的概率分布情况。图5详细描绘了对于每个模态m而言,公共表示的概率P(v|Cm)、P(a|Cm)以及P(t|Cm),这些概率值围绕0:33展开,并未显示出明显的区分度。相比之下,在视觉模态为例的情况下,则呈现出显著的不同特征:P(v|P m)远高于P(a|P m)和P(t|P m),由此使得可分离性增强。
通过可视化对抗性表示的学习过程

图6:根据是否施加对抗性训练的情况,在无对抗性训练或存在对抗性训练时展示公共与私人表征的t-SNE可视化结果。其中绿色、蓝色和红色分别对应视觉形式、音频形式以及文本形式;而深色块对应于公共部位信息,浅色块则对应于私密部位信息。
通过公式1对学习到的任务间的相似度进行可视化呈现,以便更好地理解模型的行为机制及其可解释性

图 7:标识相关性视觉化展示,该图表展示了每行标识对每列标识的影响程度。其中蓝色区域的强度值越高,则表示其相关的程度越深。
总结
5. 结论
在本文中
