ER论文阅读-LMR-CBT: Learning Modality-fused Representations with CB-Transformer for Multimodal Emotion R
LMR-CBT: Learning Modality-fused Representations with CB-Transformer for Multimodal Emotion Recognition from Unaligned Multimodal Sequences
基本介绍:FCS, 2024, CCF-B
原文链接:https://arxiv.org/pdf/2112.01697
Abstract
在多模态情感识别中,学习融合模态的表示以及处理未对齐的多模态序列是具有重要意义且充满挑战的任务。现有方法使用方向性成对注意力机制或消息枢纽来融合语言、视觉和音频模态。然而,这些方法在融合特征时引入了信息冗余,并且没有充分考虑模态之间的互补性,导致效率低下。本文提出了一种高效的神经网络,使用CB-Transformer(LMR-CBT)从未对齐的多模态序列中学习融合模态的表示,用于多模态情感识别。 具体而言,我们首先对三种模态分别进行特征提取,以获得序列的局部结构。然后,我们设计了一种新的带有跨模态块(CB-Transformer)的Transformer,能够实现不同模态的互补学习,主要分为局部时间学习、跨模态特征融合和全局自注意力表示。此外,我们将融合后的特征与原始特征拼接起来,对序列的情感进行分类。最后,我们在三个具有挑战性的数据集IEMOCAP、CMU-MOSI和CMU-MOSEI上进行了对齐和未对齐的实验。实验结果表明,无论在何种设置下,本文所提出的方法都具有优越性和高效性。与主流方法相比,我们的方法在使用最少参数的情况下达到了最先进的性能。
Introduction
多模态情感识别由于其鲁棒性和显著的性能表现,吸引了越来越多的关注(Nguyen等,2018;Poria等,2020;Dai等,2021b)。该任务的目标是通过视频片段识别人类的情感,涉及三个主要模态:自然语言、面部表情和音频信号。情感识别应用于社交机器人、教育质量评估和医疗保健等领域,尤其是在COVID-19期间,情感分析显得尤为重要(Chandra和Krishna,2021)。与单模态相比,多模态提供了更多的信息,能够充分反映情感状态。然而,由于来自不同模态的序列采样率不同,收集到的多模态数据通常未对齐。手动对齐不同模态通常需要大量劳力且需要领域知识(Tsai等,2019b;Pham等,2019)。此外,许多性能优异的网络无法在参数数量与性能之间取得平衡。为此,我们专注于学习融合模态的表示能力,并在未对齐的序列上高效地进行多模态情感识别。
在以往的工作中(Sahay等,2020;Rahman等,2020;Hazarika、Zimmermann和Poria,2020;Yu等,2021;Dai等,2021a),Transformer(Vaswani等,2017)大多用于未对齐的多模态情感识别。典型地,Tsai等(2019a)提出了多模态Transformer(MulT)方法,能够在未对齐的序列中融合来自不同模态的信息,而无需显式地对齐数据。该方法通过跨模态注意力模块学习元素对之间的交互,迭代地用其他模态的特征增强一个模态的特征。最近,Lv等(2021)提出了渐进式模态增强(PMR)方法,引入了一个消息枢纽以在各模态之间交换信息。该方法使用渐进策略利用高层次的源模态信息来进行未对齐的多模态序列融合。
然而**,MulT仅考虑模态对之间的特征融合,忽略了三种模态的协调性。** 此外,使用成对的方法进行模态特征融合会产生冗余信息。例如,在视觉-语言特征和视觉-音频特征的拼接中,视觉表示会重复两次。PMR考虑了三种模态之间的关联,但通过设计一个集中的消息枢纽来融合模态特征会牺牲效率。更具体地说,三种模态的信息需要与消息枢纽紧密且递归地交互,以确保特征的完整性,而这种操作需要大量的参数。此外,该方法没有考虑模态信息之间的互补性,而特征融合可以通过模态之间的交互简单实现,无需引入第三方。而且,近年来的方法由于使用了预训练模型,参数数量过多,难以应用于实际场景。
因此,为了应对上述限制,我们提出了一种神经网络,使用CB-Transformer(LMR-CBT)从未对齐的多模态序列中学习融合模态的表示 ,用于多模态情感识别。图2展示了LMR-CBT的整体架构。具体来说,
我们首先对三种模态分别进行特征提取,以获得序列的局部结构。对于音频和视觉模态,我们通过一维时间卷积获得相邻元素的依赖信息。对于语言模态,我们使用双向长短期记忆网络(BiLSTM)捕捉文本间的长期依赖和上下文信息。
在获得三种模态的特征表示后,我们设计了一种带有跨模态块(CB-Transformer)的新型Transformer,以实现不同模态的互补学习,主要分为局部时间学习、跨模态特征融合和全局自注意力表示。在局部时间学习部分,音频和视觉特征通过Transformer获取相邻元素依赖的表示。在跨模态特征融合部分,使用基于残差的模态交互方法,获取三种模态的融合特征。在全局自注意力表示部分,Transformer学习融合模态中的高级表示。CB-Transformer能够充分表示融合后的特征而不丢失原始特征,并且能够高效处理未对齐的多模态序列。最后,我们将模态融合特征与原始特征拼接以获得情感类别。我们在三个多模态情感识别的主流公共数据集IEMOCAP(Busso等,2008)、CMU-MOSI(Zadeh等,2016b)和CMU-MOSEI(Zadeh等,2018)上进行了对齐和未对齐的实验。实验结果证明了我们方法的优越性。此外,我们在性能和效率之间实现了更好的平衡。与主流方法相比,我们的方法在参数最少的情况下达到了最先进的性能。
我们总结了以下三个主要贡献:
- 我们提出了一种高效的神经网络,使用CB-Transformer(LMR-CBT)从未对齐的多模态序列中学习融合模态的表示(仅0.41M参数),能够有效融合三种模态的交互信息。
- 我们设计了一种带有跨模态块(CB-Transformer)的新型Transformer,以实现不同模态的互补学习,主要分为局部时间学习、跨模态特征融合和全局自注意力表示。CB-Transformer能够充分表示融合特征而不丢失原始特征,并且能够高效处理未对齐的多模态序列。
- 我们在三个具有挑战性的数据集上实现了性能和效率之间的更好平衡。与现有的最先进方法相比,LMR-CBT在参数最少的情况下实现了相当甚至更高的性能。

