Advertisement

ER论文阅读-Multivariate, Multi-frequency and Multimodal: Rethinking Graph Neural Networks for Emotion Re

阅读量:

基本介绍:CVPR, 2023, CCF-A

原文链接:

https://openaccess.thecvf.com/content/CVPR2023/papers/Chen_Multi-Dimensional_multi-frequency_and_multimodal_re-examining_the_application_of_graph_neural_networks_in_affective_computing_proceedings_paper_from_CVPR_2023.pdf

Abstract

跨模态和上下文维度的高阶关系是对话情感识别任务中的一个主要障碍。然而,在以往的研究中往往采用松散的编码方式来处理多模态和上下文关系,在这种情况下可能会削弱对关系建模的效果。最近研究表明图神经网络在发现数据之间的关联方面具有显著优势,并为此类任务提供了新的解决方案。然而现有基于GNN的方法未能有效克服其固有的局限性包括假设成对关系的形式以及去除高频信号等问题虽然这些问题对许多应用并不构成实质影响但对于对话情感识别任务却至关重要。在本文中我们提出了一种基于 图神经网络 的模型该模型深入探讨了 多变量之间的复杂关系 并通过重视多频信号的变化来更加精准地捕捉情感差异性和共性的动态变化过程我们进一步增强了 图神经网络 在发现话语间内在联系方面的能力并实现了更为全面的多模态与上下文建模实验结果表明我们的方法在两个具有代表性的多模态对话情感识别数据集上均优于现有的最先进研究

1. Introduction

在人类日常交流中持续不断地表达内心的情感

如图1所示,在两个参与者之间进行了对话样本展示。我们选取话语u3作为示例进行分析。在视觉和音频信息方面(如面部表情空洞和平淡的声音),话语u3呈现出模糊的状态。当结合文本内容时,则暗示了隐藏的情绪。进一步地,在参与者之间的情感联系上存在显著的相关性特征:从参与者u2中使用昵称到参与者ug中使用全名的行为转变,这种转变反映了另一位参与者试图通过轻松幽默的方式引起注意的行为变化趋势。因此,在{u1, u2, u3}三个参与者的互动关系中包含了多个复杂的维度因素:包括模态特征和社会语境层面的关系网络构建过程

研究团队持续深入探究复杂关联的捕捉方式。现有ERC架构中主要采用基于内容的模块(包括循环单元或Transformer架构)来识别上下文关联,并结合多种融合手段构建多模态关联模型。尽管已有一定进展但现有方案未能充分反映不同模态与语境间的多元关联因为它限制了松散耦合模式下的自然交互机制。

最近, 图神经网络(GNN)在ERC中展现出巨大潜力, 并通过分析挖掘结构信息及数据关联的能力, 取得了显著进展. 一种常见的解决方案是设计一个异构图, 将每个话语的模态视为单独节点, 不仅与该话语中的其他模态相互连接, 同时也在同一对话过程中与其他相同模态的话语建立联系. 随后精心设计边权重策略. 在此框架下, 通过信息传播机制可同时建模话语间的多模态关联及上下文依赖关系, 实现更为紧密的耦合以及更加丰富的交互. 考虑到这些基于GNN的方法尽管功能强大, 但它们仍存在两大限制:

  1. 多变量关系不足。 传统的GNN假设对象之间是成对关系,并且只能通过多个对之间的关系提供对高阶和多变量关系的近似。然而,将这些多变量关系简化为成对关系可能会削弱其表现力。因此,之前基于GNN的方法可能无法充分建模ERC中的复杂多变量关系。
  2. 高频信息被低估。 已有研究表明,GNN的传播规则(即从邻居中聚合和平滑信息)类似于一个固定的低通滤波器,主要是低频信息在图中传播,而高频信息的影响被大大削弱。此外,Bo等人表明,低频信息保留了节点特征的共性,在同类图(链接的节点倾向于有相似的特征并共享相同的标签)中表现更好。相比之下,反映差异和不一致性的高频信息在异类图中更为重要。对于ERC来说,构建的图通常是高度异类的,模态之间(如讽刺)或短期上下文中可能存在不一致的情感信息。因此,高频信息可能提供关键的指导,但之前基于GNN的ERC模型严重忽视了这一点,导致了性能提升的瓶颈。

为了解决上述问题,在本研究中提出了一种新的深度学习模型——多变量多频多模态图神经网络(M3Net) 。该模型旨在通过更深入地挖掘不同模态间丰富的相互作用关系,并有效利用图中所包含的多重频率信息来提升性能。其核心架构由两个关键模块构成:一是用于实现跨模态特征提取的特征融合模块;二是负责捕捉时间依赖关系的时间序列预测模块。具体而言,在模型训练阶段采用了分步优化策略:首先通过自监督学习方法对模型参数进行预训练;随后结合 teacher-student 知识蒸馏机制完成模型微调任务;最后通过对比实验验证了该方法在复杂场景下的优越性

我们首先开发了一种带边相关节点权重的超图神经网络用于多因素传播过程,在这一过程中每个说话人的形式都被视为一个独立节点。
随后我们设计了融合多种模态与语境信息的超边结构这种结构能够灵活支持连接任意数量的话语单元从而有效地编码复杂的高阶关系。
同时我们利用无向图神经网络架构对多层次信息进行了建模通过动态调整一组可调参数来提取不同频次的数据特征。
最后我们实现了对不同频次数据流的动态整合在此过程中系统能够根据情感差异与共性自动调整其在本地邻域内的关注重点从而实现更加高效的自适应信息共享机制。

通过系统性实验在两个主流的跨模态ERC数据集IEMOCAP和MELD上进行广泛验证后发现,在性能上M3Net显著超越了现有的最先进的模型

2.1 对话中的情感识别

显示出显著的应用前景的情感识别任务(Emotion Recognition in Conversation, ERC)吸引了大量研究者的浓厚兴趣。在ERC框架下探索了多种途径以深入理解多模态信息及其关联性。早期的研究主要关注于基于上下文的特性,并采用较为基础的技术手段进行多模态信息融合。为了提升各模式间相互依存的关系程度最近的研究者们提出了多种创新方案例如位置注意力机制以及自适应计算方法等然而目前的方法仍采用相对松散的结合方式来处理多模态信息及其关联性

最近的研究者们成功地将ERC任务嵌入到基于图神经网络(GNN)的架构中。
该架构在发现数据间复杂关联关系方面展现出卓越的能力,并在建模上下文理解与多模态信息融合等方面取得了显著成效[12,18]。
然而尽管如此这些基于GNN的方法虽然取得了进展却仍然存在局限性即它们未能充分捕捉多变量之间的相互作用并低估了高频信号。

在本研究中,我们开发了一种新方法,旨在建立模态与上下文之间的多变量关联,并识别情感差异与共性的相对重要性.

2.2 图神经网络

图神经网络(Graph Neural Networks, GNNs)在建模数据间的关系方面展现出独特的优势,并已在多个领域得到广泛应用。例如,在推荐系统[16]以及动作识别[6]领域均取得了显著成效。这些模型也为ERC领域的研究提供了新的解决方案,并扩展到了从单模态到多模态场景的各类应用中[12-28][17][18]。然而,在当前的研究中仍存在两大局限性:一是现有模型仅能处理配对关系;二是难以有效捕捉高频信息的变化特征。这些问题促使我们进行了深入研究并提出了创新性的解决方案:通过改进现有的GNN架构设计,在捕捉语义间的深层联系方面取得了显著提升。

3. Methodology

概述而言,在此模型中旨在分析对话中各个言辞的情感状态。从形式上讲,在这个系统中一个对话由多个N个言辞构成

,其中每个话语

u_i

由说话者

p_i

发出,包含多感官数据,包括文本

u_i ^t

、视觉

u_i^v

和声学

u_i^a

模态。目标是从预定义的C类集中预测每个话语

u_i

该模型属于特定的情感类别。如图2所示,本研究提出了一种称为M³Net的新架构设计。其主要组成部分包括模态编码模块、多变量传播机制、多频率特征提取以及情感分类器四个核心模块。

3.1 模态编码

多参与者的对话活动具有明显的顺序性特征。鉴于此,在本研究中我们将重点分析单模态的话语生成机制其基本要素包括说话者的角色定位及其所处语境信息并基于此构建每个参与者的一维独热编码表示

s_i

用于维护一个包含M个说话者的索引表,并在第i个对话周期中计算每个说话者的嵌入表示

s_i

其中

S_i n athbb{R}{Dh}

W_s

这些权重被分配为可训练的参数。此外,在对话生成过程中,在每轮对话中交替地生成目标语言和源语言句子,并结合了多种先进的特征提取方法以提升生成质量。为了进一步优化性能,在初始阶段采用了基于单层全连接神经网络模型构建了多层感知机(MLP),并在后续阶段则引入了双向门控循环单元(GRU)模型架构以增强序列建模能力。经过大量实验测试发现,在仅使用单个隐藏层的情况下构建多层感知机模型能够显著提高系统的性能表现

W_1

W_2

,分别对声学模态和视觉模态进行编码。数学形式为:

其中

c_i^t, c_i^a, c_i^v n athbb{R}{Dh}

随后我们引入语音嵌入模型以实现基于说话者及其环境特征的单模态表征

 h_i^t, h_i^a, h_i^v

,其数学表达如下:

3.2 多变量传播

`多变量传播模块的核心理念是深入分析多模态以及对话上下文中所包含的多变量信息与高阶信息。我们首先通过序列编码的方式搭建了一个具有与边相关联的节点权重超图

athcal{H}

。 `**

3.2.1 图构建

通常,给定包含 N 个对话轮次的话语序列,我们构建超图

athcal{H} =

,其中每个节点

v n athcal{V_H}

对应于一个单模态话语,而每个超边

e n athcal{E_H}

编码了多模态或上下文的依赖关系。为每个超边

e n athcal{E_H}

分配一个权重

mega

,并且为每个超边

e n athcal{E_H}

和与其相关的每个节点 v分配一个权重

amma_e

。令

athbf{H} n athbb{R}^{|athcal{V_H}| imes |athcal{E_H}|}

表示关联矩阵,其中非零项

H_{ve} = 0

表示超边 e与节点 v相关;否则

H_{ve} = 0

节点: 每个话语的模态表示为超图中的一个节点,即,文本模态的

v_i^t

,声学模态的

v_i^a

和视觉模态的

v_i^v

。我们使用顺序编码的表示

h_i^t, h_i^a, h_i^v

来初始化节点嵌入

v_i^t, v_i^a, v_i^v

超边: 超边的设计基于假设,即对话中话语背后的情感主要由多模态和对话上下文的联合效应决定,并且在这两个维度上可能存在多变量关系。为了充分研究复杂的多变量关系,我们为每个节点构建多模态超边和上下文超边。具体而言,如图2所示,首先将每个节点

v_i^x

连接到相同对话中相同模态的所有其他话语 v_j^x|j n , j eq i,与一个上下文超边相连。此外,将每个节点

v_i^x

与同一话语的其他模态

v_i^z|z n t, a, v, z eq x

建立一个包含多种模式的多模态超边。通过这种方式构建的超图能够有效地捕捉高阶和多变量的信息,并超越单一成对关系的形式。

权重: 与先前基于图神经网络(GNN)的ERC模型不同,在于这些模型通过复杂的关系学习或相似度度量进行人工干预以优化边权值策略;而我们采用随机初始化的方法以防止模型过于复杂化。具体而言,在超图中定义了两类权值:i) 每个超边e上的边权值

mega

,ii) 每个超边 e与节点 v相关的节点权重

amma_e

,即与边相关的节点权重。直观地,

amma_e

评估节点v对超边e的影响程度后, 进而强化了细致层次的多元模态关系. 因此可以通过构建加权关联矩阵来推导出各边之间的权重.

at{athbf{H}} n athbf{R}^{|athcal{V_H}| imes |athcal{E_H}|}

表示:

3.2.2 领域聚合

我们对超图卷积操作进行了重构以实现多变量信息的有效扩散。为了减少计算开销,在迭代过程中舍弃了特征变换这一步骤。具体而言,在每一步中,我们首先通过聚合节点的特征信息来更新超边的嵌入表示,并随后利用超边卷积机制将各条超边的消息传递给节点。数学表达如下:H_{t+1} = \phi(\{h_v | v ∈ e\} ∪ \{r(e) ⊗ h_t\})

其中 athbf{V}^{} = v_i^x | i n ,

x n t, a, v  n athbb{R}^{|athcal{V_H}| imes D_h}

是第l层的输入,

igma

是非线性激活函数。

athbf{W_e} = ext{diag}, ..., mega

是超边权重矩阵,

D_{athcal{H}} n athbb{R}^{|athcal{V_H}| imes |athcal{V_H}|}

athbf{B} n athbb{R}^{|athcal{E_H}| imes |athcal{E_H}|}

涉及节点度矩阵以及超边度矩阵的相关研究较多。通过该方法逐步细化了高阶多模态信息及其上下文关联,在L次迭代后系统将输出最终状态下的特征向量

v_{i,}^x

作为多变量表示:

3.3 多频率传播

该多变量传播模块能够捕获超出简单配对关系的高阶依赖性,
然而它仍遵循通用图学习协议,
该协议通过聚合和平滑来自局部邻域的信息。
其功能可类比于一种低通滤波器,
其作用机制在于消息在传播低频信息的同时抑制高频干扰。
如同前面所述,
节点间的情感差异主要体现在高频信息上,
在情感识别对话任务中(ERC)
这类信息可能具有重要意义。
因此探索不同频率消息处理的可能性值得深入研究,
这一发现促使我们提出了一种**多频率传播机制,
用于提取不同频率成分及其重要程度。

athcal{G} =

$,与多变量模块并行。**`

3.3.1 图构建

我们构建了一个无向图

athcal{G} =

,其中节点

athcal{V_G}

athcal{H}

中的节点相同,表示为

f_i^t, f_i^a, f_i^v

。第一轮的节点嵌入初始化为顺序编码的表示

h_i^t, h_i^a, h_i^v

。与

athcal{H}

不同的是,我们构建了一组具有成对连接的边集

athcal{E_G}

。类似地,我们将每个节点

f_i^x

连接到同一对话中相同模态的所有其他话语 f_j^x| j n , j eq i,以及同一话语的其他模态

f_i^z | z n t, a, v, z eq x

。构建的图

athcal{G}

。如图2 所示,邻接矩阵

athbf{A} n athbb{R}^{|athcal{V_G}| imes |athcal{V_G}|}

。归一化图拉普拉斯矩阵表示为:

athbf{L} = athbf{I} - athbf{D_G}^{-1/2} athbf{A} athbf{D_G}^{-1/2},

其中

athbf{D_G} n athbb{R}^{|athcal{V_G}| imes |athcal{V_G}|}

是对角度矩阵,

athbf{I}

为单位矩阵。

3.3.2 多频率滤波

我们首先设计一个低通滤波器

athcal{F}_l

和一个高通滤波器

athcal{F}_h

,以从节点特征中提取信号:

值得注意的是,在图像信号处理领域中存在一种等价关系:高通滤波器与归一化的图拉普拉斯矩阵具有相同的定义。这种等价性在理论框架下得到证实,并且拉普拉斯核在图像处理中被广泛用于增强边缘信息中的高频内容。根据图傅立叶变换理论,在给定一个信号时

arphi

,通过

athcal{F}_l

athcal{F}_h

进行的滤波操作可视为信号

arphi

与对应卷积核之间的卷积操作:

3.3.3 图学习

从而实现了对低频与高频信息的有效融合

其中 athbf{F}^{} = f_i^x | i n , x n t, a, v n athbb{R}^{|athcal{V}_g| imes D_h}是第 k层的输入,

athbf{R}^l, athbf{R}^h n athbb{R}^{|athcal{V}_g| imes |athcal{V}_g|}

是低频和高频信息的权重矩阵。方程 (9) 可以表示为另一种形式:

其中

athcal{N}_i

是节点 i 的邻居节点,

r_{ij}^l

r_{ij}^h

分别是节点j的低频和高频信号对节点 i 的权重贡献,且它们满足约束

r_{ij}^l + r_{ij}^h = 1

为了有效学习方程 (10) 中的系数

r_{ij}^l - r_{ij}^h

我们借鉴了FAGCN策略,并引入了一个基于中心节点与邻居之间相关性的机制:

其中

plus

是拼接操作,

athbf{W}_3 n athbb{R}^{2D_h imes 1}

被称为可训练的权重矩阵。tanh(·) 被称为将输入值映射到区间 [-1, 1] 的双曲正切函数。通过这种方式实现系数的计算。

r_{ij}^l - r_{ij}^h

可以容易地对不同频率成分的重要性进行建模。对于实例,如果

r_{ij}^l - r_{ij}^h < 0

,则高频消息占主导地位,并且节点 i接收来自邻居 i与节点j 之间的差异

f_{i,} - f_{j,}

的高频消息,反之亦然。

我们逐步在图中扩散多频率信息。通过叠加K层后段落中的每个节点接收来自其K步邻居处获取的信息,并将该段落最终层的输出作为该节点处的多频率表示:

3.3.4 与FAGCN的区别

该多频率模块在图学习方面的规则与基于频谱自适应设计的图卷积网络(FAGCN)[2]高度相关。该网络通过灵活地整合不同频次信息来构建其架构。尽管我们受到该研究的启发,在具体实现上存在若干差异:一方面,在滤波器的设计上我们采用了调节参数以平衡两种基本矩阵的形式;另一方面,在特征提取策略上主要依据输入数据初始化节点表示,并非固定于第一层的信息传递过程;而我们的方法则逐步优化上一层输出以生成更精细的节点表示。在本节5.5中展示了两者的性能对比,并通过大量实验验证了我们提出的设计方案较之于现有方法具有显著优势。

3.4 情感分类

情感分类器通过其输入连接实现多种变量与不同频率的表示用于进行情感预测 数学上表示为:

其中

e_i

是话语 i的情感表示,包含多变量依赖关系和多频率信息。最后,我们将

e_i

输入到softmax层中以获得情感类别:

其中

W_4

是可训练的权重,

P_i n athbb{R}^C

表示话语

u_i

的预测标签。

3.5 训练目标

我们遵循之前的工作[18,24,使用类别交叉熵以及 L_2正则化作为损失函数:

其中,Num是对话的数量,c(i)是对话 i中的话语数,

P_{i,j}

y_{i,j}

分别是类别标签的概率分布和话语 j在对话 i中的真实标签。

ambda

是 L_2 正则化权重,

heta

表示模型中可训练的参数。

4. 实验

4.1 数据集

我们将对比 M3Net 的性能与现有研究,在两个流行的多模态数据集 IEMOCAP[3]和 MELD[22]中进行比较,并采用相同的实验数据划分方案及模态应用策略[5, 17, 18]。

该数据库包含来自10名说话者的双人对话数据共7,433条,并被标记为六种基本情感类别:开心(smile)、悲伤(cry)、中立(neutral)、生气(angry)、兴奋(excited)和沮丧(disappointed)。其中一部分用于开发模型...剩余的部分则用于测试评估。研究团队通过整合语言文字信息...结合语音信号分析来推断情感状态。

MELD 是一个多对多情感对话数据集,在《老友记》剧集中获取了相关数据。该数据集总共包含约1千4百轮对话和约一千三百七十条话语。每条话语会被划分为愤怒、厌恶、悲伤、喜悦、惊讶、恐惧或中立六种情感类别之一。其中约一千零三十九轮对话(共九千九百八十九条话语)用于模型训练任务;约一百一十四轮对话(一千一百零九条话语)作为验证集;剩余的数据则用于测试模型性能。研究工作参考了先前的研究成果[17, 18]

4.2 单模态特征提取

在本文中

该研究采用 RoBERTa Large 模型[22]进行文本特征提取,在微调过程中,首先通过对对话转录本的情感预测进行优化,并将输入到模型后,在经过四层处理后获得四个文本向量。这些向量经过标准化处理后取平均值以获得最终的文本表示。本文所采用的文本特征维度设定为1024。通过 openSMILE 工具包获取了声学特征信息[9]。在 MELD 数据集中利用预训练好的 DenseNet 模型获取视觉特征[19];而 IEMOCAP 数据集则采用了三维卷积神经网络(3D-CNN)来提取视觉特征。具体细节将在附录部分详细阐述

4.3. 基准模型

为了全面评估 M3Net 的性能, 将我们开发的模型与其他前沿技术方案进行对比分析。

  • CMN[14] 主要通过聊天记录捕捉对话中的上下文信息。
  • ICON[13] 是 CMN 的增强版,在其基础上增加了说话者间互动关系的明确捕捉。
  • DialogueRNN[24] 由三个 GRU 组成,在全局上下文、说话者状态和情感状态之间建立了系统化的关联。
  • MetaDrop[51] 通过设计了一种二进制选择机制来决定信息融合路径,并同时捕捉多模态特征及其关联关系。
  • DialogueGCN[12] 利用图结构编码复杂性较高的上下文信息,在每个对话窗口内构建了完整的节点联系网络。
  • MMGCN[18] 在跨模态数据处理上进行了深入探索,在异构图构建过程中实现了多模态特征的有效融合。
  • MM-DFN[12] 提出了一个基于动态图框架的信息融合模块,在不同语义空间中实现了更加灵活的信息交互。

4.4 设置和评估指标

该模型基于PyTorch和torch-geometric包进行实现。
该网络在配备NVIDIA GeForce RTX 3090的机器上进行了训练。
本研究采用主流评估协议,并以准确率(Accuracy)和F1-Score作为性能衡量指标。
我们通过配对t检验测试性能提升的显著性,并设置了显著性水平为0.05。
在L值与K值取值范围1至7之间进行了实验探索,并记录了最优表现结果。
两个数据集的相关超参数详细信息完整展示于表1中。
为了便于获取代码资源, 我们提供了官方访问入口, 具体链接如下:
https://github.com/feiyuchen7/M3NET

5. 结果与分析

5.1 与现有最先进方法的比较

在表2中对多种现有最先进的方法进行了对比分析。结果显示,在两个测试数据集上,我们的M³Net不仅超越了现有方法,在准确率和F1分数方面也取得了显著的进步。值得注意的是,在对比基于图神经网络的各种现有方法(如DialogueGCN、MMGCN以及MM-DFN)时,M³Net表现出色。我们相信,这种方法的优势在于深入挖掘并综合多模态信息及其不同层次的关联性。

5.2 来自BERT与GloVe的文本特征

如第4.2节所述,在本研究工作中, 输入的文本特征均来源于预训练RoBERTa Large模型提取。通过对实验数据进行分析, 我们发现相比于传统基于GloVe的语言表示方法, 该方法能够显著提高分类精度。为了进一步验证该方案在不同语料类型下的适用性, 我们采用了GloVe嵌入方法对测试集中的样本进行了分类任务训练, 并将结果与之前的方案进行了对比分析, 具体实验结果见表2。从中可以看出,M³Net在基于两种不同的语言表示方案下的性能指标均优于传统方法, 这表明该多维度、多层次建模策略较之单一维度建模策略具有显著优势

5.3 消融实验

为了更深入地了解该模型的组成部分结构特性,在完成主干网络架构设计后,在M³Net的基础上进行了一系列消融研究。

  • 多变量信息的影响 :我们首先探讨多模态和上下文中的多变量信息的影响。为此,我们移除了多变量传播模块(即超图
athcal{H}

)主要依赖多频率表示进行分类,并归类于表3中的变体1。在此设置下(即采用该方法),实验结果表明,在IEMOCAP数据集上模型的准确率降低了约2.40%,F1分数下降约2.44%;而在MELD数据集上准确率降低约0.54%,F1分数降低约0.69%。这些结果验证了引入多变量传播的有效性,并展示了这种传播机制能够自然地捕获更为复杂的关联性

M³Net的另一个关键组成部分是多频次传播模块(即一个多维度信息传递机制)。与之前相比,在不使用该模块的情况下(即仅依靠单一频次信息完成预测任务),我们观察到了显著性能下降(如表4所示)。这一发现进一步证实了引入不同频次信息到ERC框架中具有重要意义:它不仅能够提升模型对情感差异的理解能力(即情感特征间的区分度),还能够更好地反映情感共性的局部特征差异

我们将超图进行了详细阐述

athcal{H}

在本研究中采用的两种权重,在细粒度上精准地反映了多个变量之间的相互作用关系。为了验证上述设定的有效性,在变体3至变体5的实验结果中可以看出,在移除上述两种权重(即将上述两种权重设为零值)的情况下

mega

和/或

amma_e
  • 并发影响:在M³Net架构中我们设计了一种新的模块实现了各向异性特性的有效融合。
    具体而言该模块能够实现基于深度卷积神经网络的时间序列预测能力以及基于循环神经网络的空间特征提取能力。
    通过这一创新设计我们的实验结果表明新的架构在多个基准测试集上均取得了超越现有方法的显著优势。

6. 结论

该研究开发了一种基于图神经网络的方法来应对ERC挑战。本研究设计了多变量多频率多模态图神经网络(M³Net),深入探讨了模态与上下文间的多元关系,并充分挖掘了不同频段的数据特征。其中一部分代表了个体情感特征,另一部分则体现了通用的情感倾向。通过大量实证分析,在两个基准数据集上测试的结果均显示出我们的模型具有显著优势。

全部评论 (0)

还没有任何评论哟~