Advertisement

SER论文阅读:SPEECH EMOTION RECOGNITION WITH CO-ATTENTION BASED MULTI-LEVEL ACOUSTIC INFORMATION

阅读量:

论文:https://arxiv.org/abs/2203.15326
代码:https://github.com/vincent-zhq/ca-mser

题目:基于共同注意力机制的多层次声学特征语音情感识别

语音情感识别(SER)的目标是通过音频信息 alone 使机器 comprehension 人类的主观情感。然而,在这一领域仍面临诸多挑战性问题。本文提出了一种端到端语音情感识别系统,在整合多级声学特征的基础上引入了创新性的共注意机制。首先通过CNN、BiLSTM及wav2vec2分别对MFCC、谱图及深度声学特征进行提取;然后将这些特征作为多模态输入并借助所提出的共注意机制实现特征融合;最后模型在IEMOCAP数据集中进行评估并通过两种交叉验证策略实现了具有竞争力的表现。
自动情绪识别技术在人机交互及监控等领域发挥着重要作用,并已有多篇研究探讨声音信号与文本信号结合以提升情绪感知能力的方法。然而,在多数实际应用场景中直接获取相应的转录文本并非易事。
现有的自动语音识别系统生成的文字往往会包含较多误码率问题影响后续的情绪分析效果。
相比之下由于单一音频信号易于获取因此仅从音频信号中进行情绪感知相较于同时依赖多模态信号实现更完整的情感分析要更为便捷。
通过整合多种声音特征将语音情绪识别问题转化为多层次融合问题是一种有效的方式。

在这里插入图片描述

在将原始音频话语划分为多个片段后, 每个片段包含三个层次的声学信息(MFCC, 谱图和W2E), 这些信息被分别引入到各自对应特征编码器网络中, 并与提出的多模态融合机制结合, 最终实现情感识别。

在这里插入图片描述

本研究中采用leave-one-session-out(LOSO)验证策略作为对比实验的基础框架。我们提出的方法在该框架下分别实现了UA和WA方面的最优性能分别为69.80%和71.05%。其中,“留一个人说话”的验证策略能够使方法达到最高的UA值72.70%。此外,在经过平衡处理后仍保持良好表现的IEMOCAP数据集上,在WA指标方面其表现相当接近前者的UA得分,并取得了71.64%的优异结果

在这里插入图片描述

该方法综合运用了时域特征与频域特征的多级声学信息。
表2为不同声信息组合下模型性能的研究。
前三行分别对应单一声学信息层次的情感识别结果:MFCC特征、谱图特征以及W2E特征。
在最终的情感识别实验中发现,在所有测试条件下,W2E均表现出超越其他方法的优势。
此外,在融合过程中的消融研究也显示了所提出的共同注意机制的有效性。
通过消融实验的结果分析可知,在所有测试条件下,W A均达到了85.67%以上,较传统方法提升了1.56个百分点,证明了该算法的有效性。
对比实验结果显示,在采用加权W2E策略的基础上构建的整体分类系统,在测试集上的准确率较未采用共同注意力机制的情况提升了约4.42%至4.89%,进一步验证了该算法的有效性。
此外,对比分析表明,通过加权融合后的整体分类系统的鲁棒性较传统非加权融合方案有明显提升。
具体而言,对比实验结果显示,在测试集上的准确率较未采用共同注意力机制的情况提升了约4.42%至4.89%,证明了该算法的有效性。

在这里插入图片描述

我们开发了一种基于协同注意力机制并整合多层声学特征的SER系统。通过构建不同编码器模块, 该系统能够从原始音频信号中提取关键特征信息, 并为SER问题提供了多样的声学信息支持。此外, 我们采用了基于共注意机制的融合方法, 从而生成加权wav2vec2嵌入表示并整合最终特征数据。通过对IEMOCAP数据集进行实验验证表明, 我们的系统在多种不依赖于说话人特性的验证策略下展现出良好的性能水平。未来的研究方向在于结合来自不同语言或数据集的知识以进一步提升系统的泛化能力

全部评论 (0)

还没有任何评论哟~