Advertisement

语音的关键声学特征(语音情感特征提取)

阅读量:

本文综述了语音情感特征提取及其降维方法,主要从语音情感特征的分类、提取方法以及降维算法等方面展开。语音情感特征主要分为韵律学特征、音质特征和个性化/非个性化特征。特征提取方法包括基频特征(如自相关函数、平均幅度差法、小波法)、共振峰特征(倒谱法、LPC、带通滤波组法)、Mel频率倒谱系数(MFCC)提取、基于导数的非个性特征和深度学习特征提取。降维方法主要包括PCA、LDA、LPP、MDS、Isomap、LLE和Laplacian Eigenmaps,其中PCA和LDA是应用最广泛的方法。综上,本文系统梳理了语音情感特征的提取与降维技术,为相关研究提供了参考。

语音情感特征提取及其并运用降维处理的方法综述1

语音传递的信息主要分为两类:语义信息和声学信息。对语义信息的研究较为关注,然而声学特征同样蕴含着重要信息,既可以作为辅助语义信息进行研究和应用,也可以单独应用于语音情绪识别 任务中。

所以我们来看一下语音有哪些关键声学特征。


文章目录

语音情感特征提取及其降维方法综述[1]

复制代码
* 常用特征降维算法

语音情感特征分类

主要分为三大类

韵律学特征 (超音段特征/超语言学特征)

包括时长相关特征/基频相关特征/能量相关特征等

在这里插入图片描述

音质特征

涉及谱分析的相关特征,反映了声道形状变化与发声运动之间的相关性。目前,基于谱分析的相关特征主要包括线性预测倒谱系数(LPCC)和Mel频率倒谱系数。

语音情感相关的特征通常由以下这些构成:

在这里插入图片描述

此外,考虑到在不同民族与不同语种的语境下,情感表达呈现出显著的差异性,同时,个体之间的说话特征也存在显著差异。进而可以将语音情感特征划分为个性化与非个性化两类。

个性化语音情感特征:

在这里插入图片描述

个性化语言情感特征是一些个体化程度较高的指标,它们直接体现语言中的情感数值,这表明人与人之间在情感表达上存在显著差异,包含丰富的情感信息,不具备通用性。尽管已有较多研究,但将其有效应用于实际场景仍然面临较大挑战。

非个性化语音情感特征:

在这里插入图片描述
在这里插入图片描述

非个体化语言情感特征是反映变化幅度的导数指标,不受说话者个体特征的影响。

语音特征的提取

1.基频特征

基音周期(Pitch)等于声带振动频率的倒数。它指的是当人发出浊音时,气流通过声带腔道促使声带振动的周期。声带振动的周期即为基音周期。基音周期的估计则被称为基音检测(Pitch Detection)。

基频包含了大量表征语音情感的特征,在语音情感识别中至关重要

变化范围大,50-500Hz,且检测难度较高。

常用的基频特征提取方法有:

  • 自相关函数法(ACF)-时域
在这里插入图片描述
  • 平均幅度差法(AMFD)-时域
在这里插入图片描述
  • 小波法-频域
2.共振峰特征

从声学角度来看,声道可以被视为具有非均匀截面积的声管。当声音激励信号的频率与声道的固有频率相等时,声道将产生共振,其波形特征则被称为共振峰。

共振峰是语音信号处理最重要的参数之一,它决定着元音中的音质。

共振峰参数包括共振峰频率和共振峰带宽

不同情感发音的共振峰位置存在差异,当情感状态发生变化时,前三个共振峰的峰值发生显著波动,其峰值从低到高依次排列为第一共振峰、第二共振峰和第三共振峰。

通常采用第一共振峰、第二共振峰、第三共振峰的均值、最大值、最小值、动态变化幅度、平均变化速度、均方差,以及共振峰频率的四分之一分位点、三分之一分位点和四分之一分位点、三分之一分位点等统计特征。

常用的共振峰提取方法有:

倒谱法基于同态解卷技术,成功分离出基音信息和声道信息,从而可以直接获得共振峰参数。与直接进行DFT运算求取共振峰相比,这种方法更加精确,避免了由于基音谐波频率所带来的误差。

线性预测分析方法(LPC)
其核心概念在于将语音信号表示为过去若干采样点的线性加权和。通过最小化预测采样值与实际输出值之间的方差,可以系统性地求解出一组最优线性预测系数。基于此,从而可以推导出声道的传递函数模型。

在这里插入图片描述

通过取模H(z),可以得到该声道传递函数的功率谱。通过分析该功率谱,可以较为精确地确定该信号的带宽和中心频率。

带通滤波组法

3.Mel频率倒谱系数(MFCC)提取

基于人耳的听觉特性,MFCC被视为一种关键特征参数,其与频率之间的关系呈现非线性特性。在频率低于1000Hz时,人耳对声音的感知特性与频率呈线性关系;而当频率高于1000Hz时,感知特性呈现非线性关系。

Mel倒谱系数是基于非线性关系的分析工具,用于提取频谱特征信息。其作为频域语音分析的重要参数,具有良好的鲁棒性,且符合人耳感知特性。其频域特征的对应关系具有明确的物理意义。

在这里插入图片描述

人耳主观上采用Mel尺度来衡量音高的大小。具体而言,将1000 Hz、40 dB的语音信号音高定义为1000 Mel。在Mel尺度上,人耳对语音音高的主观感受呈现线性特性。进一步分析可知,人耳基底膜相当于一个非均匀的滤波器组,其在不同位置的细胞膜对频率的响应存在差异,每一部分对应一组滤波器,每个滤波器群对应一个中心频率和带宽,而每个滤波器的带宽大致为100 Mel。

为了模仿人耳的特征,研究者们基于人耳滤波器组的中心频率和带宽构建了一组Mel滤波器,其波形可见于图示。

在这里插入图片描述

MFCC系数提取过程:

在这里插入图片描述
在这里插入图片描述

以一阶差分MFCC系数:

在这里插入图片描述
4.基于导数的非个性语音情感特征提取
5.基于Teager能量算子(TEO)非线性特征提取
在这里插入图片描述

TEO 算子可与传统的基频、共振峰特征相结合形成新的语音特征。

6.基于深度学习的特征提取

常见特征降维度数的处理方法[算法]

主分量分析方法是一种通过降维技术提取数据核心特征的统计方法。
线性判别分析技术是一种基于线性组合进行分类的机器学习方法。
局部保持投影方法是一种用于降维的非线性方法。
多维尺度分析方法是一种通过保持数据的几何结构进行降维的技术。
等距映射技术是一种通过保持数据的局部几何结构进行降维的方法。
局部线性嵌入方法是一种通过保持数据的局部线性关系进行降维的技术。
拉普拉斯特征映射技术是一种通过图拉普拉斯矩阵进行降维的方法。

各类降维方法比较:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

刘振焘、徐建平、吴敏、曹卫华、陈略峰、丁学文、郝曼、谢桥对其语音情感特征提取方法及降维技术的综述性分析[J/OL].《计算机学报》, 2017, 1-22[2018年11月20日].http://kns.cnki.net/kcms/detail/11.1826.TP.20170813.1200.006.html.

全部评论 (0)

还没有任何评论哟~