Advertisement

语音情感识别研究进展综述

阅读量:

通过聆听语音来捕捉对方的情感状态变化是人类的一种能力。这是因为人脑能够感知并理解声音信号中包含的情感信息(比如语气词或语调的变化)。而自动语音情感识别则是一种模仿人类对声音中所蕴含的情感感知的技术。它的主要任务是从采集到的声音数据中提取表征情绪的声音特征,并探索这些特征与情绪之间的对应关系。这种技术作为计算机实现自我感受的重要组成部分,在构建智能交互系统方面发挥着关键作用,并且具有重要的研究价值与广泛的应用前景。

该领域的发展已持续约30年,在此期间,它吸引了全球范围内众多研究者的关注。尽管取得了一定的成绩,但也面临诸多挑战与考验。本文将基于现有研究成果,在语音情感识别领域的现状基础上展开探讨,并对未来的发展趋势进行了展望。

通常情况下, 一种基于语音的情感识别系统主要由三个核心组成部分构成: 一是语音信号采集模块, 二是情感特征提取模块, 最后是情感识别模块. 在这一过程中, 语音信号采集模块通过包括麦克风在内的语音传感器获取声音数据, 并将这些数据传递给情感特征提取模块进行声学参数分析. 最后经情感识别模块判定说话者的情绪状态. 需要强调的是, 建立一个完整且高效的语音情感识别系统除了上述三个关键环节外, 还必须完成两项前期准备工作:(1) 建立与情感相关的空间描述体系;(2) 构建丰富的情感语料库. 情感空间描述体系可以从离散标签型到激励-评价-控制空间等多种形式展开, 不同的空间描述标准会带来不同的情感识别算法设计思路. 情感语料库作为整个研究的基础工程, 其作用是向识别系统提供用于训练与测试的情感样本数据集. 国内外学者根据研究出发点的不同而对这一领域进行了多方面的探索与研究, 但无论如何深入探讨, 最终都可以归结到这五个基础模块之中

图 1(Figure 1)

4497-F1.jpg

Fig. 1 Framework of a standard speech emotion recognition system

图 1 语音情感识别系统框图

在此基础上,本文将首先对语音情感识别近40年的发展历程进行简单梳理。接着,本文将从五个关键领域展开深入分析: 情感描述模型、情感语音数据库、相关声学特征提取技术、语音情感识别算法以及其在实际应用中的表现。通过全面分析这些核心技术及其发展动态,我们旨在揭示当前语音情感识别的主要方法和技术趋势。最后,我们将探讨面临的技术挑战及其未来发展方向。

1 语音情感识别历史回顾

在20世纪80年代中期,开创了语音情感识别领域的先河[.随后,在1985年Minsky教授提出‘让计算机具有情感能力’的思想后,并随着人工智能领域研究者对情感智能重要性认识的愈发深入下,越来越多的科研机构展开了语音情感识别技术的研究与探索.

在80-90年代初期间,麻省理工学院多媒体实验室建立了"情感编辑器",对人类的各种情感信息进行采集.该系统结合人体生理数据、面部表情数据以及声音数据来进行基本情绪识别.随后又使机器能够以适当的方式回应这些情绪.与此同时,Moriyama于1999年提出了声音与情绪之间线性关联模型.基于这一理论构建了电子商务平台中的用户情绪识别系统.通过这种技术实现了声音情绪在商业环境中的初步应用.总体而言,声音情绪识别技术当时仍停留在基础研究阶段.其主要关注点集中在声音的声学特性分析这一领域.由于研究对象所选取的声音样本往往规模较小且缺乏自然性及复杂的语义内容,尽管取得了一定数量有价值的研究成果但尚未形成一套被广泛认可的统一理论体系与研究方法

自21世纪初以来,在计算机多媒体信息处理技术和人工智能领域快速崛起的背景下,在线语音情感识别研究逐渐获得了更高的关注度与紧迫性。

《Affective Computing》期刊以及自2011年起举办的Annual International Audio/Visual Emotion Challenge and Workshop(AVEC)竞赛共同构成了该领域的主要学术平台与重要研究活动。在这一领域中逐渐活跃起来的一系列科研机构包括:其中 notable的研究团队包括贝尔法斯特女王大学Cowie及其合作伙伴Douglas-Cowie领导的情感语音团队;麻省理工大学Picard领导的媒体实验室;慕尼黑工业大学Schuller负责的人机语音交互中心;南加州大学Narayanan领导的语音情感组;日内瓦大学Soberer领导的情绪研究实验室;以及布鲁塞尔自由大学Canamero领导的情绪机器人研究团队等.值得关注的是,我国在这方面的研究活动始于本世纪初,经过十年左右的发展,已有越来越多的研究单位开始投身这一领域,其中 notable的研究机构包括东南 University's Radio-Electronics Department, Tsinghua University's Interdisciplinary Research Center for Human-Computer Interaction and Media Integration, State Key Laboratory of Pattern Recognition, Zhejiang University's Artificial Intelligence Institute, Peking University's Center for Language Science Research, 和 Chinese Academy of Sciences' Language Research Division 等.

在近10余年间,语音情感识别研究领域已在多个关键领域取得了显著进展:首先是基于的情感描述模型的应用突破;其次是针对语音语料库构建的技术创新;最后是对语音语感特征解析方法的有效提升.

2 两类主流情感描述模型

情感描述方式大致可分为离散和维度两种形式.

前者将情感描述为分离的状态,并采用形容词标签的形式表现出来(如高兴、愤怒等),这种表达方式在日常社交中得到广泛应用,并常应用于早期的情感学研究领域。多样化的标签系统则记录了多种情绪状态,在这些情绪类别中哪些具有更为普遍的研究价值呢?这便引出了一个关键问题:基本情绪类别应该如何界定?即它们能够在不同文化背景下得到认同吗?表1列出了不同学者对基本情绪的定义和划分,在这一领域内最有影响力的是美国心理学家Ekman提出的6大基本情绪(亦称big six),这一理论模型在当前的情绪学研究领域得到了广泛应用。

表 1(Table 1)

table-icon.gif

Table 1 Various definitions of emotion from different researchers[

表1 不同学者对基本情感的定义[

学者

基本情感

Arnold

anger:愤怒;aversi:厌恶感;courage:勇气;dejection:沮丧感;desire:渴望;despair:绝望感;dear:爱慕者(注:此处根据具体语境可做调整);hate:怨恨;hope:期待;love:爱情(注:此处根据具体语境可做调整);sadness:忧郁症

Ekman, Friesen, Ellsworth

Anger, disgust, fear, joy, sadness, surprise

Fridja

Desire, happiness, interest, surprise, wonder, sorrow

Gray

Desire, happiness, interest, surprise, wonder, sorrow

Izard

anger(愤怒),contempt(轻蔑),disgust(厌恶/作呕),distress(感动/悲伤),fear(害怕),guilt(愧疚),interest(兴趣),joy(快乐),shame(耻辱),surprise(惊讶)

James

Fear, grief, love, rage

McDougall

Fear, disgust, elation, fear, subjection, tender-emotion, wonder

Mower

Pain, pleasure

Oatley, Johnson-Laird

Anger, disgust, anxiety, happiness, sadness

Panksepp

Anger, disgust, anxiety, happiness, sadness

Plutchik

Acceptance, anger, anticipation, disgust, joy, fear, sadness, surprise

Tomkins

Anger, interest, contempt, disgust, distress, fear, joy, shame, surprise

Watson

Fear, love rage

Weiner, Graham

Happiness, sadness

Table 1 Various definitions of emotion from different researchers[

表 1 不同学者对基本情感的定义[

后者则将情感状态描述为多维情感空间中的点.这里的情感空间实际上是一个笛卡尔空间,空间的每一维对应着情感的一个心理学属性(例如,表示情感激烈程度的激活度属性以及表明情感正负面程度的效价属性).理论上,该空间的情感描述能力能够涵盖所有的情感状态.换句话说,任意的、现实中存在的情感状态都可以在情感空间中找到相应的映射点,并且各维坐标值的数值大小反映了情感状态在相应维度上所表现出来的强弱程度.由于维度情感模型使用连续的实数值来刻画情感,因此在有些文献中又被称作连续情感描述模型[.一些既简单又能被广泛使用的维度情感描述模型有二维的激活度-效价空间理论(arousal-valence space)、三维的激励-评估-控制空间理论(valence-activation-dominance space)[和情感轮理论(emotion wheel)[等.其中,激活度-效价空间理论如图 2所示[:垂直轴是激活度维,是对情感激烈程度的描述;水平轴是效价维,是对情感正负面程度的评价.情感状态的日常语音标签和该坐标空间可以进行相互转化,通过对情感状态语言描述的理解和估计,就可以找到它在情感空间中的映射位置.

图 2(Figure 2)

4497-F2.jpg

Fig. 2 Arousal-Valence emotional space

图 2 激活度-效价情感空间

两种不同的表达模型各有特色:就模型复杂度而言,在建模过程中离散化描述型模型由于其形式更为简洁明了而具有更强可解释性的优势,在实际应用中尤其适合初期研究者快速入手并推动相关工作的发展。相比之下,则需要面对定性情感状态向定量空间坐标转换这一关键问题;从情感表征能力来看,在现有技术条件下离散化情绪表征型方法仍然存在明显的局限性:通常仅能刻画单一有限类型的简单情绪,在日常生活中人们的感受却是极其复杂的多层次多维度且带有一定模糊性的(例如,在受到惊吓时既表现出明显的惊讶情绪又可能伴随害怕或恐惧等负面反应;再如对于愉悦程度的态度既可以表现为微喜到极度狂喜不等不同层次的变化过程)。可以说目前二者在表征形式上仍存在较大差异有待进一步完善:而基于多维连续化的定量分析方法则通过全面细致的角度切入较好地解决了这种差异带来的挑战,并通过精确量化手段大大规避了单纯依赖离散标签所带来的模糊度问题。最后我们采用表格形式系统梳理并展示了这两种情绪表征方法间的异同点对比见表 2

表 2(Table 2)

table-icon.gif

Table 2 Comparison of two emotional representation models

表2 两种情感描述模型的区别

考察点

离散情感描述模型

离散情感描述模型

情感描述方式

形容词标签

笛卡尔空间中的坐标点

情感描述能力

有限的几个情感类别

任意情感类别

被应用到语音情感识别领域的时期

1980s

2000s

优点

简洁、易懂、容易着手

无限的情感描述能力

缺点

单一、有限的情感描述能力

无法满足对自发情感的描述

将主观情感量化为客观实数值的过程

是一个繁重且难以保证质量的过程

Table 2 Comparison of two emotional representation models

表2 两种情感描述模型的区别

3 具有代表性的情感语音数据库

开展语音情感识别研究需要具备支撑的情感语音数据库。

由此,我们定义了基于语言标签的情感语料库称为离散情感语料库,并将基于情感空间坐标值进行标注的语料库称为维度情感语料库.总体上而言,现有研究主要采用离散情感语料库作为研究重点,而现有关于维度情感语料库的研究仍需进一步拓展.本文将基于上述两大类对当前国内外有代表性的情感语音数据库进行简要评述.这些数据库虽然未能覆盖领域内大部分的语音资源,但在精挑细选方面表现突出,并且质量较高且具有广泛影响力.如需进一步了解相关情况,请参考文献

3.1 离散情感数据库

通常包含有限种类的基本情感类型的一个离散情感数据库,并且期望每种情感的表现都能保持单一性、浓烈度以及易识别性的标准。然而这正是生活化的自然语音难以满足的特点。因此,在现有研究中,大多数离散情感数据库要么是表演型的,要么是引导型的,或者是两者的结合应用。例如,在列举的一些代表性数据库中发现唯有FAU AIBO完全符合自然化的要求。

3.1.1 Belfast英语情感数据库

Belfast情感数据库[由Queen大学的Cowie和Cowie录制,由40位录音人(18岁69岁,20男20女)对5个段落进行演绎得到.每个段落包含78个句子,且具有某种特定的情感倾向,分别为生气/anger、悲伤/sadness、高兴/happiness、恐惧/fear、中性/neutral.

3.1.2 柏林EMO-DB德语情感语音库

DMO-DB源自柏林工业大学制作的一个德语情感语音库。它包含由10位演员(5男5女)分别扮演的不同角色对10个简单句子(长短结合)进行7种情感表达(如中性/nertral、生气/anger等)。总计收录了800条不同的情感样本,并采用48kHz采样率录制(最终压缩至16kHz),所有音频数据均采用16bit量化技术处理。为了确保数据的真实性和多样性,在采集过程中遵循标准原则,并严格控制文本内容为口语化表达而避免书面修饰。所有语音录制工作均在专业录音棚内完成,并要求每位演员在表演特定情感前通过模拟真实情景来训练自己的情绪表达能力。经过20位参与者(男女各十位)的情感识别测试,项目的识别准确率达到93.7%

3.1.3 FAU AIBO儿童德语情感语音库

该研究团队通过使用AIBO(索尼公司生产的电子宠物)游戏与51名儿童(年龄在10至13岁之间)进行了互动录音工作,并从中筛选出情感特征明显的声音片段。总录音时间为9.2小时(不计停顿),包含约48,401个单词。研究团队使用了一款高质量的无线耳机设备来进行录音,并采用DAT-recorder进行数据采集。声音信号被以48kHz采样率捕获,并随后压缩至更低的频率范围(即为16kHz),同时采用了16位量化技术。为了确保真实的情感表达,在录音过程中研究人员要求孩子们将AIBO视为 toys。

具备对他们的口头命令进行响应和执行的能力,然而,AIBO实际上是工作人员暗中进行控制的.标注任务由5名语言学专业的大学生共同承担,并通过投票的方式确定最终标注结果.标注内容涵盖了joyful、irritated、angry、neutral等11种情感标签.该数据库中共包含18,216个单词,被选为INTERSPEECH 2009年情感识别竞赛的数据集[.

3.1.4 CASIA汉语情感语料库

该数据库(访问链接:http://www.chineseldc.org/resource_info.php?rid=76)由中国科学院自动化研究所录制。该库由4位录音人(其中2位男性录音员与2位女性录音员)在纯净录音环境中(信噪比约为35dB)分别模拟了5种不同情感状态(包括高兴、悲哀、生气、惊吓和中性)对500条文本进行了演绎。采用16kHz采样率和16bit量化技术进行采集处理。通过有声辨听筛选后,最终留下了其中的9,600条数据。

3.1.5 ACCorpus系列汉语情感数据库

该系列情感数据库(http://hushi.tsinghua.edu.cn/accenter/fruit/database.html)由清华大学与中科院心理研究所共同录制而成,其中包含了以下五个相关子系统:ACCorpus_MM多模态情感数据库、ACCorpus_SR语音情感识别数据库、ACCorpus_SA汉语普通话情感分析数据库、ACCorpus_FV人脸表情视频数据库以及ACCorpus_FI人脸表情图像数据库。其中,在ACCorpus_SR语音情感识别子系统中,采用了由50位录音人(25名男性和25名女性)分别对五种基本情感类别(包括中性情绪、愉悦、愤怒、恐惧以及悲伤)进行演绎采集。整个过程采用16kHz采样率和16bit量化技术,并为每位录音者提供了完整的语音情绪片段以及相应的语音指令数据集。

3.2 维度情感数据库

对构建三维情感语音数据库而言,在采用了三维情感描述模型后,数据采集不受任何情感类别限制,并能包容所有具有任意性的情感信息自然语音而被纳入数据库之中。然而,在随后开展的情感维标签注工作却显得异常繁重。就目前情况来看,在三维领域内的情感标签注工作多采用评分制(如著名的FEELTRACE工具),即要求评标者根据语音中的不同情感特征进行评估并给出相应分数。尽管这一看似简单的评分机制实际上引发了评标者将主观感受转化为可量化的数值的具体思考过程

3.2.1 VAM数据库

VAM数据库[是一个以科学研究为目的的无偿数据库,通过对一个德语电视谈话节目“Vera am Mittag”的现场录制得到,语音和视频被同时保存,因此,数据库包含语料库、视频库、表情库这3个部分.谈话内容均为无脚本限制、无情绪引导的纯自然交流.以VAM-audio库为例,该子库包含来自47位节目嘉宾的录音数据947句, wav格式,16kHz采样,16bit量化.所有数据以句子为单位进行保存(1 018句),标注在Valence,Activation和Dominance这3个情感维度上进行,标注值处于-1~1之间.标注工作由多个标注者共同完成,最终的情感值是相关标注者的平均值.VAM-audio是一个应用较为广泛的情感语料库,在本文的后续研究中也会加以使用.

3.2.2 Semaine数据库

Semaine[数据库是一个面向自然人机交互和人工智能研究的数据存储系统,该平台允许研究人员免费获取相关数据(http:// semaphore-db.eu/).数据采集工作主要集中在人机交互平台的场景下,参与实验的20名用户(年龄范围为22岁至60岁,其中8名为男性,12名为女性)被要求与性格各异的4个AI角色展开对话(实际上,这些角色由专业工作人员扮演).具体而言,这4个AI角色包括:1)一名温和而智慧的Prudence;2)一名快乐而外向的Poppy;3)一名愤怒而冲动的Spike;以及4)一名悲伤而抑郁的Obadiah.所有录音工作均在专业配置的专业录音室中完成,并配有5台高分辨率、高帧频摄像

设备与4个麦克风协同工作以完成数据采集任务,在具体参数设置上采用48kHz采样率、24bit量化技术,并对持续时长进行了7小时左右的设定。在情感分析环节中,通过邀请多位参与者使用FEELTRACE工具对数据进行标记,并从Valence、Activation、Power、Expectation和Intensity五个情感维度展开分析。其中部分样本被纳入到AVEC 2012的竞赛基准库中。

3.3 语音情感特征提取

当前,在语音情感识别领域中,声学特征主要包含韵律学特性、基于频谱的相关特性以及音质特性等三类核心要素;这些特性通常是以帧为基本单位提取信息,并在此基础上通过计算全局统计量的方式参与情感分析过程;其中整体统计单元一般选取听觉上相对独立的语素或单个词素作为分析基础,并通过计算其极值属性及其变化范围等指标来辅助情感识别任务

3.3.1 韵律学特征

韵律表现为声音在语义层次之上所呈现的音调起伏(即音高)、时长大致(即音长)、速度与力度等方面的差异,并且属于一种对语音流进行组织与安排的方式。其是否存在并不会干扰我们对单个字词或句子的理解能力,并且其存在的意义在于能够使得整个句子在声调上更加流畅自然。韵律学特征又被称为"超音段特征"或"超语言学特征"这一特性在语音情感识别领域的研究中得到了广泛的认可,并且这一特性应用极为广泛

本研究基于一个Basque情感语音数据集进行了韵律特征分析研究。研究团队首先从每个情感语句中提取了能量值以及基频曲线与对数曲线,并进一步计算了一阶差分曲线及其二阶差分曲线。随后通过对各条曲线统计获得了包括最大值在内的84个特征参数(如均值方差变化范围偏斜度峰度等),最终构建了一个包含84个特征的韵律特征集合

通过这一方法Origlia等人在一个多语言情感数据库上实现了约60%的识别准确率

除了上述之外,研究者们进一步探讨了韵律特性和特定情绪类别之间的联系,并得出了截然相反的观点。此外,研究者们进一步发现,韵律区域的情绪辨别能力是相当有限度的。具体而言,愤怒、恐惧、愉悦和惊讶的情绪基频特征在表现上存在显著重叠

3.3.2 基于谱的相关特征

基于频谱的相关特征被认为是声道(vocal tract)形状变化和发声运动(articulator movement)之间相关性的体现[,已在语音信号处理领域内取得广泛应用[,通过对情感语音中的相关频谱特征进行深入研究发现,不同的情感内容会对声带振动产生的频率响应产生显著影响.例如,在高频区域表现为较高的能量水平;而在同样频率范围内,则表现出显著不同的低能量水平.近年来,在语音情感识别领域已有越来越多的研究者致力于利用这些特性进行分析.其中,OSALPC(one-sided autocorrelation linear predictor coefficient)[,LFPC(log-frequency power coefficient)[等;倒谱特征(cepstral-based spectral feature)一般包括LPCC(linear predictor cepstral coefficient)[,OSALPCC(cepstral-based OSALPC)[以及MFCC(mel-frequency cepstral coefficient)[等.

现有研究表明,在判断线性谱特征与倒谱特征在情感区分方面的相对效能时,并未得出明确结论。Bou-Ghazale对此展开了深入研究,并探讨了压力语音检测任务中这两种时域分析方法的表现。结果显示,在压力语音检测任务中,倒频域分析方法(如OSALPCC、LPCC及MFCC)在区分不同情绪方面表现更为卓越。然而,Nwe等人的研究表明则与此相悖。详细说明了基于HMM的方法用于多类情感识别的具体过程,并给出了LFPC高达77.1%准确率的数据。

3.3.3 声音质量特征

声音质量被视为赋予语音的一种主观品质指标,用于评估语音是否纯净、清晰以及易于辨识[.对声音质量产生显著影响的声学特征包括喘息音、颤音及含糊音等,这些特征通常出现在说话者处于激动情绪或难以自制状态的情形下[.在语音情感听辨实验中,声音质量的变化被一致认为与语音的情感表达之间存在密切关联[.在语音情感识别研究领域,衡量声音质量的主要声学特征主要包括共振峰频率及其带宽(resonance peaks and their bandwidths)、频率微扰和振幅微扰(jitter and shimmer)以及声门参数(glottal parameter)等多个方面.

研究团队从SUSAS数据库中提取了声音质量指标中的频率偏移量与幅度偏移量,并通过对这些语料数据进行分析研究

对前两类特征而言,在声门参数的应用方面则相对较少

此外,Sun等人在其文献[中对声门参数以及基频和能量等韵律特征所起的作用在情感识别过程中进行了系统分析与讨论.

3.3.4 融合特征

上述3种特征分别从不同侧面对语音情感信息进行表达,自然会想到使用它们的融合用于语音情感的识别,从而达到提高系统识别性能的目的.目前,使用融合特征进行语音情感识别研究是本领域的主流方法[将基频、能量、共振峰、谱倾斜(spectral tilt)的90维全局统计特征用于WCGS数据库中沮丧情绪的检测;Schuller等人[将过零率、能量、基频、声音质量、谐波噪声比、0~15阶MFCC等特征的

基于5967维的相关统计量的应用研究中,eNTERFACE[柏林情感语料库EMO-DB[以及合成语料库构成了交叉数据库的情感识别研究平台;Malandrakis等人[则采用了基频特征作为核心指标,并结合响度特征的能量分析,通过计算对数能量这一指标,进一步引入了零点特性来辅助电影维度的情感追踪工作;此外,梅尔频率系数(MFCC)与感知线性预测系数(PLPC)等技术指标也被成功应用于该研究体系中

3.3.5 基于i-vector的特征

i-vecotr作为一种在说话人识别领域具有广泛应用的技术,在近五年中逐渐展现出其独特的优势与潜力。该方法通过将高维高斯混合模型(Gaussian mixture models,简称GMM)的超向量空间映射至低维总变异空间来实现特征提取与分类任务。值得注意的是,在语音情感识别领域的这一技术运用尚处于探索阶段,并未得到广泛的应用与认可。文献中提出了一种创新性的方法:采用串联结构的情感i-vector特征用于语音情感识别任务中。具体而言,在这项研究中他们首先采用了openSMILE工具提取了1,584维的声学特征,并基于这些特征对自然情感状态进行了建模训练以建立通用背景模型(universal background model)。随后在此模型基础上分别构建各类情感状态对应的高斯混合模型(GMM),从而获得每类情感状态的GMM超向量用于i-vector生成过程。最终将各类情感状态对应的i-vector序列依次连接起来作为支持向量机(SVM)的学习输入数据集,并成功实现了对angry、happy、neutral、sad四种常见语音情感状态的识别任务,并显著提升了识别性能相比传统基于1,584维声学特征的表现

3.4 语音情感识别算法研究进展

确定合适的识别算法是本领域研究者们长期以来一直致力于追求的主要目标.总体上来说,基于不同的情感描述模型,当今语音情感识别系统所采用的识别算法大致可分为两大类.

3.4.1 离散语音情感分类器

本文主要针对的是以离散情感描述模型为基础的语音情感识别研究,并将其归类为离散语音情感识别问题。这些问题通常被建模为标准模式分类问题,并采用标准模式分类器来进行情感识别[.]在线性判别方法中包括朴素贝叶斯分类器(Naïve Bayes Classifier)、线性人工神经网络(Linear Artificial Neural Network)以及线性支持向量机(Linear Support Vector Machine)。而非线性判别方法则涵盖了决策树(Decision Trees)、k近邻算法(k-nearest neighbor algorithm)、非线性人工神经网络(Non-linear Artificial Neural Network)、非线性支持向量机(Non-linear Support Vector Machine)、高斯混合模型(Gaussian Mixture Model, GMM)、隐马尔科夫模型(Hidden Markov Model, HMM),以及稀疏表示分类器等技术。

正如所述,在语音情感识别的研究领域中已被广泛尝试的模式分类器数量众多。其中应用最多的是HMM

Nwe等研究者采用了基于隐马尔科夫模型(HMM)的情感识别器来进行分类任务。具体而言,在该方法中,LFPC、MFCC以及LPCC被选作情感特征指标。其中,在每个说话者在每一类情感上均建立了一个包含四个状态且全局连接的HMM模型,并采用缅甸语语料库以及汉语通用语料库作为训练与验证数据集。该系统在两个数据集上的最优准确率达到78.5%及75.5%。另一方面,在跨说话人条件下进行了性能评估。实验结果表明,在语音级别的分类任务中,默认情况下基于音素级别的统计语言模型表现更为优异。

Gaussian Mixture Models (GMMs) are probabilistic models designed for density estimation, akin to a single-state continuous Hidden Markov Model (HMM). The GMM classifier has been employed in the infant-directed KISMET database for sentiment analysis, utilizing a peak-based strategy to optimize the number of Gaussian components through training with features related to fundamental frequencies and energy, achieving an optimal performance of 78.77%. As Tang et al. explored, a Boosted-GMM was developed using Boosting algorithms for class-conditional distribution estimation in voice emotion recognition. Compared to the traditional EM-GMM approach, which utilized the Expectation Maximization algorithm for distribution estimation, the Boosted-GMM demonstrated superior performance.

MLP(多层感知机)是语音情感识别领域中被最广泛采用的人工神经网络模型之一 ,其优势与其完善的工具包支撑和成熟的训练方法密不可分 。Nichoson等人 基于MLP构建了一个专门针对单一情感类别识别的OCON(one-class-in-one-neural-network)神经网络模型 ,该模型能够对 joy 、teasing 、fear 、sadness 、disgust 、anger 和 surprise 等8种基本情感进行识别 。该结构由8个4层MLP子网络和一个综合决策机制构成:每个子网络专注于一种特定的情感识别任务 ,并在输出层唯一的一个神经元处输出待测文本属于相应情感的概率预测值 。整个系统最终将测试文本的情感归类到具有最高输出值的子网络对应的类别上 。研究中所使用的数据集是由100位不同的说话者录制的 。在实验过程中 ,研究人员选取了其中30%的数据用于训练模型 ,并用剩下的70%数据进行性能评估 。实验结果显示 ,该系统的最优分类准确率达到52.87% 。此外 ,Petrushin等人 对普通MLP与Bagging-MLP在语音情感识别中的性能进行了对比研究 。Bagging作为一种生成多个版本分类器并合并以提升整体性能的有效策略,在本研究中得到了充分验证 。实验表明 ,采用Bagging策略后 , Bagging-MLP 的分类性能较传统MLP提升了5.0%

SVM分类器的核心要素在于核函数的有效运用,它通过将原始特征以非线性方式映射至高维空间,显著提升了数据的可分性.在语音情感识别领域,SVM展现出广泛的应用潜力.以下以文献[为例展开说明.文章中共提出了三种基于二分类SVM的多分类模型构建策略:前两种方法均围绕为每种情感类别构建独立的二分类SVM展开,其中第1种策略采用待识别语句与其余情感类别间最大距离原则进行情感归属判定,而第2种策略则将各二分类SVM输出结果作为三层MLP网络输入,通过进一步计算实现最终的情感划分;第三种方法被定义为多层次分类模型(hierarchical classification model),其将各个SVM子分类器按照树状结构排列,从根节点开始由粗到细层层划分情感,最终在叶节点处输出识别结论.实验数据显示:在FERMUS III数据库[的基础上,三种方法的识别率分别为76.12%、75.45%和81.29%,其中第三种方法表现最为优异.

作为一种新兴的技术,在压缩感知理论的基础上逐渐发展而成的分类方法。在相关文献中指出,该方法主要依赖于稀疏分解技术,并通过将测试信号与训练数据集相结合,利用l1范数最小化问题求解其最优稀疏表达。其中训练数据集被视为一组基函数,在此过程中可以得到一个最优的系数向量。具体而言,在柏林EMO-DB德语情感语音库上进行7类情感状态识别实验时发现:相较于线性判别分类器、k-NN、ANN和SVM等传统算法,在保持较低计算复杂度的同时实现了更好的分类性能

3.4.2 维度语音情感预测器

本文将基于维度情感描述模型的语音情感识别研究命名为维度语音情感识别技术,k-NN ANN SVR(support vector regression)等方法均有所涉猎.它相较于传统离散语音情感识别方法而言尚处于新兴阶段 但已逐渐得到领域内研究者的广泛关注 其中 SVR因其性能稳定 且训练时间较短的特点而成为应用最为广泛的算法.例如 Grimm等人在其开发的VAM数据库平台之上进行了三项分类算法的对比实验:基于规则的逻辑分类器(rule-based fuzzy logic classifier) k-NN算法及支持向量回归(SVR)方法 实验结果表明 SVR在多维情感属性预测任务中展现出显著的优势.由此可见 在离散化的情感分类方法已经取得显著进展的同时 dimensional emotion prediction algorithms的研究仍显滞后;未来仍需进一步探索和发展更为高效的算法来满足相关任务的需求

3.5 语音情感识别技术应用

语音情感识别技术广泛应用于各类型人机交互场景中,在提升用户体验方面发挥着重要作用。具体而言,在电话服务中心(call center)领域中可实现紧急呼叫用户分类功能从而显著提升服务质量:通过及时识别负面情绪较为激烈的用户群体并对其电话进行自动转接至人工客服以达到警示目的;在汽车驾驶领域则可实施驾驶员精神状态监测系统从而在驾驶员疲劳迹象出现时发出预警;此外,在特殊教育领域也可辅助自闭症儿童学习情感认知与表达能力相关技能

基于算法实现需求的技术应用可分为实时型和高精度型两类。其中实时型涵盖电话服务中心紧急程度分拣、驾驶员疲劳监测以及E-learning学员情绪追踪等多个方面。这些应用的核心特征是对处理速度有极高的要求,在此前提下对识别精度有一定的容忍度。相比之下,在高精度识别方面投入了更多资源与精力的是那些如抑郁症患者病情追踪这样的领域。尽管在追求高准确率的过程中可能会牺牲处理速度的一些优势。

3.6 结束语

本文基于充分的调研和深入的分析对语音情感识别领域的研究进展进行了系统综述,并重点阐述了语音情感识别研究中的若干关键问题。涉及了情感描述模型的选择、情感语音数据库的构建以及相关声学特征提取等内容。可以说自该领域于20世纪末期创立以来,在全世界的研究者们经过数十年不懈努力下取得了令人鼓舞的研究成果与发展趋势。然而由于"语音情感"这一概念所固有的复杂性 该领域仍面临若干值得进一步探讨的问题。在这里我们基于大量调研资料及近几年来的研究成果提出了一些值得关注进一步探讨的研究方向 并以期对本领域的其他研究者提出一些建议与启发。

3.6.1 情感语料问题

一个高质量的情感语音数据库是实现语音情感计算研究的重要基础性作用,在实际应用中可为其提供可靠的训练与测试数据集。然而,在面临复杂的情感特性时,其采集与整理工作面临着巨大挑战,进而造成了优质情感语料获取的有效障碍。相比之下,在大规模自然语音库与海量音乐数据库的支持下,现有的情感语料仍显得极度稀缺。对于离散型情感语音库而言,在满足素材自然度的同时保证情感纯度仍是其核心难题之一。尽管经过几十年的发展积累已有大量数据库被录制并发布出来但仍难以获得得到广泛认可的研究质量高、数量充足的优质素材库。在构建维度情感语音库的过程中其主要难点不在于素材获取而在于系统的素材整理与精准的情感标注过程这一环节不仅要求标注人员具备专业的听辨能力还需投入大量的打分工作然而标注结果的质量评估标准尚不完善这也导致了这一领域内的研究进展缓慢目前相关资源仍然十分有限面对现有资源所存在的诸多问题如何实现对其的有效补充优化以及通过技术手段实现训练素材选择策略的确立等问题都已成为困扰研究人员的重要课题。

3.6.2 情感与声学特征之间的关联问题

语音情感识别的主要目标是模仿人脑的情感识别水平。从情感语音信号生成的角度出发,计算机与人脑在情感识别机制上的初始差异主要体现在对情感相关声学特征的识别以及如何将情感与声学特征关联起来这两个方面.因此,如果计算机无法准确地或以最接近人类的方式对情感语音进行声学特征识别并建立正确的关联映射,将会导致构建在偏离实际基础之上的语音情感识别系统,从而使得后续的情感识别机制与人脑处理机制间的差距逐渐扩大,难以达到预期效果.目前,还没有类似于Mel倒谱系数在语音识别领域中的情感声学特征被提出.通常情况下,研究者们会综合运用韵律学、声音质量、频谱等多重相关声学特征来表征语音情感特征.因此,如何从现有声学特征中选择具有最佳区分能力的特征子集、以及如何探究更能反映情感表达的新特征成为当前领域内亟待解决的重要课题之一.此外,普遍认为基于语句持续时间的整体性全局特征与情感状态具有最紧密的相关性,因为它能在一定程度上减弱文本差异对声学特征的影响.然而这种所谓的干扰减弱是以牺牲部分表征情感状态的具体声学细节信息为代价实现的.从这个角度来看,如何确定最优的情感声学特征提取时长及其对应的多时长声学特征融合方法等问题仍需进一步探索和研究.

3.6.3 语音情感识别的建模问题

构建高效、优质的情感语音识别系统是语音情感研究的核心目标之一,在这一过程中需要通过对海量训练语料的学习能力作为基础前提条件,并在此基础上提取声学特征与情绪状态之间的映射关系网络路径;通过这种途径能够实现对于测试语料情绪状态的有效判别与分类效果。理想情况下而言此类系统应当是对人类语音情绪处理机制进行仿生模拟与重建工作;但就目前人类认知科学领域的技术发展水平而言,在实际应用层面所构建的各种识别系统仍停留在基于功能层面的功能模仿阶段;相较于机制层面的目标体系而言二者之间仍存在明显的技术差距:例如离散情绪识别任务通常被建模为一种典型的分类器问题;而维度情绪识别任务则更多地被建模为一种标准回归预测问题等情形:那么如何在现有认知科学基础之上通过尽可能贴近人类大脑的情绪处理机制来进行语音情绪识别系统的构建工作呢?这是一项既具有挑战性又意义重大的课题。

3.6.4 语音情感识别技术的推广问题

伴随人机语音交互技术快速演进,在实验室环境中产生的许多技术创新逐步走向商业实践,并深刻地改变了人们的生活模式。例如,在midomi哼唱检索网络中所采用的是基于分布式旋律比对的技术(http://www.midomi.com),而苹果公司开发出的Siri语音搜索软件则运用了先进的分布式语音识别及合成技术。然而尽管如此 由于语音情感识别这一新兴领域尚未取得突破性的进展 目前尚无成熟的解决方案被广泛应用于实际场景中。若能将这一新技术通过互联网平台进行推广 将有助于加速人机互动中的情感智能发展 并值得我们予以高度关注

全部评论 (0)

还没有任何评论哟~