人脸表情识别技术研究综述
摘要
人脸表情识别技术是一个广泛的研究领域,不仅涵盖了机器学习、图像处理等技术,还涉及心理学等多个学科分支,其应用前景同样十分广阔。近年来,随着人工智能等领域的快速发展, facial expression recognition作为情感计算的重要组成部分之一,逐渐成为研究热点领域。在完成人脸表情识别任务的过程中,通常会经历四个关键环节:首先是获取高质量的人脸图像;其次是图像预处理阶段;接着是特征提取过程;最后是特征分类工作。为此,本文首先详细阐述了该任务所需进行的图像预处理步骤以及传统方法与深度学习方法在特征提取与分类中的应用现状;随后深入探讨了相关的数据集、发展趋势以及面临的主要挑战;最后对未来可能的研究方向提出了一些个人看法
关键词: 人工智能; 人脸表情识别; 特征提取; 特征分类
0 引言
在交流中扮演着不可或缺的角色,在日常生活中,人们通过表情来增强交流的效果。而 facial expression 是人们表达自身情绪和信息的重要手段之一;心理学家A.Mehrabia 进行了深入的研究发现,在一天中语言传递的信息仅占总信息量的7%,而 facial expression 占据了高达55% [1] 。因此,在 facial expression识别方面具有极高的科研价值;同时,在 facial expression 研究方面可以获得大量有价值的信息
早在1971年,美国心理学家Ekman与Friesen两人就对面部表情展开了系统性研究,并构建了一个包含数千张图片的数据库。随后,在深入探讨了人类表情与情感之间的内在联系后,他们自行研发出了FACS[2-3]情绪编码系统)。该系统通过解剖学研究及对面部生理特征的分析,将面部解剖结构划分为46个独立的功能区(AU),进一步解析了每个功能区的主要控制部位及其所对应的面部表情及生理指标。
如图1所示的人脸表情识别系统主要包含以下步骤:人脸图像的获取、面部图像预处理、特征提取以及特征分类。本节将分别探讨利用传统方法与深度学习方法来进行面部表情识别的研究,并详细阐述上述各个步骤的具体实现过程。
图 1

图1人脸表情识别系统
1 人脸表情图像预处理
在自然环境中中,光影变化、面部方向以及非面部区域之间的差异通常是与面部表情识别无关的因素之一。因此,在分析图像之前就需要通过预处理来消除这些干扰因素的影响。通常的做法包括:首先通过技术手段进行人脸检测,然后进行标准化的人脸对齐,最后完成统一的人脸归一化处理以确保后续识别过程的有效性。
1.1 人脸检测
为了实现有效的面部识别功能,首要任务是对输入的数字图像进行人脸检测操作,从而确定所有面部区域的位置并排除非面部区域的影响。传统的基于哈尔特征的人脸识别方法在训练分类器时虽然高效,但在极端环境条件下难以适应复杂的实际应用需求。为解决这一问题,一种计算复杂度较低的解决方案是采用Viola-Jones(V & J)算法构建的人脸检测器,但该方法在处理非标准面部表情或光照条件下的表现较为有限。随着深度学习技术的发展,Faster-RCNN及其快速版本YOLO family进一步优化了算法性能,能够有效应对光照变化、遮挡干扰等情况。目前而言,层次化架构的卷积神经网络凭借其高效的计算能力和高识别精度已成为最流行的先进人脸对齐方案之一
1.2 人脸对齐
为了进一步提升面部表情识别的准确性,必须在完成人脸检测之后实施的人脸对齐操作。 facial landmark检测可以被表述为在一个标准的人脸图像中定位预先定义的关键点问题,该过程通常从较为粗略的初始形状出发,通过不断优化形状估计直至收敛的过程实现精确对齐。
该算法(Supervised Descent Method, SDM [4])是一种广泛采用的人脸对齐技术;此外,还包括以下几种:混合树结构模型(Mixture of Trees, MOT [5])、判别响应图拟合(Discriminative Response Map Fitting, DRMF [6])、Dlib的C++库实现、多任务级联卷积神经网络(Multi-task Cascaded Convolutional Network, MTCNN [8])、以及Dens-eReg [9]和小人脸检测 [10]等技术。
1.3 人脸归一化
对于面部人体表情特征识别技术而言,不同方向的光照情况以及头部朝向的不同会对识别效果产生显著影响.通常会通过图像归一化来解决这一问题.具体包括基于各向异性扩散的归一化方法,基于离散余弦变换的方法进行归一化,高斯差分算子以及基于同态滤波器的应用[11-12].此外,研究表明,在应用图像归一化的基础上实施直方图均衡化的性能优于仅依赖前者的策略.为了增强图像的整体对比度,近年来DEEP FER文献[13⇓-15]中的多数研究都采用了直方图均衡化的手段.然而,这种处理方式会对图像局部区域的对比度产生较大影响.为此,文献[16]提出了将直方图均衡化与线性映射相结合并通过加权求和优化性能的方法.为了简化特征提取过程,通常需将人脸图像统一转换为正面视图状态,这一过程统称为姿态归一化.最近提出的FF-GAN[17]、TP-GAN[18]及DR-GAN[19]等深度生成模型则被广泛应用于姿态归一化的研究中
2 特征提取
特征提取的主要目标在于降低图像数据集中的信息量,并用于提取图像的主要特征,在确保一定的识别准确率和鲁棒性的前提下,对大量数据进行降维处理。
2.1 传统研究方法
目前面部表情识别中的研究主要围绕平面静态图像和立体动态视频序列两个维度展开,其中前者侧重于捕捉表情在单个时刻的状态特征,后者则关注表情在时间维度上的变化趋势
基于传统研究的方法,在进行静态人脸信息特征提取时,其主要目标是最大限度地减少对原始人脸数据的干扰和破坏,通过分类器对整体人脸图像进行处理以获取特征参数.其中,主元分析法、独立分量分析法以及线性判别分析法等都属于经典的算法.文献[20-21]展示了上述方法在FER领域的应用.
在表情识别的局部区域中,该算法通过细致考察局部区域的肌肉与皮肤褶皱的变化特征来进行表情识别;其中,Gabor小波法与LBP算子法是两种经典的的表情识别技术;文献[22]主要采用多种基于Gabor小波的技术作为特征提取工具,将分类任务分解为多个二元分类问题;其中一个策略是对每个二元分类任务进行独立分析,并提取独特的特征集合;文献[23]研究者借鉴了人类视觉皮层的空间组织结构,在实验中应用Gabor小波进行面部表情识别
对动态表情的处理可分为光流法、模型法和几何法等多种方式。其中:
- 光流法则基于图像像素的时间变化特性来反映不同帧间的人脸单元亮度变化情况;
- 模型法则通过训练建立形状信息模型,并结合该建模结果与实际人脸图像匹配;
- 几何法则主要依赖于对面部器官特征点定位及分析其间的距离关系和曲面特性来进行表情识别。
此外: - 文献[24]首次提出了一种基于光流算法的人脸微表情追踪技术;
- 文献[25]在构建多通道灰度信息模型时成功运用了该方法;
- 文献[26]则提出了一种基于Active Shape Model(ASM)的人脸特征识别方案,
该方案实现了局部动作单元的有效追踪与识别功能。
2.2 特征提取的深度框架
现有的FER系统主要依赖于人工提取特征的方法或仅限于浅层神经网络的学习机制。然而,在国际情感识别大赛等实际应用场景中取得显著进展的应用领域中,基于机器学习的技术逐渐受到广泛关注。近年来研究者们提出了多种性能卓越且应用广泛的基于深度学习框架的新方法。
2.2.1 深度信念网络
该概念于2006年被Hinton及其团队[27]提出。具体来说, DBN属于一种特殊的神经网络类型。通常情况下,这类网络由多个受限玻尔兹曼机以及反向传播层组成。
基于DBN,在提升深度置信网络(BDBN)方面,Ping Liu等人于2014年首次提出
2.2.2 自动编码器方法
1986年,Rumelhart创立了自动编码器这一概念,该技术能够识别出数据中的潜在模式并得以通过这些模式重建原始输入。早期的自动编码器最初用于解决信息处理问题,这种技术在一定程度上受限于其自身的应用领域,并在一定程度上可能导致信息丢失
文献[31]提出了基于深度自动编码器(Deep Auto Encoder, DAE)将高维数据转换为低维数据的方法,在预训练过程中分阶段训练整个模型的原理下发展而成的深度自动编码器(DAE),它相较于传统自动编码器的优势在于经过优化设计以最小化重建误差。文献[31]开发出一种利用深度稀疏自动编码器(DSAE)进行面部表情识别的新方法,并将其几何特征与外观特征相结合以综合考虑不同因素的影响从而实现精确的表情识别过程。文献[32]则提出了改进后的局部三元模式(LTP)与堆叠自编码器(SAE)相结合的方法应用于面部表情识别领域,并在改进后的LTP模型中实现了纹理特征的有效提取最终通过堆叠自编码器(SAE)对各特征进行提取与分类处理
2.2.3 深度卷积神经网络
卷积神经网络(CNN)主要包含三个关键处理模块:卷积模块、池化模块以及全连接模块。其中,卷积模块专门用于从图像中提取特征;池化模块通过降维操作对特征图像进行降采样处理,从而有效降低计算复杂度;在全连接模块中,每一个神经元都与后一层的所有神经元建立连接关系,其兴奋性触发与否取决于与其相连的所有前一层神经元输入信号加权求和的结果是否超过激活门限。相较于其他类型的网络结构,CNN的主要特点是局部区域化的连接模式以及参数共享机制,这使得其相比传统的人工感知机网络具有显著的优势:参数数量大幅减少的同时,计算效率得到显著提升且正则化效果更加理想等。基于这种独特的架构设计,CNN系列模型已经成为当前计算机视觉领域广泛使用的深度学习框架之一,其中包括AlexNet、GoogLeNet、VGGNet等经典模型
除了现有的多种网络架构外,在此基础上开发出了一系列衍生框架。在文献[33-34]中,在区域的基础上构建了基于卷积神经网络(CNN)的面部表情识别系统。文献[36]则提出了一种基于感兴趣区域(ROI)的人脸表情识别方法。文献[37]在此基础上结合ROI和K-nearest neighbor (KNN)算法提出了改进型ROI-KNN方法,在解决由于训练数据不足导致深度学习模型泛化能力受限的问题的同时显著提升了系统的鲁棒性。
2.2.4 生成对抗网络
在2014年,Ian Goodfellow提出了一种基于非监督架构的生成对抗网络(GAN). 该体系主要由两个关键组件构成:生成器网络(Generator)和判别器网络(Discriminator). 通过生成器与判别器之间的博弈机制能够有效提升系统的性能.
文献[19]发展了解缠表示学习的一种生产对抗网络(DR-GAN),该网络通过一种称为编码器-解码器结构生成器的技术,在任意姿态甚至极端轮廓的脸像上进行正向处理或旋转操作;这一技术在野外低鲁棒性条件下进行面部表情识别研究具有重要意义;文献[38]采用生成对抗网络对小样本目标数据集进行伪标签生成;Zhang等人[39]开发了一种基于GAN的新模型,在任意姿态下可生成不同表情的图像,并用于多角度 facial expression recognition(FER)。
3 特征分类
为了基于图像中的特定视觉特性实现表情类别识别这一目标而开展的人脸图像分析技术研究
3.1 基于贝叶斯网络的分类方法
基于BayesianNetwork的概念框架主要由节点间基于贝叶斯公式建立关联构成,并且是一个有向无环图结构,在推理领域具有重要价值。对于表情识别问题而言,在已知某种表情特征信息的情况下可以通过概率推理获得未知表情样本所属类别出现的概率值。基于BayesianNetwork的方法主要包括各种贝叶斯网络分类算法以及隐马尔科夫模型被采用。
文献[40-41]主要使用贝叶斯网络对表情进行分类。通过计算观察值的后验概率,HMM算法实现了表情属性的判断。基于引入时间变量,HMM算法可被视为动态贝叶斯网络的一种形式。文献[42]主要运用HMM算法来识别动作单元,从而实现了刚性与非刚性运动分离以及三维位置估计的脸部表情识别系统。
3.2 基于距离度量的分类方法
基于距离的分类器通过计算样本间距离来完成表情识别任务。常用的有最近邻法和支持向量机(SVM)等算法。在最近邻法中,在某一类训练样本中选择与测试样本距离最短的一个作为该类别的代表点;而SVM算法的目标是通过优化目标函数来确定一个超平面,在所有与之相交或接近的数据点中找到离该平面最远的那个位置。
在文献[43-44]中,二者均在建立在支持向量机(SVM)的基础上提出了新型的表情分类机制.其中,前者通过结合K近邻分类器与SVM的方法开发出了LSUM(Local SVM)算法;后者则创新性地构建了混淆交叉支持向量机树(CSVMT)模型,该模型成功地将SVM技术与分层结构有机融合,相比传统的SVM方法具有更好的泛化能力和稳定性.
4 相关数据集
4.1 The Japanese Female Facial Expression Database(JAFFE)
JAFFE数据集于1998年创立,并包含213幅不同表情的脸部照片。其中包含seven distinct facial expressions: 愤怒, 厌恶, 恐怕, 幸福, 难过, 惊讶, 和中性.
4.2 The Extended Cohn-Kanade Dataset(CK+)
CK+自2010年以来被推出并包含了593个图像序列,在当前的人脸表情识别领域中被视为受欢迎的技术库。
4.3 Acted Facial Expression in the Wild(AFEW)
AFEW数据集中的表情图像或视频均源自电影剪辑片段中包括六种基本面部表达以及中性状态的表情分类体系自2013年起该数据集已成为用于训练与评估EmotiW比赛的关键公开资源
4.4 FER2013
在FER2013数据集中总共拥有35,886张人脸照片,其中包含了28,709张用于训练的数据、以及数量均为3,589张的公共验证集与私有验证集图片。具体而言,每个样本图片都遵循着6种基本表情与中性表情相结合的方式进行分类
4.5 MMI
MMI数据集包含超过2,900个视频片段以及75个主题的相关高清图像,这些图像来源于实验室环境下由32位参与者拍摄的高质量图像库。该数据集在不同主题之间存在显著差异性,并且部分受试者在实验过程中佩戴眼镜或留有胡子。
5 结束语
数据集方面,在深度学习技术被越来越广泛应用于FER研究的趋势下,可靠高质量的数据集变得至关重要。当前用于FER任务的标准人脸面部表情数据集主要来源于以下两种途径:实验室中的受控环境采集以及从电影等视频片段中提取(例如Affectiva-MIT和AFEW)。这两种都是基于受刺激条件下的非自然、表演性质的表情数据,在真实场景下的人脸面部表情仍存在显著差异。而在实验室环境下采集到的人脸表情通常表现为头部姿势正对、光照适宜且无遮挡的高质量图像,在这种情况下识别难度相对较低。然而,在现实环境中实现有效的识别需求仍然面临挑战,在构建真实面部表情数据集等相关方面还需要进一步努力。
此外,在处理机器学习模型时,分布不均(即偏见分布)也常常成为一个不容忽视的问题)。例如,在现有的研究中,大多数研究者倾向于使用几个通用的数据集合来测试他们的算法性能)。这种做法可能带来一定的风险**,从而使得研究的核心目标往往转向提升算法在特定场景下的表现)。然而,在某些特殊情况下,尽管如此**,利用特定的数据偏见可以显著提升算法在某个具体领域上的效果)。但是**,如果这种偏见被用来解决普遍性问题**,反而会导致模型难以良好地适应不同环境或新场景的表现)。因此**,导致模型难以良好地适应不同环境或新场景的表现)。
在表情分类方面的研究仍具有进一步探索的潜力。目前,在表情识别领域的诸多论文中通常采用基于1971年提出的6种基本面部情绪作为标准(参考文献[45])。然而实际上,在现实生活中可用的表情种类远超6种,并且由这6种基本情绪相互组合生成的表情形式同样极其丰富。(注:原文此处略作删减以保持简洁)值得注意的是,在未遵循Ekman的经典六相理论框架下(如文献[46-47]所述),研究者们普遍认为某些面部表达实际上是多种基础情感交织的结果。
基于此,在Ekman的经典表情分类基础上增加新的表达类型。然而当需要考虑的类别数量增多时这可能使任务变得更加繁琐。此外,则是针对面部动作单元(AU)展开研究。因为AU作为编码面部情绪的关键指标这样就使得相同类型的AU模型能够适用于各种不同的情绪分析场景。然而这种方法也面临两个主要挑战:其一是在采用AU标注法时所需的标注成本远高于直接对面部情绪进行分类;其二是检测到的相关信号往往较为微弱从而使得外界干扰因素的影响更加显著。
在真实的野外环境中,由于面部被遮挡、头部姿势非正面以及光照影响等因素常常发生,并以面部遮挡情况为例,在不同图像中这些遮挡物通常位于不同的位置且大小、形状各异。若出现这样的问题数据,则不仅会影响模型的拟合效果,并严重影响了识别精度;因此,在这一领域中实现对上述情况的有效识别一直是研究人员面临的重大挑战。
目前已有相关研究正在推进中,在文献[48]中对基于卷积神经网络(CNN)的技术进行了改进以引入注意力机制(简称ACNN)。这种改进后的模型能够识别出面部的遮挡区域并突出显示未被遮挡的关键部位;而文献[39]则提出了一种基于生成对抗网络(GAN)进行多任务学习的多视角面部表情识别方法;通过生成器与鉴别器之间的对抗训练机制,在保持表情特征不变的情况下,该方法能够将侧脸输入的表情转换为正脸表情。
值得注意的是,在计算能力相对较低的移动设备上运行特定算法的趋势日益显著。这种趋势对提高计算效率具有重要意义,并将在未来发挥关键作用。一个具有代表性的案例是IntraFace软件系统,在该系统下可以在移动平台上实现面部表情分析功能。利用通用移动平台提供的计算资源来进行面部表情分析既是当前技术面临的一个挑战,也是推动相关领域发展的重要动力。
研究多模态技术以实现FER的发展目标将是未来的研究重点。无论是通过多模态方法以更精确识别人脸的表情,还是将面部表情信息作为机器理解人类行为的一部分,都具有显著的实际价值。构建一个理想的智能交互系统需要整合音频分析(如情感识别与说话者特征判断)、多种视觉分析手段(如人体姿态估计、动作识别及头部姿态分析)以及脑电数据,并结合自然语言处理工具等元素;单独将面部表情识别视为独立问题的解决方案并不理想
对人脸进行微表情研究同样具有很强的应用价值
