Advertisement

【论文阅读】Facial Motion Prior Networks forFacial Expression Recognition

阅读量:

如图1所示,本文提出的FMPN架构包含三个关键组件:面部运动掩码生成器(FMG)、先验融合网络(PFN)以及分类网络(CN)。其中FMG的作用在于通过其生成功能实现对给定灰度表情人脸的清晰定位,并有效识别其运动区域。PFN则负责将原始输入图像与由FMG生成的人脸运动掩码进行融合处理,在此过程中整合了局部特征信息并将其成功整合到整体架构中。最后作为典型的深度学习模型之一CNN类结构,在本研究中被采用用于从输入图像中提取关键特征并进行分类识别

面部的表情源于面部肌肉活动的变化与收缩过程。相同的表达在不同人的脸上呈现出类似的分布特征。基于此观察结果,在特定类型的表情分析框架下我们将面肌活动区域定义为该类情绪状态下的典型表现形式即其与立正状态下的形态差异所在;而识别出的相关特性则可通过对同一情绪类别内所有样本表现形式进行统计计算得出。
如下所示:

i

(.)代表人脸对齐,因为掩码是中性脸与表情脸之间的绝对误差。

arphi

(.)代表直方图均衡化。

下图显示了CK+中七个基本表情生成的真值掩码

基于所述的真值掩码进行训练

有些人可能会好奇为何我们不直接使用computed-ground truth掩码进行面部表情识别,而要学习生成 facial motion masks。主要原因之一是,在测试过程中,我们不确定应该选择哪种类型的 ground truth 表情掩码——因为每个表情都具有独特的面部运动特征。此外值得强调的是,在实际应用中发现:由于不同数据集中的同一类表情通常表现出类似的面部运动模式,因此从一个数据集获取的真实 motion masks很可能能够适应另一个数据集的需求。这种特性有助于解决某些数据集可能缺乏成对的真实样例和中性样本以计算基础真实掩码的问题。

该方法旨在自动生成地利用原始输入人脸以及通过FMG学习生成的脸部运动遮盖来覆盖目标人脸。其中前者主要提取整体特征信息;后者则专注于活动区域的细节。

经PFN处理后输出特征图将输入至基于CNN架构的分类器模块;该模型可采用VGG、ResNet等不同深度学习架构;通过交叉熵损失函数对该分类器进行优化训练

整个网络的损失函数为:掩码损失+分类损失。

结果

全部评论 (0)

还没有任何评论哟~