Advertisement

Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition

阅读量:

摘要:

遮挡与姿势变化构成了 facial expression recognition 的两大挑战。它们会对面部外观产生显著影响,在过去几十年里虽然自动 facial expression recognition (FER) 已取得实质进展但其对遮挡鲁棒性的关注相对较少而姿势不变问题在实际场景中的关注度也不高。本文将从以下几个方面展开研究以解决真实世界中的姿态与遮挡问题:首先 为推动基于真实世界条件下的 FER 研究我们引入了一种新的数据增强策略具体而言我们采用社区提供的属性标签对野生 FER 数据集进行了有代表性的标注工作其次提出了一种改进型区域注意网络(RAN) 该网络能够自适应地融合主干卷积神经网络生成的不同数量的区域特征从而构建紧凑且固定的表示形式最后借鉴于面部表情主要由面部动作单元定义这一事实提出了区域偏向性损失(Region Biased Loss) 该损失函数旨在强化对关键区域的关注最终我们在构建的数据集以及 FERPlus AffectNet RAF-DB 和 SFEW 等四个知名数据集上评估了 RAN 和区域偏置损失模型大量实验表明该方法显著提升了面对复杂遮挡与多变姿势情况下的 FER 性能并且在 FERPlus AffectNet RAF-DB 和 SFEW 数据集中均取得了最新的性能记录相关的代码及测试数据将公开获取

我们坚信,直接去除遮挡区域并非切实可行, 因为真实世界中难以准确检测遮挡现象。传统的基于CNN的方法忽略了面部遮挡与姿态变化的独特特性, 导致其在实际应用中面临诸多挑战。当实际应用中存在遮挡与姿态变化时, 输入的人脸图像会出现不可见区域, 给人脸对齐带来困难, 并损害特征提取过程。相比之下, 人类能够在面对复杂条件的情况下仍能出色地解析面部表情这一非凡能力得到了心理学研究的支持[64]。研究表明, 人类能够通过利用局部区域信息与整体面部特征, 来有效感知不完整的面孔所传递的意义[64]。基于以上事实基础, 我们提出了一种基于区域的深度注意力机制**, 这种结构能够自适应地整合来自局部区域与整体面部的不同视觉线索以解决真实世界中存在的姿势变形与遮挡问题[58-60]. 具体而言, 我们从以下几个方面实现了真实世界的姿势变形与遮断鲁棒性目标的有效解决.

首先我们系统性地探讨了遮挡与姿态变化场景下的情感识别(FER)问题 。为此,在真实世界场景中进行了精心设计的数据采集工作:基于FERPlus与AffectNet构建了六组高质量的数据集序列——包括遮挡类数据集(如FERPlus)、姿态类数据集(如AffectNet),以及来自RAFDB数据库的两类场景——即"遮挡RAFDB"与"姿态RAF DB"。其中对"遮挡测试数据集"部分进行了人工标注工作:具体采用以下几种典型覆盖场景——佩戴面罩或眼镜、左右方向的目标物体暴露于被测者视角下、物体位于被测者观察平面之上或之下方等情况进行标注操作。而对于"姿势变化测试数据集"则采用了自动化标记技术:通过最新的头部姿态估计工具箱对其进行了精确标注处理[3] 。实验结果表明,在面对复杂环境干扰时传统CNN模型的表现已明显逊色。

此外,在本研究中我们提出了区域注意网络(RAN),旨在关注面部区域的关键特性及其对遮挡和姿势鲁棒性的影响。该网络由特征提取模块自我注意模块关系注意模块三个组成部分构成。其中,自我注意模块关系注意模块的主要目标是学习粗略范围内的注意力权重,并分别在全局视角下对其进行细化处理。针对多个面部样本,RAN通过端到端的方式分别学习每个区域的注意力权重,并将这些信息通过基于卷积神经网络(CNN)的方法聚合为固定长度的紧凑表示形式。值得注意的是,RAN模型还具备两个重要辅助功能:一方面,通过截取特定区域可以有效扩展训练数据集,这对于数据稀缺性较高的挑战场景尤为重要;另一方面,将其重新缩放到原始图像尺寸后能更好地凸显细节面部特征。经过大量实验验证,基于本研究提出的RAN模型在复杂遮挡和姿势变化条件下较传统方法显著提升了表情识别系统的性能表现

第三 ,由于面部表情主要由多个面部动作单元(facial action units )定义[7] ,我们提出了一种基于区域偏好的损失函数 RB-Loss 。该损失函数旨在增强对最关键区域注意力权重的关注 。为了实现这一目标 ,我们施加了一个简单的约束条件 ,即面部区域的最大注意权重必须大于原始面部图像的最大注意权重 。经过实验验证 ,该方法在不增加计算量的情况下显著提升了FER性能 。与现有方法相比 ,我们的解决方案在FERPlus 、AffectNet 、RAFDB 和 SFEW 等基准集上均取得了最新的准确率记录 ,分别为89.16% 、59.5% 、86.9% 和56.4% 。


方法:

本研究首先阐述了所提出的区域注意网络(RAN),该网络架构旨在通过自适应关注机制实现目标检测任务中的精确定位。随后详细分析了该网络架构中各子模块及其对应的区域偏置损失计算机制,并在此基础上提出了基于该架构的区域生成策略。接着提出了基于该架构的区域生成策略,并在此基础上设计了一种新的特征提取方法以提高目标检测模型的鲁棒性。最后系统地整理并描述了实验中涉及的遮挡变化与姿态变换相关的FE数据集,并通过对这些数据集进行标准化处理完成了模型训练工作

我们的目标是借助端到端的深度架构自动降低或去除遮挡以及不相关区域的影响。

针对大姿态遮挡等复杂场景下的挑战性问题,在人脸表情识别领域中Region Attention Network(RAN)被成功开发出来以提升基于原始人脸的人工智能视觉系统性能。该网络架构能够通过自适应的方式聚焦于不同区域的重要信息特征,并在局部特征与全局特征之间实现合理的权重分配以平衡两者的优劣特性。具体而言,RAN系统由三个核心模块构成:首先是区域裁剪与特征提取模块,其次是自我注意模块,最后是关系注意模块.在实际应用中,系统会首先对输入的人脸图像(经过检测后)进行裁剪处理,裁剪方式可采用固定位置裁剪或随机裁剪策略,并在实验阶段对比分析这两种方法的效果差异.随后,这些裁剪后的区域图像会被送入主干的人工智能视觉模型进行特征提取.在自我注意模块中,通过全连接层(FC)结合sigmoid函数为每个区域赋予相应的注意力权重.为了进一步优化网络性能,本研究还引入了一种可选区域偏置损失(RB-Loss)算法,用于对自我注意模块中的注意力权重进行规范化处理并突出具有重要价值的区域部分.随后将所有区域提取到的特征信号进行聚合汇总形成全局表示(Fm),接着通过关系注意机制将单个区域级别的特征信号与全局表示建立联系并计算出相应的关注权重系数.最后,系统会综合考虑加权后的区域级特征信号以及全局表示信息来完成最终的表情分类任务

图1 RNN框架

该方法主要包含两个核心环节:首先利用一个FC层对其自身特征进行初步计算以确定各区域的重要性,并将其归类为自注意力模块;在此基础上系统地对区域特征与聚合内容表示之间的关系进行建模以优化关注权重,并被称作(Relation-attention module)关系注意模块。

自注意力机制。 基于这些区域特征,** 该模块通过全连接层以及sigmoid函数来估算粗略的注意力权重。** 从数学角度而言, 其中第i个区域的注意力权重计算公式如下:

其中

q^{0}

属于FC的一个参数,在此阶段中, f代表Sigmoid函数. 我们将所有区域特征及其注意力权重整合成一个全局表征形式, 如下所示:

F_{m}

可被视为一种简洁的形式,可用于分类器的最终输入。我们将自我注意聚合与第四部分中的直接平均池化和级联(串联-- concatenation)(固定裁剪数量)进行对比。

关系注意模块。 自我注意模块利用个体特征和非线性映射学习权重,这是相当粗糙的。由于聚集表示Fm固有地表示所有面部区域的内容,**因此可以通过建模区域特征和该全局表示

F_{m}

**之间的关系来进一步细化注意权重。

Region Biased Loss. 基于不同面部区域定义的不同面部表情观察[7]的研究启发下,我们对自我注意力机制中的权重分配进行了直接限制,即区域偏向损失(RB-Loss)。这一约束确保了从经过裁剪的脸部图像中提取出的关注权重必须大于未裁剪的脸部区域。


小白疑问:

本文仅用头部变化工具箱进行标记采集的数据集来解决姿势问题吗?或者采用其他什么方法来解决姿势变化相关的问题?

为什么选择使用RB-Loss这一损失函数来强制约束面部区域权重,并要求其高于原始面部图像?

3. 关系注意力机制能够融合所有区域单元。为何能够实现权重值的分层次细化?具体实现的方式是什么?

4. 关系注意模块中怎么通过建模区域特征和该全局表示

F_{m}

之间的关系来进一步细化注意权重的。

5. RAN是怎么解决姿势变化问题的还是不咋明白。

全部评论 (0)

还没有任何评论哟~