Advertisement

【论文阅读】Hierarchical Attention for Part-Aware Face Detection

阅读量:

2019IJCV

2019IJCV

当前针对整个特征图应用相同的卷积核或池化层将导致对不同的人脸区域进行相同处理,并且在同一张人脸内部的不同部位也会被同样处理。

概述

探讨本文研究的目标是人脸检测。该研究假设以往的方法在对整张输入图像的不同位置以及每个候选区域内部的不同部位均采用了相同的卷积核方法,并未针对各具体位置进行针对性考虑而提出了一种层级注意力机制。模型首先利用Faster RCNN算法来提取候选区域,并将每个候选区域划分为mxn个局部子区域。随后先通过基于高斯核的part-specific注意力机制来提取每个局部的特征信息;接着再利用基于LSTM的face-specific注意力机制来计算各局部特征的关注权重;最后将各局部特征用于分类识别并定位具体的面部目标。此外,在该模型中还采用了分类交叉熵损失与平滑L1定位损失相结合的方式作为总损失函数。

模型结构

在这里插入图片描述

首先通过Faster RCNN实现候选区域的初步筛选;随后针对每一个候选区域应用层级注意力机制进行进一步分析与定位工作。该机制主要包含两个关键组成部分:第一部分为Part-specific关注模块;第二部分为face-specific识别模块;其中Part-specific关注模块负责提取并描述各局部特征的基本形态特征;而face-specific识别模块则承担着对各个局部特征重要性的评估任务;最终该机制的整体输出结果经过全连接层(FC)处理后即可得出每个候选区域的人脸判定(是否存在人脸)以及具体位置信息。
1.1.1 Part-Specific Attention

在这里插入图片描述

R∈R^{wxh}作为RPN提出的候选区域(基于VGG-16),划分为mxn个局部区域。
K(θ_{ij})属于mxn个区域内各处的高斯核。

R∈R^{wxh}作为RPN提出的候选区域(基于VGG-16),划分为mxn个局部区域。
K(θ_{ij})属于mxn个区域内各处的高斯核。

在这里插入图片描述

Gaussian核通过定位在各个局部区域的核心位置实现特征提取,并通过全连接层(FC layer)来完成参数更新过程
最终各子区域的表现形式得以呈现

在这里插入图片描述

2、Face-Specific Attention

在这里插入图片描述
在这里插入图片描述

通过将z特征按其不同位置顺序输入到LSTM网络中,并融合其输出状态向量c和h以构建全局语境向量;随后通过一个全连接层计算出该对应局部区域的空间权重s;接着与原始局部分子进行内积运算以获取最终特征u

再对u应用子网络W(全连接层或卷积层)对每个候选区域进行识别为人脸区域的判定,并进行具体位置的定位。

损失函数

在这里插入图片描述

c代表类别标记(如人脸检测),l用于位置标注 基于分类的softmax交叉熵损失与采用平滑L1损失函数用于定位

在这里插入图片描述
在这里插入图片描述

数据集

FDDB数据集包含[\texttt{FDDB}] 一张图像是由一张图像是由一张图像是由一张图像是由一张图像是由一张图像是由一张图像是由一张图像是由一张图像是由一张图像是由一张图像是由一张图像是由一张图像是由
用于测试的人脸标记数量为[\texttt{5171}]个。
WIDER FACE数据集包含[\texttt{WIDER FACE}] [\texttt{32,203}]张图像以及[\texttt{393,703}]个用于标注的表情图片。这些图片被划分为三个难度级别:简单表情图片、中等复杂表情图片以及难以识别的表情图片。
其中训练集包含[\texttt{12,880}]张图片用于模型训练;验证集和测试集分别包含[\texttt{3,226}]张和[\texttt{16,097}]张图片用于模型评估。
UFDD数据集包含[\texttt{UFDD}] [\texttt{6,425}]张图像以及[\texttt{10,897}]个用于标注的表情图片(仅用于测试)。

评价指标

在FDDB框架中采用了正确的分类比例与假阳性的数量作为评估指标。WIDER FACE采用P-R曲线和Averaged Precision指标进行性能评估。UFDD采用AP指标用于模型性能评估。

实验

1、baseline
采用使用VGG-16为backbone的Faster RCNN作为基准模型

在这里插入图片描述

2、层级结构化注意力机制的性能表现

在这里插入图片描述
在这里插入图片描述

3、高斯强度参数(σ)的初始化

在这里插入图片描述

part-specific注意力对于初始化鲁棒

4、注意力图的预测
将本文的基于LSTM的方法于其他的简单方法进行对比

在这里插入图片描述

5、与可变形CNN方法进行对比

在这里插入图片描述

6、注意力图的可视化

在这里插入图片描述

对漏识别的人脸(missed faces)以及误识别的案例(false alarms)展开定位错误与分类错误分析,在其中定位错误的IoU值范围为[...] 之间,在分类错误方面,则分别考察漏识别的案例中未能达到IoU> 以及误识别的案例中未能达到IoU\leqslant [...]$ 的情况

在这里插入图片描述

在带有人脸landmark监督的研究中,基于Menpo和Helen的数据集进行训练与测试.训练集包含8935张图像,测试集则有2330张.每个样本包含68个关键点的landmark.

在这里插入图片描述

使用Landmark监督(LM)或许会被认为有助于真假人脸的分类任务进行区分,并且这可能会导致定位信息的丢失。

9、与SOTA的比较
FDDB数据集:

在这里插入图片描述

True Positive率和False Positive数的曲线

WIDER FACE数据集:

在这里插入图片描述
在这里插入图片描述

UFDD数据集:
Average Precision率

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~