Advertisement

Multi-Task Convolutional Neural Network for Face Recognition阅读笔记

阅读量:

第一次写博客,希望各位大神们不吝赐教,欢迎批评指正~
1.论文简介

这里写图片描述

●单任务学习中,在输入一个姿态时会输出对应的ID。经过模型训练后可以得到,在每个姿态与对应的ID之间形成了一种映射关系。然而这种设计并未反映出同一人物之间的关联性,并且同样未能区分出不同人物之间的独特性;
●针对同一人物提供多个角度的照片样本,在模型训练过程中会综合考虑这些不同姿态的数据。经过处理后能够提取出的人体姿态特征能够综合反映这些不同的姿势信息,并且同时有效地区分了各个不同的身份特征。

在解决人脸识别效果方面,普遍采用的方法是通过优化三维模型的人脸对齐矫正技术,并结合充足的训练数据量以及开发创新性的损失函数设计来实现显著提升。

由于在实际应用中,人的面部特征会受到多种因素的影响,在这种情况下仅靠单一的任务难以实现理想的识别效果;此外,在实际应用场景中可能存在多个相互关联的因素影响着最终的识别结果;因此通过多任务学习(MTL),系统能够在保持主任务性能的同时优化相关辅助任务的表现

论文提出的创新点
①开发了基于多任务卷积神经网络(CNN)的方法,并将身份识别设为主导目标;同时将姿态(poses)、光照(illumination)和表情(expression)估计等辅助目标纳入其中进行协同学习。
②开发了动态权重分配方案(dynamic-weighting scheme),该方案能为各个辅助目标动态分配损失权重;这种设计通过引入正则化项来约束身份特征的学习过程中的变化性问题。
③开发了基于姿态导向的多任务CNN架构:该方法通过对不同姿态的人脸图像进行分类处理,在不同姿态下分别提取相应的身份特征信息。
④首次采用整体的Multi-PIE数据集进行模型训练,并在包括Multi-PIE、LFW、CFP 和IJB-A等多个公开测试数据集上进行了性能对比分析。

2.准备工作
1.人脸识别
文章主要处理姿势变化和MTL相关的面部识别方法,以往的方法都是单任务学习,对于不同姿态分别学习不同的模型。本文利用侧面任务标签来学习多种情况下的身份特征,利用PIE估计作为侧面任务解决身份识别过程中PIE变化对人脸识别的影响问题。
2.Multi-Task Learning
提出假设:在MTL过程中不同的任务共享相同特征
在MTL中决定不同任务的损失权重:
主任务权重为1,其他侧面任务权重是0-1,,N是侧面任务的数量,k是搜索值得数量,每个任务单独优化,计算量将是kn,如果将所有侧面任务的权重看成一个整体则计算量为K,让CNN去学习如何给每个侧面任务分配权重。
3.Multi-PIE数据集

这里写图片描述

337个人的不同姿态、表情、光照的人脸图像,共750k+人脸图像。

  1. 提出方法
    1.Multi-Task CNN(m-CNN)
    选择网络:CASIA-Net
    原始网络:
这里写图片描述

①通过引入BN层提升训练速度;
②移除对比损失层以优化损失函数形式;
③全连接层规模根据具体任务进行优化;
该网络架构划分为五个模块,每个模块均包含两个卷积操作与一个池化操作;
在每个卷积操作后紧跟BN与Relu激活;
跳过了ReLU激活,在池化5操作后配置了Dropout参数为0.4。

这里写图片描述

其中N个训练图像及其对应的标签数据集D={Ii,yi}(i=1..N)中, yi表示一个向量, 其中包含yid,yil,yie,yip四个维度分别对应身份信息、光照条件、面部表情以及姿态信息。
θ与W的更新过程如下:
输出特征如下:

这里写图片描述

在卷积层中使用参数k和b,在Batch Normalization操作中使用γ和β,并将输入图像通过函数f(.)转换为池化层5(pool5)输出的结果X。这个结果X被提取并作为所有后续任务所共享的关键特征。

这里写图片描述

归一化参数:

这里写图片描述

令 Θ = {k, b, γ, β}代表所有要学习的参数;

设全连接层的身份特征的权重矩阵

这里写图片描述

,偏置向量

这里写图片描述

Dd是D中不同身份的人数,可用广义线性模型表示:

这里写图片描述

把Yd送到softmax层计算x属于每一个身份的概率:

这里写图片描述

预测出的身份为:

这里写图片描述

计算交叉熵损失:

这里写图片描述

然后同样计算其他的侧面任务;

这里写图片描述

代表身份和PIE的权重矩阵;
M-CNN目标:

这里写图片描述
这里写图片描述

损失函数引导θ和W持续更新以实现优化

2.Dynamic-Weighting Scheme
设计一种动态权重机制,在训练过程中为每个任务自动分配损失权重,并采用每隔一段时间抽取一批样本的方法计算其动态权重平均值。

①核心目标:将身份识别的任务损失系数设定为1;
②就侧向性目标而言,并非逐一确定每个侧向性目标的具体权重值,
而应计算三个侧向性目标对应的总损失函数Φs = αp + αl + αe,
其中暴力搜索的时间开销较大,
随后通过m-CNN模型来重新分配各子目标之间的权重要求,
并引入一个全连接层与新的损失函数来共同提取共享特征X。

这里写图片描述

代表全连接层的权重矩阵和偏置项;

这里写图片描述

其中

这里写图片描述


计算最小loss的公式变为:

这里写图片描述

从两面着手来确保损失值下降:

  1. 为了降低主要训练任务(身份识别)的任务损失,在优化过程中应优先提升那些对主要训练任务(身份识别)具有重要影响的侧面训练任务的质量。
  2. 在优化过程中应优先提升那些有助于整体损失函数下降的关键性侧面训练任务的质量。

3.pose-directed multi-task CNN (p-CNN)
作者把p-CNN比作一种divide-and-conquer scheme,“divide”就是指划分侧面任务,比如按照姿态或者光照等进行分类训练,“conquer”是表明可以利用CNN学习定制的映射函数来达到更好地识别效果。
因此考虑到提出一个新的方向来进行多任务学习CNN,再人脸识别中人脸角度是对识别效果影响最大的,所以提出将人脸训练样本按照角度进行分类,并让不同角度的样本特征按照不同的路线在网络中进行传输处理。

这里写图片描述

当没有对应的角度样本时使用0向量填充空位这样做主要是为了避免在后续批次中可能出现新的向量

这里写图片描述

,让

这里写图片描述

这里写图片描述

代表学习动态权重的权值矩阵和偏置向量,

这里写图片描述

代表不分类的身份特征动态权重和按角度分类的身份特征动态权重。

这里写图片描述

最后p-CNN loss为:

这里写图片描述

G表示类别数,本文是把角度分了三类, Ng 是第g类训练图片的数量;

这里写图片描述

属于动态权值的学习范畴的是:其一是基于身份特征构建的身份特征权重矩阵;其二是基于分类情况构建的类别权重矩阵。(本文设定)

这里写图片描述

测试阶段采用了防止角度判断错误的方法,并采用随机路线作为解决方案。具体实施步骤如下:例如,在比较两张不同姿态的照片时(注:此处应补充具体内容),输入图片I被提取出未进行基于角度的分类的身份特征(yd)以及各个具体的姿态对应的特征向量({yg}Gg=1),随后计算其归属到每个特定姿态类别中的概率。

这里写图片描述

公式阐述:非分类身份特征间的距离与计算非分类身份特征与交叉对比各不同角度类别间的距离之和作为最终的特征距离。

实验部分

这里写图片描述

Table 2. Performance comparison Multi-PIE dataset.

这里写图片描述

Figure 4.(a) 各任务的能量向量排序结果 (b) 右下角的部分移至左上角 (c) 特征维度的变化与识别性能之间的关系;在权值矩阵中各特征行的能量计算

这里写图片描述

每个能量向量的最高点代表各个维度对不同任务的贡献程度, 其数值越大对该任务的作用越显著. 为了便于分析每一个特征维度对各任务的贡献程度, 将所有任务对应的权值矩阵整合起来:

这里写图片描述

计算所有可能的能量向量,并按照能量值由高到低排列成行序列形式(如图b),通过观察可以看出共享特征表达将每个任务分配独立的维度空间。
图c中分别选取Sd中能量值最高的n个样本及其对应的x值构成子集用于学习,并认为这些被选中的样本所代表的向量组合被认为是对识别特定任务具有最大影响力的特征集合。

这里写图片描述

基于学习特征的两种情况下调整输出特征维度能够显著影响识别结果的表现;
根据图示数据,在输入x的情况下,在前200步中识别精度持续上升直至稳定后逐步下降;
这种现象主要归因于引入了动态权重方案(③Dynamic-weighting scheme),而y变量由于未采用该方案仍能保持持续增长的趋势。

这里写图片描述

图(a)

(2)face recognition technology applied to real-world datasets: LFW, CFP, and IJB-A. We leverage the Caffe framework with our modifications. Compared to existing approaches:our method demonstrates superior performance in terms of accuracy and computational efficiency.

这里写图片描述

对现有研究中的c−CNN网络及现有方法优化后的新模型进行性能对比分析,在具体任务指标上均显示出优势。其中优化后的新模型s−CNN在性能指标上均优于原始c−CNN体系;此外实验表明,在多角度人脸识别任务中,p−CNN的表现优于m−CNN

这里写图片描述

在LFW测试中的效果不理想的主要原因是该数据集主要包含正面相貌,在CFP 和 IJB-A 数据集中则包含较多多姿态人脸。因此,在这两个数据集上将进行测试:

这里写图片描述

重点考察正脸与侧脸的识别效果,在测试集上的准确率达到 该研究论文在测试集上的准确率达到 94.\textbackslash percentagesign ,目前最优实验结果为 91.\textbackslash percentagesign ,相较于之前方法相对误差下降了约 30\textbackslash percent ,这一显著提升能够充分证明所提出的方法在应对无约束多姿态人脸识别问题时展现出的有效性

这里写图片描述

s-CNN和p-CNN之间的差距显示MTL对于无约束面部识别的优点。

全部评论 (0)

还没有任何评论哟~