DeepID3: Face Recognition with Very Deep Neural Networks
https://arxiv.org/abs/1502.00873
摘要
随着深度学习技术的出现,人脸识别技术得到了长足的发展。极深神经网络由于其强大的学习能力,近年来在一般物体识别领域取得了巨大的成功。这一动机研究了他们对人脸识别的影响。本文提出了两种非常深的神经网络架构,称为DeepID3,用于人脸识别。这两种架构是由VGG net[10]和GoogLeNet[16]中提出的堆叠卷积和inception层重建而来,使其适合人脸识别。在训练过程中,在中间和最终特征提取层中加入联合人脸识别验证监控信号。两种体系结构的集成分别实现了99.53%的LFW人脸验证精度和96.0%的LFW rank-1人脸识别精度。最后对LFW人脸验证结果进行了进一步的讨论。
1 引言
使用深度神经网络学习有效的特征表示在人脸识别中已经很流行[12,20,17,22,14,13,18,21,19,15]。随着较好的深层网络架构和监控方法,人脸识别的准确率在近年来得到了快速的提高。特别是,一些值得注意的面部表征学习技术最近正在发展。早期在监督方式下学习深度人脸表示的一个尝试是使用人脸验证作为监督信号[12],这需要将一对训练图像分类为是否是同一个人。它极大地减少了人脸特征中的个人内部变化。然后,DeepID[14]和DeepFace提出了通过大规模人脸识别分类(face identification)学习有判别能力的型深度人脸表示[17,18]。通过对训练图像进行大量的身份分类,深度神经网络的最后一层隐藏层将形成丰富的身份相关特征。通过这项技术,深度学习在经过广泛评估的LFW人脸验证数据集[6]的紧密裁剪的人脸图像上首次接近人类的性能。然而,习得的面孔表征也可能包含显著的个人内变化。在[12]和[14]的激励下,在DeepID2[13]中提出了一种通过联合人脸识别验证来学习深度人脸表示的方法,并在DeepID2+[15]中进一步改进。增加验证监控信号显著减少了个人内的变化,导致人脸识别性能的另一个显著改善。最终超过了lfwall人脸图像的人脸验证精度[13,15]。在ILSVRC2014中GoogLeNet[16]和VGG[10]在总体图像分类中排名第一。这促使我们去研究由非常深的网络结构所带来的高超的学习能力是否也能有益于人脸识别。
虽然DeepID2和DeepID2+有高级监控信号的监督,但与最近提出的在一般物体识别方面的高性能深度神经网络如VGG和GoogLeNet相比,其网络结构要浅得多。VGG网将多个卷积层叠加在一起,形成复杂的特征。GoogLeNet更先进,它将多尺度的卷积和汇集到一个单一的特征提取层中。
为了有效地学习,它还引入了1x1卷积来进行特征降维。
在本文中,我们提出了两种被称为DeepID3的深度神经网络体系结构,它们比目前最先进的用于人脸识别的DeepID2+体系结构要深得多。DeepID3网络是由基本元素(即VGG net[10]和GoogLeNet[16]的叠加卷积或inception layer)。在训练过程中,在最终的特征提取层以及每个网络的几个中间层中加入联合人脸识别验证监督信号[13]。此外,为了学习到更丰富的面部特征,DeepID3网络较高层的权重是不共享的。在与DeepID2+相同的数据集上进行训练,与DeepID2+相比,DeepID3在LFW上的人脸验证准确率从99.47%提高到99.53%,排名1的人脸识别准确率从95.0%提高到96.0%。
最后将对错误标记的人脸对和几个较难的测试样本进行修正时的“真”人脸验证精度进行进一步讨论。
2 DeepID3网络
为了进行比较,我们简要回顾了之前提出的DeepID2+ net架构[15]。如图1所示,DeepID2+ net有3个卷积层,然后是最大池(第三个卷积层的神经元只在局部区域共享权值),然后是一个局部连接层和一个全连接层。联合识别验证监督信号[13]被添加到最紧密连接的层(从其中提取最终特征用于人脸识别),以及从中间汇集层中分离出来的几个完全连接的层,以便更好地监督早期特征提取过程。

提出的DeepID3网络继承了DeepID2+网络的一些特征,包括在最后几个特征提取层中未共享的神经权值,以及在早期层中添加监控信号的方式。然而,DeepID3网络要深得多,有10到15个非线性特征提取层,而DeepID2+只有5个。特别地,我们提出了两种DeepID3网络架构,分别称为DeepID3 net1和DeepID3 net2,如图2和图3所示。DeepID3 net的深度是在每个池化层之前叠加了多个卷积/初始层。连续卷积/inception在限制参数[10]的同时,有助于形成接受域更大、非线性更复杂的特征。

提出的DeepID3 net1在每个池化层之前使用两个连续的卷积层。与之前文献[10,19]提出的VGG网络相比,我们在中间层分支出来的一些全连接层中添加了额外的监控信号,这有助于更好地学习中间层的特性,使深度神经网络的优化更加容易。最上面的两个卷积层被替换为局部连接层。使用非共享的参数,顶层可以在降低特征维数的情况下形成更有表现力的特征。DeepID3 net1的最后一个本地连接层用于提取最后的特性,而不需要额外的完全连接层。
DeepID3 net2和DeepID3 net1一样,每两个连续的卷积层开始,然后是一个池化层,而在后面的特征提取阶段,初始层是[16]:在第三个池化层之前有三个连续的初始层,在第四个池化层之前有两个初始层。在每个池化层之后的全连接层上增加联合识别验证监控信号。
在提出的两种网络架构中,除了池化层外,所有层都使用了Relu非线性[9],在最终的特征提取层上添加了dropout learning[5]。虽然DeepID3网络具有显著的深度,但由于每一层的feature map数量有限,我们的DeepID3网络比VGG net或GoogLeNet一般提出的目标识别要小得多。
与DeepID2+ nets[15]在相同的25个人脸区域上训练所提出的DeepID3网,每个网络都以一个特定的人脸区域作为输入。这些人脸区域是在之前的工作[13]中通过特征选择来选择的,这些区域在位置、尺度和颜色通道上都不同,使得不同的网络可以学习互补的信息。经过训练后,使用这些网络分别从人脸区域中提取特征。
然后在这些特征上学习一个额外的联合贝叶斯模型[3],用于人脸验证或识别。所有DeepID3网络和联合贝叶斯模型都是在与DeepID2+[15]相同的约30万个训练样本上学习的。DeepID2+[15]是一个名人脸+[14]和WDRef[3]数据集的组合,并在LFW[6]上进行了测试。这两个训练数据集和LFW测试集中的人是互斥的。图4分别比较了DeepID3网和DeepID2+网在25个人脸区域(水平翻转)上的LFW人脸验证性能。平均而言,DeepID3 net1和DeepID3 net2比DeepID2+ net分别降低了0.81%和0.26%的错误率。

图4:在[15]中同一人脸区域上训练的DeepID2+和DeepID3网络个体的LFW人脸验证精度。
3 实验
为了减少冗余,使用DeepID3 net1和net2分别提取原始和水平翻转的人脸区域的特征,而不是同时提取两个区域的特征。在测试中,特征提取需要50次正向传播,一半来自DeepID3 net1,另一半来自net2。这些特征被连接成一个大约有30000维的长特征向量。使用主成分分析方法,可以将人脸识别降至300维,并在此基础上学习联合贝叶斯模型进行人脸识别。
我们分别在LFW人脸验证[6]和LFW人脸识别[1,18]协议下评估DeepID3网络。在面部验证方面,6000对给定的脸被验证,以区分它们是否来自同一个人。在此协议下,我们达到了99.53%的平均精度。与以往工作的平均精度和ROC曲线比较,分别见表1和图5。

表1.LFW上的人脸验证

图5:LFW人脸验证ROC
对于人脸识别,我们采用一个封闭集和一个开放集的识别协议。对于封闭集识别,gallery包含4249名受试者,每个受试者一张面孔图像, probe集包含库中同一组受试者的3143张面孔图像。对于开放集识别,gallery包含596个受试者,每个受试者一张面部图像, probe集包含596个真 probe和9494个假 probe。表2比较了闭集识别的第1级识别准确率和开集识别的第1级检测识别率(DIR)在1%的误报率(FAR)下的差异。我们分别实现了96.0%的闭集和81.4%的开集人脸识别准确率。

表2:LFW上的闭集和开集识别任务。
4 讨论
在LFW网站上有三对测试脸,他们被标记为同一个人,但实际上是不同的人。在这三对中,有两对被我们的DeepID3算法划分为同一个人,而另一对被划分为不同的人。因此,当对这三对人脸进行标签校正时,DeepID3的实际人脸验证精度为99.52%。对于DeepID2+[15],在纠正三个错误标签前的人脸验证准确率为99.47%。然而,DeepID2+将这三对被错误标记为正面面孔的人归为不同的人。当这三个错误标签被修正后,DeepID2+的真实人脸验证精度也达到了99.52%[15]。DeepID3虽然采用了与VGG和GoogLeNet类似的非常深的架构,但在LFW人脸验证任务上没有使用过深的架构。那些非常深的架构是否会利用更多的训练人脸数据,最终超越像DeepID2+这样的较浅架构,仍然是一个悬而未决的问题。
我们检查了被DeepID系列算法包括DeepID[14]、DeepID2[13,11]、DeepID2+[15]和DeepID3错误分类的LFW中的测试脸对。共有九种常见的误报和三种常见的误报,约占DeepID3错误分类的脸对的一半。这三对被标记为同一个人但被划分为不同的人的脸如图6所示。第一张脸的年龄相差很大。第二对实际上是不同的人,由于标签上的错误。第三个是一位有着截然不同妆容的女演员。图7展示了9对被标记为不同人的脸,同时被算法分类为同一个人。大多数看起来相似或有干扰,如咬合。

图6:DeepID系列算法中常见的假阴性(标签是同一个人,预测是不同的人)

图7:DeepID系列算法中常见的假阳性。
5 总结
本文提出了两种深度显著的神经网络结构,即杜造的DeepID3,用于人脸识别。所提出的DeepID3网络在LFW人脸验证和识别任务上都达到了最先进的性能。然而,当LFW中一些错误的标签被纠正后,DeepID3相对于DeepID2+在LFW人脸验证上的改进消失了。深度神经网络的有效性有待于将来在更大规模的训练数据上进一步研究。
