(center loss)A Discriminative Feature Learning Approach for Deep Face Recognition
摘要
卷积神经网络(CNNs)在计算机视觉领域得到了广泛应用,在现有深度神经网络中也展现出卓越的表现。为了提升深度学习模型对特征识别能力的关键性能指标,在本研究中我们提出了一种新的监督信号——中心损失函数。具体而言,在CNN架构下同时学习了各类深层特征的理想中心位置,并通过增加与对应类中心的距离来强化优化目标。值得注意的是,在结合softmax损失函数的同时, 我们证明了所提出的中心损失函数具有良好的可训练性和优化特性。基于这一联合监督框架, 我们成功训练出了一种鲁棒性强、能够有效提取两类关键学习目标的深度特征模型——即类间区分度与类内紧凑度, 这对于人脸识别任务具有重要意义。实验结果表明, 在LFW、YTF及"MegaFace挑战"基准测试上, 该方法均表现优异, 达到了目前国际前沿的人脸识别水平。特别值得一提的是, 在仅使用50万图片和2万人脸的小规模训练集中实现了 MegaFace协议下的最佳性能, 显著超越了现有方法并开创了新的研究方向
1 引言
卷积神经网络(CNNs)在视觉领域展现出显著优势,在提升分类技术的整体水平方面发挥了决定性作用,在识别物体[18,28,33]、场景[42,41]以及特定动作[3,36,16]等方面取得了突破性进展。其核心优势源于大规模训练数据[8,26]的支持以及端到端学习架构的应用效率高。最常见的CNN架构通过深度特征学习与标签预测机制实现了输入数据向深层特征(最后一层隐含层输出)的转换,并最终推导出预测标签(如图1所示)。

图1展示了卷积神经网络的基本架构
- 我们开发了一个新的中心损失函数以缩减深度特征的类内距离。值得注意的是, 这种损失函数尚属首次在监督学习中用于提升CNN性能。
- 我们表明, 所提出的损失函数易于在CNN中实现. 其对应的模型参数是可训练的, 并且可通过标准SGD算法进行优化。
- 我们采用了大量实验数据集中的MegaFace挑战[23](全球最广泛的人脸数据库, 包含超过一百万张识别人脸的照片)以及基于最新评估协议的小型训练集. 此外, 我们还在(LFW)[15]和YouTube脸(YTF)数据库[38]上进行了验证, 并取得了优异的新方法性能。
2 相关工作
近年来,在深度学习技术的帮助下实现了人脸识别领域的多项创新性突破[30,34,29,27,25,37]。他们最初提出了一种基于距离概念的人脸配对方法[6]。为此开发出双胞胎网络架构,在该架构下将正配对样本间的相似度控制得更为紧凑而反配对样本间的相似度则得到显著提升。随后,Hu团队开发了一种非线性变换模型[13]其核心在于建立能够区分正脸与反脸图像的距离边界框架。这些方法均要求提供成对样本作为输入数据进行处理
3 我们的方法
在本节里,我们将对内容进行详细讲解。首先通过一个具体案例直观展现其分布情况,在此基础上提出了一种基于中心损失的新方法,并对其性能进行了深入分析。

表1.为了验证本方法的有效性,在小例子中我们采用了一个名为LeNets++的CNN架构。每组卷积操作之后都会紧跟一个最大池化模块。(5×5、32通道)并行两次即表示使用了两个连续的滤波器组来提取特征信息,并且每个滤波器组都具有相同的通道数(共32个)。这里使用的最大池化操作具有步长为 stride= stride= stride= stride= ,并且没有填充(padding=0)。在该架构中,默认采用PReLU[12]作为非线性激活函数。
3.1 一个小例子
本节将介绍一个基于MNIST[20]数据集的简洁示例。我们对LeNet[19]进行了优化设计,使其深度和宽度均有所提升。具体而言,我们将最终隐层输出缩减至二维(即深度特征的空间维度降为2)。表1详细列出了网络架构的相关参数设置。在模型构建过程中,我们采用了Softmax损失函数来评估分类效果:
L_s=-∑_{i=1}^mlog{e^{W^T_{y_i}x_i+b_{y_i}}\over ∑^n_{j=1}e^{W^T_jx_i+b_j}}
式1中,x_i∈R^d表示第i个深度特征,属于第y_i类,d为特征维数,W_j∈Rd表示上一全连通层中第j个权重向量,b∈Rn为偏置项,mini-batch大小设为m,类数设为n。为了简化分析过程,在此模型中省略了偏置项的影响(事实上这一设定对性能影响甚微)。通过训练学习得到的一组二维深度特征如图2所示,这些特征能够很好地反映各分类样本间的分布规律:首先,从图中可以看出这些特征在类别间呈现明显的区分度;其次,尽管整体上各分类区域之间存在一定的间隔性分布特性,但不同类别的样本仍存在一定数量程内的密集分布现象(这表明各类样本间存在一定程度上的重叠性)。因此,仅凭这些二维特征进行分类识别将会导致较低水平的识别精度

图2展示了深度学习过程在(a)训练集和(b)测试集中数据分布情况。其中采用基于Softmax损失函数进行监督学习的具体机制如下:具体而言,在数据预处理阶段将数据划分为5万条用于训练样本和1万条用于测试样本。每个类别对应的颜色标记清晰展示了其独特的特征。建议使用彩色图像形式呈现以获得最佳观感效果。
3.2 中心损失
如何构建一个有效的损失函数以提升深度学习中特征识别的能力?直观上讲,在保持不同类特性可分的同时最小化类内变化是关键策略。为此提出中心损失函数模型(Formula 2)如下所示:

通过实验展示了如何利用λ参数调节分布情况。观察结果表明不同λ值对应着不同的深层特征分布情况。适当选择λ参数能够显著增强深层特征识别能力。该特征在较宽泛的λ范围内展现出良好的辨别性能。综合监督策略有助于提升深度学习模型的特征识别能力,在人脸识别领域具有重要意义。

图3基于softmax损失与中心损失的共同监督指导下的深度学习模型中,在不同类别样本间的分布情况中展示了各层激活值的空间布局变化趋势。实验表明当λ值发生变化时会显著影响到模型内部各层激活值的空间位置排列情况其中每个白点代表了一个特定类别的空间位置坐标即(c_i)分别对应于i从0到9的不同类别索引数值取自该空间位置坐标上的激活强度数值最大化的单元即对应于该空间位置坐标的分类结果表明通过适当选择λ参数能够有效调控模型的学习过程最终采用彩色图像能够呈现最佳的效果
3.3 讨论
- 联合监督的重要性。若我们仅采用λ=0的Softmax损失作为监督信号,则所获得的深度学习特性将表现出较大的类内差异。另一方面,在监督CNN网络时仅采用中心损失会导致其特征与中心值趋向于零(此时中心损失极小),从而无法有效区分特征学习。单独采用任一方法均无法实现有效的特征区分。因此有必要将二者结合起来共同监督CNN架构,并通过实验验证了这种方法的有效性。
- 对比损失与三元组损失的比较。最近的研究中[29,37]提出了对比损失以及[27]提出的三元组损失来增强深度学习在人脸特征识别中的能力。然而,在构建训练集时两者都会面临数据量急剧增加的问题。相比之下,我们的中心损失与Softmax 损失具有相似的需求特点,并未对训练数据进行复杂的重新组合处理即可达到相同的效果。因此相对于对比损失与三元组_loss而言,我们的方法在CNN的监督学习中更具高效性和实用性,并且能更好地满足类内样本紧凑性的学习目标。
4 实验
在第4.1节中详细说明相关步骤。随后,在第4.2节中分析了参数λ和α对系统性能的影响。详细描述了多个公共领域的实证研究(包括LFW[15]、YTF[38]以及MegaFace Challenge[23]),这些实验结果充分证明了所提出方法的优越性。
4.1 实施细节
预处理。 最近提出的算法[40]可以检测图像中的人脸及其特征点。我们使用5个特征点(两只眼睛,鼻子和嘴角)进行相似性变换。当检测失败时,如果是训练集中的图像,我们可以直接丢弃,如果是测试图像,我们可以使用提供的特征点。人脸被裁剪成112×96 RGB图像。按照之前的约定,RGB图像中的每个像素(在[0,255]中)通过减去127.5然后除以128来归一化。
训练数据。 我们使用网络收集的训练数据,包括CASIAWebFace ,CACD2000, Celebrity+。将测试数据集中出现的带有身份的图像去除后,大约为17189个独立人物的70万张图像。在4.4节中,我们只使用0.49M的训练数据,遵循小训练集的协议,对图像进行水平翻转进行数据增强。与其他的训练集相比,它是一个小规模的训练集。
CNNs中的详细设置。 我们使用Caffe库实现CNN模型[17]与我们的修改。本节中的所有CNN模型都是相同的架构,图4给出了详细信息。为了比较公平,我们分别在下训练了三种模型,softmax损失(模型A)、softmax损失和对比损失(模型B)、softmax损失和中心损失(模型C)。这些模型在两个gpu (TitanX)上以256批量进行训练。对于模型A和模型C,学习率从0.1开始,在16K, 24K次迭代时除以10。一个完整的训练过程在28K次迭代中完成,大约花费14个小时。对于模型B,我们发现它收敛较慢。结果,我们将学习率初始化为0.1,并将在24K,36K迭代时更改学习率。总的迭代是42K,花费22个小时。
测试中的详细设置。 深度特征取自第一FC层的输出。我们提取每幅图像和水平翻转后的图像的特征,并将它们连接起来作为表示。通过PCA后两个特征的余弦距离计算得分。最近邻[7]和阈值比较用于识别和验证任务。注意,我们只对所有测试使用单一模型。
4.2 对参数λ和α进行实验
在模型C架构中,通过超参数λ调节同一类内部样本之间的变化程度,并通过α系数决定中心点c的学习速率。这一设置对于模型的整体性能都是不可或缺的。为此我们设计并执行了两项实验以评估这两个关键参数的变化对其结果的影响。

在实验二中我们观察到当仅调节α值时系统表现依然保持一致且对于不同类别间的区分能力得到了显著提升这种现象表明当前所采用的损失函数设计能够在一定程度上提高分类器的有效性
4.3 在LFW和YTF数据集上的实验
在本节中, 我们评估了一个单一模型的能力, 在两个知名的人脸识别基准上:LFW 和 YTF 数据集. 它们是图像与视频领域 face recognition 的优秀基准. 图6展示了几个示例结果. 我们使用了约70万外部数据进行模型训练, 且 LFW 和 YTF 数据集中样本均来自不同个人. 本节中, 我们固定了模型C的λ参数值为0.003, 并设置α参数值为0.5

图6展示了来自LFW和YTF两个数据集的人脸图像序列。在绿色帧中展示的是同一人的两张人脸图像(正对),而红色帧中的则是不同人物(负对)。每个白色边框框出待识别的脸部区域。

表2展示了不同方法在LFW和YTF数据集上的验证性能
4.4 在MegaFace Challenge数据集上的实验
该数据集近期发布作为基准测试集使用,并旨在评估在大量非测试集中身份的人脸识别算法性能的基准数据集

图7展示了巨型数据库中的人脸图像集合(probe集与gallery库)。其中gallery库包含至少一个真实图像以及数量庞大的干扰图像。由于主体内部存在较大的差异性,并且干扰物种类繁多复杂,在这种情况下识别与验证任务呈现出极高的挑战性。

图8展示了不同方案下的CMC曲线特征,在小规模训练集上进行了对比分析。其中包含两个干扰类别:一个是数量为1 million(1M)的样本集合,另一个是每组包含1万(10K)样本的分类干扰物。其余对比方案来自该团队的研究成果
人脸认证系统中的人脸验证任务。该系统通过分析一对图像确定同一人的身份,在probe与gallery数据集之间建立了40亿对非匹配样本。为评估系统的性能参数指标, 我们计算了真实接受率(TAR)与假接受率(FAR), 并通过绘制各方法的受试者工作特性(ROC)曲线(如图9所示)展示了不同算法的表现比较

为了便于与其他现有系统进行对比分析,在本研究中我们将现有方法作为对比基准,并对以下几种主要算法进行了系统性研究:包括LBP[2]以及JointBayes [5]等经典算法;基于深度学习的两个基准模型(模型A与模型B),以及数百 million级别的干扰物条件下的人脸识别算法;其他参赛团队提交的深度学习框架。通过图8和图9的实验结果可以看出,在手工特征提取阶段以及浅层模型阶段均未取得显著效果。当干扰物数量显著增加时,在准确率方面出现了明显下降。值得注意的是,在综合考虑Softmax损失函数与Center损失函数的基础上,在测试集上的分类准确率达到93.2%以上。鉴于实际应用场景中对于系统稳定性和可靠性要求极高的情况,A识别阶段正确率已成为衡量系统性能的重要指标之一。

表3.MegaFace上不同方法对1M干扰的识别率

根据表4,在 MegaFace 上采用不同方法进行验证的结果
5 总结
在本文中, 我们引入了一种新型损失函数, 并命名为中心损失. 通过将中心损失与softmax交叉熵损失融合, 协同训练卷积神经网络 (CNN), 从而能够显著提升其深度学习特征识别能力和增强人脸识别鲁棒性. 多轮的人脸识别实验表明该方法具有良好的效果.
6 致谢
References
-
Fg-net aging database. In: http://www.fgnet.rsunit.com/ (2010)
-
Ahonen, T., Hadid, A., Pietikainen, M.: Face description with local binary patterns:Application to face recognition. Pattern Analysis and Machine Intelligence, IEEE Transactions on 28(12), 2037–2041 (2006)
-
Baccouche, M., Mamalet, F., Wolf, C., Garcia, C., Baskurt, A.: Sequential deep learning for human action recognition. In: Human Behavior Understanding, pp.29–39. Springer (2011)
-
Chen, B.C., Chen, C.S., Hsu, W.H.: Face recognition and retrieval using cross-age reference coding with cross-age celebrity dataset. Multimedia, IEEE Transactions on 17(6), 804–815 (2015)
-
Chen, D., Cao, X., Wang, L., Wen, F., Sun, J.: Bayesian face revisited: A joint formulation. In: Computer Vision–ECCV 2012, pp. 566–579. Springer (2012)
-
Chopra, S., Hadsell, R., LeCun, Y.: Learning a similarity metric discriminatively,with application to face verifification. In: Computer Vision and Pattern Recognition,2005. CVPR 2005. IEEE Computer Society Conference on. vol. 1, pp. 539–546. IEEE (2005)
-
Cover, T.M., Hart, P.E.: Nearest neighbor pattern classifification. Information Theory, IEEE Transactions on 13(1), 21–27 (1967)
-
Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A large-scale hierarchical image database. In: Computer Vision and Pattern Recognition, 2009.CVPR 2009. IEEE Conference on. pp. 248–255. IEEE (2009)
-
Fukunaga, K., Narendra, P.M.: A branch and bound algorithm for computing k-nearest neighbors. Computers, IEEE Transactions on 100(7), 750–753 (1975)
-
Hadsell, R., Chopra, S., LeCun, Y.: Dimensionality reduction by learning an invariant mapping. In: Computer vision and pattern recognition, 2006 IEEE computer society conference on. vol. 2, pp. 1735–1742. IEEE (2006)
-
He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition.arXiv preprint arXiv:1512.03385 (2015)
-
He, K., Zhang, X., Ren, S., Sun, J.: Delving deep into rectififiers: Surpassing human-level performance on imagenet classifification. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 1026–1034 (2015)
-
Hu, J., Lu, J., Tan, Y.P.: Discriminative deep metric learning for face verifification in the wild. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 1875–1882 (2014)
-
Huang, G.B., Learned-Miller, E.: Labeled faces in the wild: Updates and new reporting procedures. Dept. Comput. Sci., Univ. Massachusetts Amherst, Amherst,MA, USA, Tech. Rep pp. 14–003 (2014)
-
Huang, G.B., Ramesh, M., Berg, T., Learned-Miller, E.: Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Tech.
rep., Technical Report 07-49, University of Massachusetts, Amherst (2007) -
Ji等(2013)开发了一种基于三维卷积神经网络的人体动作识别方法,并发表在《IEEE模式分析与机器智能》期刊上。
-
在《ACM多媒体国际会议》上发表的一篇文章中(Jia等2014年),提出了一款名为Caffffe的软件系统及其卷积神经网络架构设计。
Yandong Wen等人(2016年)提出了基于深度学习的图像检索方法。 -
Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classifification with deep convolutional neural networks. In: Advances in neural information processing systems.pp. 1097–1105 (2012)
-
LeCun, Y., Bottou, L., Bengio, Y., Haffffner, P.: Gradient-based learning applied to
document recognition. Proceedings of the IEEE 86(11), 2278–2324 (1998) -
LeCun, Y., Cortes, C., Burges, C.J.: The mnist database of handwritten digits(1998)
-
Liu, J., Deng, Y., Huang, C.: Targeting ultimate accuracy: Face recognition via deep embedding. arXiv preprint arXiv:1506.07310 (2015)
-
Liu, Z., Luo, P., Wang, X., Tang, X.: Deep learning face attributes in the wild.In: Proceedings of the IEEE International Conference on Computer Vision. pp. 3730–3738 (2015)
-
Miller, D., Kemelmacher-Shlizerman, I., Seitz, S.M.: Megaface: A million faces for recognition at scale. arXiv preprint arXiv:1505.02108 (2015)
-
Ng, H.W., Winkler, S.: A data-driven approach to cleaning large face datasets. In:Image Processing (ICIP), 2014 IEEE International Conference on. pp. 343–347.IEEE (2014)
-
Parkhi, O.M., Vedaldi, A., Zisserman, A.: Deep face recognition. Proceedings of the British Machine Vision 1(3), 6 (2015)
-
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z.,Karpathy, A., Khosla, A., Bernstein, M., et al.: Imagenet large scale visual recognition challenge. International Journal of Computer Vision 115(3), 211–252 (2015)
-
Schroffff, F., Kalenichenko, D., Philbin, J.: Facenet: A unifified embedding for face recognition and clustering. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 815–823 (2015)
-
Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014)
-
Sun, Y., Chen, Y., Wang, X., Tang, X.: Deep learning face representation by joint identifification-verifification. In: Advances in Neural Information Processing Systems.pp. 1988–1996 (2014)
-
Sun, Y., Wang, X., Tang, X.: Hybrid deep learning for face verifification. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 1489–1496(2013)
-
Sun, Y., Wang, X., Tang, X.: Deep learning face representation from predicting 10,000 classes. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 1891–1898 (2014)
-
Sun, Y., Wang, X., Tang, X.: Deeply learned face representations are sparse, selective, and robust. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 2892–2900 (2015)
-
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D.,Vanhoucke, V., Rabinovich, A.: Going deeper with convolutions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 1–9 (2015)
-
Taigman, Y., Yang, M., Ranzato, M., Wolf, L.: Deepface: Closing the gap to human-level performance in face verifification. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 1701–1708 (2014)
-
Thomee, B., Shamma, D.A., Friedland, G., Elizalde, B., Ni, K., Poland, D., Borth,D., Li, L.J.: The new data and new challenges in multimedia research. arXiv preprint arXiv:1503.01817 (2015)A Discriminative Feature Learning Approach for Deep Face Recognition 17
-
Wang, L., Qiao, Y., Tang, X.: Action recognition with trajectory-pooled deep-convolutional descriptors. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 4305–4314 (2015)
-
Wen, Y., Li, Z., Qiao, Y.: Latent factor guided convolutional neural networks for age-invariant face recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 4893–4901 (2016)
-
Wolf, L., Hassner, T., Maoz, I.: Face recognition in unconstrained videos with matched background similarity. In: Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on. pp. 529–534. IEEE (2011)
-
Yi, D., Lei, Z., Liao, S., Li, S.Z.: Learning face representation from scratch. arXiv preprint arXiv:1411.7923 (2014)
-
Zhang, K., Zhang, Z., Li, Z., Qiao, Y.: Joint face detection and alignment using multi-task cascaded convolutional networks. arXiv preprint arXiv:1604.02878 (2016)
-
Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., Torralba, A.: Object detectors emerge in deep scene cnns. arXiv preprint arXiv:1412.6856 (2014)
-
Zhou, B., Lapedriza, A., Xiao, J., Torralba, A., Oliva, A.: Learning deep features for scene recognition using places database. In: Advances in neural information processing systems. pp. 487–495 (2014)
