Advertisement

CVPR 2020 | 旷视研究院提出数据不确定性算法 DUL,优化人脸识别性能

阅读量:

CVPR 2020大会正式发布

本文属于旷视CVPR2020论文系列解读的第七篇,在该系列中提出了Data Uncertainty Learning(DUL)算法。该算法将数据不确定性估计理论成功应用于人脸识别领域研究中。其中,DUL算法采用了两种不同的训练模式,并能与多种主流的人脸识别损失函数实现良好的结合,从而显著提高模型在低质量人脸验证及人脸检索任务中的性能。此外,DUL算法对于训练集中的噪声样本具有较强的鲁棒性特征,能够有效缓解脏样本可能带来的负面影响。值得注意的是,DUL算法不仅关注于每张图像预测出的概率分布情况,还特别强调其预测结果与其对应图像质量之间的明显正相关关系,这一特性为后续的研究工作提供了重要的理论基础和实践指导,进而拓展至无监督学习范式下的视频帧质量推图或高风险人脸验证预警等具体应用场景中

论文名称:Data Uncertainty Learning in Face Recognition

论文链接:https://arxiv.org/abs/2003.11339

目录

  • 导语

  • 简介

  • 方法

    • 前言

    • 基于分类的人脸识别 DUL

    • 基于回归的人脸识别 DUL

  • 实验

    • 对比确定性基准

    • 对比 PFE

    • 对比 SOTA

    • 模型鲁棒性

  • 结论

  • 参考文献

  • 往期解读

导语

不确定性问题源于数据内部的「噪声」,在计算机视觉领域中,例如在 facial recognition technology 中,这种不确定性的建模具有重要意义,因为图像采集过程中的各种干扰因素会导致这一特性表现得尤为突出。

很多人脸识别方法通过将每张人脸图像转换为隐空间中的一个确定位置(deterministic point embedding, 即「点嵌入」)来实现这一目标。在此情形下, 相同身份号 ID 的高质量图片通常会聚集在一起形成一个紧凑的区域。然而, 当一张人脸图片存在噪声干扰时, 其对应的点嵌入位置就变得难以准确估计, 因此会导致该张图片在隐空间中出现于由高质量同类样本组成的簇之外的位置上。换句话说, 低质量的人脸图片在隐空间中的点嵌入表现得具有很强的不确定性特征。例如图1(a)所示的情况:带有一定的噪声后的人脸正样本会远离其真实类别, 并接近带有一定的噪声后的负样本, 这种现象从而导致无法正确匹配

图1:点估计与分布估计

该方法首次在人脸识别领域引入了对数据不确定性进行建模的机制。通过计算每个输入样本在隐空间中的高斯分布特性(即概率性嵌入),该方法避免了传统方法仅使用固定点表示所带来的信息损失问题。具体而言,在预训练FR模型框架下,在每一步输入中,该方法将当前样本的点表示作为其对应高斯概率分布均值的估计,并保持不变。随后,在FR模型输出层之后附加了一支新的子网络模块用于预测该样本高斯分布参数中的方差部分。

PFE 的训练损失函数由一个新型相似性指标 MLS 构成,在衡量两个高斯分布间差异方面具有显著效果。采用 MLS 损失函数进行优化后,在区分高质量人脸样本与噪声样本方面表现出色:高质量样本的方差被准确估计为较小值;而噪声图像则呈现出较大的方差估计值。借助 MLS 度量这一特性,在1v1验证场景中能有效降低噪声样本引起的误匹配率(如图1(b)所示)。

尽管具有显著效果但PFE仍存在一些局限性在训练过程中该方法仅专注于优化方差相关的特征学习而忽略了原始点嵌入的均值特征因此在模型特征学习过程中数据的不确定性未能得到充分应用此外传统的基于余弦相似性的度量方式无法直接应用于该方法中并且在计算复杂性和资源消耗方面该方法所采用的度量机制更为高效

简介

本文最先将数据不确定性学习技术应用于基于概率嵌入的人脸识别系统中,并特别关注于均值与方差这两个重要的统计参数的学习过程。如图1(c)所示,在这种情况下, 该方法的本质上是提升了人脸样本的表示学习效果, 使得同类样本更加集中于同一区域, 并且异类样本分散开来. 因此, 在实际应用中使用本文提出的方法能够直接匹配传统的相似性度量标准, 并且完全避免使用MLS度量方式.

具体而言,本研究提出了两类学习方法,第一类采用基于分类的端到端学习方案;第二类采用基于回归的技术用于优化现有模型,类似于PFE的方法。本研究从图像噪声的角度探讨了上述两种方法习得的不确定性对模型训练过程的影响,并得出了具有洞察力的研究发现:习得的不确定性能够自适应地减少噪声样本对模型训练反效果的影响,从而促进人脸特征的有效学习。

方法

本文首先对连续映射空间中广泛存在的数据不确定性进行了深入探讨,并重点关注了与本文任务紧密相关的高质量人脸数据集。随后开发出一种基于分类的方法DUL_cls将数据不确定性整合到传统的人脸分类模型中;同时开发出一种新型回归方法DUL_rgs以进一步优化现有确定性人脸识别技术

前言

该系统中存在固有的数据不确定性和模糊性。考虑一个连续映射函数f: X → Y,在此系统中存在。其中每个输出y_i都会受到输入相关的噪声n(x_i)的影响。相应地,在这种情况下,系统的输出结果会受到输入变量x_i的影响。为了简化分析,请考虑以下情况:假设每个输出变量y_i都受到加性噪声n(x_i)的影响,并且该噪声服从均值为0、方差与x相关...

在连续空间中观测到的每个样本点 y_{i} 都可以被建模为 y_{i} = f(x_{i}) + εσ(x_{i})。传统的回归分析方法对于每个样本点 x_{i} 仅用于估计其对应的函数值 f(x_{i})。然而,在不确定性的量化方面更为全面的方法——即异方差不确定性回归——不仅能够推断出函数值 f(x_{i}) 的最佳近似值及其置信区间 σ(x_{i})。具体而言,请参考图2(a)。

图2:(a):X → Y映射中的噪声;(b):MS-Celeb-1M中的噪声

在人脸数据集中存在不确定性问题。类似于上文所述的连续映射空间,在这里我们讨论的是一个承载着数据不确定性的X到_Y_的映射空间。无论是通过何种途径获取或者网络爬取的人脸图像往往会出现模糊不清的情况。

如上所述,在潜在空间中表示一个人脸图像的方法通常采用深度学习的人脸识别模型。假定每个人脸图像 x_i 都存在一个"理想"的目标嵌入 f(x_i),这一目标嵌入最大限度地表征了该人脸的独特身份(ID)信息,并尽量减少由于这张图片中与身份无关的信息所导致的影响。

在实际应用中,深度学习模型能够获取人脸隐特征 z_i 表征为:z_i = f(x_i) + n(x_i),其中 n(x_i) 被视为与身份信息无关的干扰信号。这些干扰信号对预期得到的真实身份特征 f(x_i) 影响类似于一种"破坏"作用。本文将这些干扰信号 n(x_i) 视作 z_i 中存在的不确定性因素。

基于分类的人脸识别DUL

本研究致力于开发DUL_cls体系结构,通过引入数据不确定性学习机制来提升端到端的人脸识别系统的性能.

概率性质的描述:为了使后续分析更具系统性,在本研究中我们假设每个样本 x_i 在隐空间中的表示 z_i 被视为服从高斯分布的随机变量

其中,在高斯分布中包含两个参数(均值μ_i和方差σ_i),这些参数都是受输入数据影响的,并各自由不同的卷积神经网络分支推导得出。本文将均值特征 μ_i 视为与身份相关的图像信息,并将方差特征 σ_i 视为反映预测结果 μ_i 不确定程度的因素。

目前,并非对每个样本的表示仅采用确定性的点嵌入方式, 而是应通过从高斯隐空间分布中进行随机采样来生成具有不确定性特性的嵌入向量. 然而, 在卷积神经网络(CNN)的优化过程中, 这种采样操作是不可微分( non-differentiable ), 从而阻止了模型在训练过程中传递梯度信息的能力.

为了解决这一问题,本文采用了借鉴VAE的方法来实现重参技巧。具体而言,首先从标准正态分布中生成一个噪声ε,并且该噪声ε相互独立于模型参数之外的部分;接着,在此基础上通过公式2实现了对采样操作的等同于随机性嵌入表征的操作(整个过程如图3所示):

图3:DUL_cls模型示意图

分类损失基于每个图像 x_i 的最终特征向量;通过将这些特征输入到预训练的分类器中;通过最小化下方定义的 softmax 损失函数:

在实际应用中,在实际应用中

KL散度正则化:由等式2可知,与 ID 信息相关的表征,μ_i,会在训练期间受到不确定性 σ_i 的 「腐蚀」。在仅优化该分类损失函数(等式3)时,会出现模式坍塌效应,使得模型对于所有样本的 σ_i 的预测都偏小,且趋于一个常数,以使得分类损失可以正常收敛。在这种情况下,随机性的嵌入表征可以视为 s_i = μ_i + c(其中,c 为一个常数),此时,其实整个模型可以看做“退化”为了原本的确定性嵌入模型。

基于变分信息瓶颈理论,在优化过程中加入了正则化项来限制模型学到的分布N(μ_i, σ_i)趋近于标准正态分布N(0,1)。本文通过Kullback-Leibler散度(KLD)量化两个概率密度函数之间的差异程度。其数学形式如下:D_{KL}(P||Q) = \int_{-\infty}^{\infty} P(x)\log\frac{P(x)}{Q(x)}dx

当 σ_i 的每一维被限定于区间(0,1)时,在这种情况下等式4对于 σ_i 来说是单调递减的。这一特性使得等式4能够在一定程度上能够平衡等式3之间的关系。具体而言,在模型对所有样本都预测出相对较小的σ值时,由等式4给出的L_kl损失会显著增加;这将对模型产生乘法上的抑制效果。相反地,在这种情况下虽然L_kl整体有所降低;但若模型对所有样本都预测出过高的σ值,则可能导致较大的σ值可能会对μ值造成过度影响;从而使得分类损失无法得到有效的优化处理。本文将整体损失函数构建为

基于回归的人脸识别DUL

DUL_rgs的设计灵感源自于在连续映射空间中进行异方差不确定性回归(图2, a)的应用。主要面临的问题在于,在识别任务中,Y空间基于离散变量构建,无法作为连续的目标向量来进行逼近(这一挑战亦被PFE所提及,但目前该解决方案仍未得到完善)。

针对上述挑战性问题,在本文中我们提出一个新的基于深度学习的人脸识别映射空间系统。该系统作为一个连续型的空间模型,并且最为关键的是能够很好地近似原来目标离散空间的本质特征以保证准确性与可靠性。具体而言,在本研究中我们采用了现成的预训练深度学习框架提取其分类层权重矩阵W作为核心参数集。其中每一个权重向量w_c代表了对应类别的人脸特征向量;因此从输入数据X到权重矩阵W的线性变换就构成了一个全新的连续型人脸特征映射空间结构基础在此基础上我们进一步应用了异方差不确定性回归方法有效缓解了人脸图像中存在的噪声干扰问题

Probabilistic representations are employed to model uncertainty in text-based data for estimating identity-related features f(x_i) and their corresponding uncertainty measures n(x_i) .

图4:DUL_rgs模型示意图

假设我们将每个W_c视为目标,则可以通过最大化以下似然函数来获得每一个X_i:L = \sum_{i=1}^N \log p(x_i)

实际操作中,本文对这个似然度取了对数:

本文建立神经网络模型用于预测对数方差的变化,并通过最小化损失函数来实现似然度的最大化操作。

对于等式7的「Loss Attenuation」机制的解释可以参考原始论文。

实验

本文系统阐述了定性和定量分析的方法及其在探索习得数据不确定性意义中的应用,并深入探讨了数据不确定性学习对人脸模型性能的影响;通过MS-Celeb-1M噪声数据集上的实验研究发现,所提出的方法相较于确定性方法更具优势。

对比确定性基准

表1:MS-Celeb-1M数据集上的模型(ResNet18)训练结果

如表1所示,在各个基准测试中

研究表明,在采用数据不确定性训练的方法下获得的 ID 嵌入在类间聚合性和类内分离性方面相较于基于基线模型估计的传统点嵌入具有显著的优势,并且这种优势尤其适用于具有挑战性的数据集的情况中。

图5:上:TPR&FPR vs. IJB-C阈值;下:基线模型中的FP case(左),DUL_cls中的 FP case

DUL同样在具有代表性的IJB-C基准测试中实现了最突出的增长效果。如图5所示,在多个阈值条件下相比传统方法,DUL_cls不仅提升了检测准确率,还显著降低了误报频率。此外,图5详细列出了两种方法在实际应用中主要存在的误诊情况。

可以看到,在极端噪声环境下能够有效应对更多误报的情况(FP),这种现象常见于基于确定性的模型中。这表明,在未受限制的人脸识别场景下(vs.),与基于确定性的模型相比(vs.),具有数据不确定性的学习方法更具适用性。同样得出这一发现的是DUL_rgs方法。

对比PFE

DUL_cls/rgs在特征提取过程中采用平均池化操作用于特征聚合,并基于余弦相似度进行评估指标计算。与PFE方法相比,DUL_cls普遍展现出超越其优势,DUL_rgs同样表现出具有竞争力的效果,具体对比分析结果详见表1

对比SOTA

表2:在LFW、YTF、MegaFace (MF) 、CFP-FP数据集上,与当前最佳方法的对比结果

表3:在IJB-C数据集上,与当前最佳方法的对比结果,Back- bone: ResNet64

在LFW、YTF、MegaFace (MF) 、CFP-FP等公开测试基准数据集上进行实验比较研究后发现,在表2中展示了各方法之间的具体对比结果。值得注意的是,在LFW和CFP-FP数据集上基线模型的表现已达到饱和水平,并未显示出显著的数据不确定学习效果。然而,在YTF和MegaFace9数据集上DUL_cls/rgs仍实现了精度的提升。表3详细列出了IJB-C数据集上的各项实验结果,并显示在基线模型基础上PFE与DUL均取得了更为优异的性能。

模型鲁棒性

表5:在IJB-C数据集上,与当前最佳方法的对比结果,Back- bone: ResNet64

根据表5的数据, 我们对MS-Celeb-1M 人脸数据集进行了人工添加噪声的实验. 其中, 在不同训练样本的比例下施加高斯模糊处理, 以生成具有降质效果(degradation)的数据样本. 通过实验结果可以看出, 在对比基准模型的表现下,DUL 方法 和 PFE 显示出了更为稳健的效果.

结论

本文提出了一套通用的学习方法,并在此基础上进一步地进行开发与优化以解决人脸识别中的数据不确定性问题:DUL_cls 和 DUL_rgs 两种方法均为隐空间中的人脸图像建立了一个高斯分布模型,并且能够同时学习到已经估计出的ID特征(即均值)以及对应的不确定度(即方差)。

基于相关实验的结果表明,在多数基准测试中,本文提出的方法效能显著优于现有确定性模型。此外,在深入探讨获得的不确定性对模型训练的影响方面,本文通过定性和定量分析结合图像噪声视角进行了系统研究。

入群交流

欢迎加入旷视上海研究院交流群

或者添加farman7230入群(备注上海)

参考文献

Dr. Yichun Shi, Prof. Anil K Jain, and Dr. Nathan D Kalka are known for their work on probabilistic face embeddings in the field of computer vision research

Alex Kendall and Yarin Gal. Which uncertainties are necessary within the framework of Bayesian deep learning pertaining to computer vision? As presented in the research published in the Advances in neural information processing systems, spanning pages 5574–5584, this year's volume.

Deng Jiankang et al.提出了一种名为Arcface的方法:采用加性角边际损失函数实现深度面部识别系统的优化,在IEEE计算机视觉与模式识别会议论文集中发表于2019年。

Weiyang Liu et al., Sphereface represents a deep hypersphere-based embedding approach specifically designed for face recognition tasks. In the proceedings of the IEEE conference on computer vision and pattern recognition held in 2017, this method was presented in a paper spanning pages 212–220.

  • Florian Schroff et al. introduced Facenet as a comprehensive solution for both face recognition and clustering tasks in their research paper titled "A unified embedding." The work was published in the proceedings of the IEEE Conference on Computer Vision and Pattern Recognition in 2015.

Wang Hao et al. proposed Cosface in the proceedings of the IEEE CVPR conference. The method introduces a large-margin cosine loss to enhance deep face recognition systems.

Wen Yandong, Zhang Kaipeng, Li Zhifeng, and Qiao Yu. An algorithm for discriminatively learned deep-face recognition technology. In Proceedings of the European Conference on Computer Vision, pages 499–515. Springer-Verlag Berlin Heidelberg, 2016.

往期解读

在第廿一年的CVPR会议上,旷视研究院发布了PVN3D算法:一种基于三维关键点投票网络的单目六自由度姿态估计算法

在CVPR会议上(https://mp.weixin.qq.com/s?__biz=MzU4NTkwMDM1NA==&chksm=fd82ceefcaf547f9af40640a82c0d8a6e03853c6c2a627bbace794648608cc4122effbf23ee1&idx=1&lang=zh_CN&mid=2247485122&scene=21&sn=bbb54ec5f65b03de5acf2bb40cfbd1ee&token=767979559#wechat_redirect),于()发布

CVPR 人工智能大会 | 计算机视觉与机器人技术研究实验室发布一项创新解决方案,针对行人遮挡状态下的重识别难题提出解决方案

该研究机构采用Circle Loss改进深度特征学习方法

oral presentation at CVPR 2020 by Fovea Research Institute introduces the Bi-Branch Network BBN for addressing real-world challenges in long-tailed distributions.

传送门

欢迎大家关注如下 旷视研究院 官方微信号????

全部评论 (0)

还没有任何评论哟~