Advertisement

【论文笔记】Attention-Based Two-Stream Convolutional Networks for Face Spoofing Detection

阅读量:

发表于

摘要

尽管现代人脸识别系统仍面临人脸欺骗攻击这一严峻挑战。尽管已开发出多种有效的反欺骗技术手段[1] ,但现有方法普遍受到外界环境因素如光照条件的影响而降低效率

本文构建了一个双流卷积神经网络模型TSCNN,在彩色图像的空间域以及多尺度Retinex的空间域上运行。其中,在RGB空间域中模型能够捕获丰富的细节特征但容易受到光照变化的影响;而在多尺度Retinex空间域中则具有良好的鲁棒性但无法有效提取细节信息。此外,在捕获人脸欺骗检测的关键高频变化方面多模态Retinex图像表现出色且具有较强的区分度能力。为了实现不同来源数据的有效融合文中提出了一种基于注意力机制的方法可以在保证性能的基础上显著提升算法效率并减少计算开销

在多个数据集中表现优异,在跨数据集上的效果如何?

引言

背景

随着智能手机的普及, 人脸识别系统不仅得到了广泛应用, 其安全性存在的漏洞逐渐变得明显. 例如, 这种攻击手段非常容易被利用. 因此, 人脸欺骗检测问题受到了广泛关注, 并在过去几年里吸引了大量研究的关注.

通常情况下,在面部欺骗攻击中四类典型手段:基于真实静态人脸图像及视频序列的照片复制攻击、巧妙设计的隐秘掩盖策略、视频重放战术以及三维建模模拟方法。然而这两种类型的攻击成本较高,在实际应用中并不常见。照片复制与视频重放是应用最广泛的两种技术手段。这些基于真实静态人脸图像及视频序列的照片复制与视频重放手段均依赖于模仿用户的面部特征表现方式来进行仿生复制。值得注意的是,在相同的采集条件下生成的模仿图像是难以达到与真实样本相当的质量水平。这种质量差距主要源于以下因素:第一种是样本缺乏关键高频细节;第二种是存在明显的图像条纹或云纹特征;第三种则是存在显著的视频噪声干扰因素等多方面的影响所致。这些因素中的任何一个出现偏差都可能导致模仿样本难以有效识别真伪

人脸识别系统的face spoofing detection(FSD),也被称为人脸活性检测(AFD),旨在抵御多种-face spoofing类型的攻击。作为人脸识别系统的重要组成部分之一,在预处理阶段对输入图像进行分析以确定其来源是来自真人还是打印照片(回放视频)。因此,在这种情况下的人脸识别问题实际上是一种分类任务——即区分真实面部图像与仿冒图像的类别归属。现有研究主要围绕以下四种技术展开分析:(1)基于微纹理的技术;(2)基于图像质量的技术;(3)基于运动的技术;(4)基于反射率的技术。

方法的提出

本研究创新性地提出了一种新的基于深度学习的微纹理(MTB)方法。目前这一类方法通常会利用输入图像在原始RGB颜色空间中的特性进行处理与分析。然而,在光照条件变化时基于RGB的传统MTB方法可能会表现出较差的效果。鉴于此需求本研究开发了一种双流卷积神经网络模型:一种结合了RGB空间(原始工作空间)与多尺度Retinex(MSR)空间(光照不变空间)的独特设计结构

两种图像类型均包含关键鉴别信息:其中RGB图像可被用来训练端到端的鉴别型CNN以实现欺骗检测的目的;而MSR则能够捕捉高频细节特征,并且这些细节特征在欺骗检测中具有显著的重要性。相比之下,在光照条件变化较大的情况下,RGB图像由于对光照较为敏感而可能不如MSR稳定;相反地,在光照稳定的场景下,则可以从MSR中获得较为丰富的细节特征。在TSCNN架构中,则是将这两种图像类型分别输入至两个独立分支模块中进行特征提取,并通过该框架生成两个具有鉴别的嵌入表示向量。为了整合这两个嵌入空间中的表征信息,则我们提出了一种基于注意力机制的学习融合框架... 该框架能够根据不同特征的重要性动态分配权重系数。

在这里插入图片描述

主要贡献

  • 本文开创性地聚焦于结合RGB与MSR技术以实现人脸反欺骗研究;
    • 该研究创新性地提出了一种基于注意力机制的融合方案,这一方案显著提升了TSCNN在多光线下处理图像的能力;
    • 本研究采用上述方法系统性地评估了三个知名的人脸伪造数据库:包括CASIA-FASD、REPLAYATTACK以及OULU等。结果表明所提出的策略展现出显著的有效性优势,并且在跨数据库测试中也表现出了极强的竞争能力。

方法

在本节中,首先阐述了Retinex理论的核心内容,并探讨了MSR图像的独特鉴别能力。随后详细阐述了RGB与MSR特征之间的互补关系,并深入分析了所提出的TSCNN模型的基本框架。最后探讨了基于注意力机制的特征融合方法及其在实际应用中的表现。

MSR

多尺度视网膜(Multi-Scale Retinex)

本文应用MSR是因为:

  1. MSR通过辨别图片中的照明与反射部分,并利用反射数据进行活体检测。
  2. MSR充当一种高通滤波器,在区分real与fake face时提取关键的高频特征。

假设 :Retinex理论建立在如下关键假设基础之上:物体的颜色变化与不同波长光的反射能力有关。这种假设认为物体颜色不会受到非均匀照明的影响。该理论通过将源图像S(x,y)分解为反射率R(x,y)和照度L(x,y)两个组成部分来进行建模。其中特别地需要注意的是:R(x,y)和L(x,y)各自涉及不同频率成分的空间分布特征。具体而言:R(x,y)主要涉及高频成分而L(x,y)则倾向于低频成分的表现特征。公式(1)正是对这一理论关系的数学描述:

在这里插入图片描述

动机:L(x, y) 和 R(x, y) 分别代表了光照和反射率(我们任务中涉及的人面皮肤纹理)的不同分量。其中,L(x, y)由光源所决定,而R(x, y)则由捕获物体表面性质所决定,即我们应用中的脸部特征。值得注意的是,虽然光照在多数分类任务中并不相关,但将光照与反射率(或纹理)分开显得尤为重要,因为经分离得到的反射率仅可用于基于无光变化的人脸欺骗检测。鉴于此,Retinex理论的核心思想正是针对这种分离问题提出的,因此本文将Retinex方法应用于无光变化下的人脸欺骗检测研究中。

计算 :为方便计算,公式 (1)通常转化为对数域:

在这里插入图片描述

由于s(x, y)以对数形式呈现于原始图像,在Retinex框架中我们可以通过推断l(x, y)来获得输出r(x, y)。 因此,在Retinex模型中其性能主要取决于l(x, y)的推断能力。

下图中的每一个块对应于一个SSR模块。 通过加权计算所有SSR模块的输出与标度参数得到MSR。

在这里插入图片描述

公式如下:

在这里插入图片描述

其中,G(x,y)是高斯滤波函数。

总结 :MSR的优点:(1)MSR可以分离照度和反射率。(2)保留高频信息,利于检测

双流卷积神经网络(TSCNN)

采用离线方法将原始RGB图像成功转换为MSR图像。 在深度学习框架中分别输入至两个预定义的卷积神经网络中进行端到端训练,并引入交叉熵二值分类损失函数作为优化目标。 系统通过自适应机制自动提取并融合来自RGB与MSR图像的特征信息后应用注意力机制进行进一步处理。

在视觉系统中,RGB颜色空间常用于捕捉和呈现自然色彩。相较于其他色彩空间,基于RGB的图像在细节捕捉方面具有显著优势。这种能力使其在反欺骗检测中表现突出。然而,在光照条件变化较大的情况下,基于RGB的空间表现会受到显著影响。其内在原因是RGB空间中三个颜色通道之间高度相关性导致亮度信息难以分离。这一现象的根本原因在于 RGB 通道之间高度相关性导致亮度信息难以分离。由于实际场景中的人脸图像常受到不同光照条件的影响,在这种复杂背景下进行特征学习会使得模型容易受光照变化的影响而影响性能稳定性

该算法能够生成不受光照影响的人脸图像。

双流体系结构 :本文提出了一个双流卷积神经网络(TSCNN),如下图所示。

在这里插入图片描述

TSCNN由两个结构相似但输入不同的子网络构成,分别接收RGB图像和多光谱(MSR)图像。这两个子网络各自在最后一个卷积层提取出RGB和多光谱(MSR)图像的学习特征。对于输入的一幅图像或一帧视频,在完成人脸检测与关键点定位之后,在RGB流中将从视频序列中提取出单个RGB帧并对其进行处理。在MSR流中,则是将单个原始RGB帧先被转换为灰度后才能生成对应的多光谱图像是这样随后将生成的多光谱图象输入到对应的MSR子网络中进行训练。值得注意的是两组数据分别通过MobileNet和Resnet-18两个成功架构的网络进行了处理最终在本研究工作中我们选择了这两个已被广泛认可的成功架构来进行实验验证

提出了四元组结构M=(E_{RGB}, E_{MSR}, F, C)进行图像分割任务研究,在该框架中,
其中E_{RGB}E_{MSR}分别用于提取RGB通道和MSR流的特征信息,
融合模块F负责将不同通道的特征进行整合,
分类器C则完成最终的目标预测。
为了确保不同通道间的有效融合,
特征提取模块E接受输入图像I并输出D维特征表示f
值得注意的是,在本框架中,
f_{RGB}f_{MSR}通常由不同类型的网络(如CNNs)生成,
但它们都需要保持相同的D维数以实现有效的融合。

融合函数F将f_{RGB}f_{MSR}融合为融合特征v:

在这里插入图片描述

随后将融合后的特征输入至分类器C中。从而使得TSCNN得以表示为一个优化问题:

在这里插入图片描述

Backbone深度网络:由于所使用的反欺骗数据集规模较小且集中于单一场景,在这种情况下模型容易出现过拟合问题。为了缓解过拟合问题并提升多个计算机视觉相关任务的表现水平, 通过从大型图像分类基准数据集(如ImageNet)中进行预训练以增强模型泛化能力。实验采用了MobileNet与Resnet-18两种不同的Basebackbone结构, 其中MobileNet因其实现轻量化的特性而被选用, 而Resnet-18则因其更高的识别精度作为主要候选者, 两者均应用于欺骗检测任务, 并应用二分类交叉熵损失函数(公式10)对真实与虚假人脸进行区分

在这里插入图片描述

基于注意力的特征融合

在各种计算机视觉应用领域中, 特征整合被视为提升系统性能的关键技术. 错误的选择可能导致整合后的特征效果不如单一源数据. 在深度学习时代, 常见的整合方式主要包括分数平均法, 特征串联结构, 简单平均法, 最大池化技术和最小池化技术. 在我们的反欺诈项目中发现现有技术难以充分捕捉不同数据源之间的相互作用关系, 因此我们提出了一种基于注意力机制的新型整合方案, 如下图所示.

在这里插入图片描述

考虑一个包含N个元素的特征集合{ f_i | i=1,…,N};我们致力于推导出一组与每个特征相关的权重{w_i}以合成综合特征v;在本研究中所关注的融合基元包括两种典型的视觉编码器: RGB通道基元f_{RGB}以及多尺度直方图编码器f_{MSR}

在这里插入图片描述

除了直接学习变量 w_i之外,在模型中我们还引入了一个与f_i 具有相同维度的核向量 q,并利用点积机制过滤特征空间中的向量:其中 q 代表该过滤机制的核心逻辑。

在这里插入图片描述

该过滤器生成一个表示相应特征重要性的向量,并将其命名为d_i 用于将重要性转换为权重 。经过Softmax操作后得到一系列正权重\{w_i\}

在这里插入图片描述

滤波器内核 q 很容易通过标准反向传播和随机梯度下降进行训练。

实验

基准数据集

  • CASIA人脸反欺骗数据库(CASIA FASD):该数据库被划分为训练集与测试集两个部分,在训练集中共有20个样本构成。如图3所示,在垂直方向上依次排列着低分辨率、标准分辨率及高分辨率图像;在水平方向上依次分布着真实面部表情、扭曲图片、裁剪图片以及视频回放攻击类型的示例。
在这里插入图片描述

REPLAY-ATTACK数据集:包含50组真实模拟访问与攻击行为的视频数据。如图4所示,在实验环境中将图像分为受控环境下的清晰展示与受限条件下的模糊显示两种类型。研究设计包含三种主要的安全威胁手段:
(1)打印型攻击:将关键信息打印在A4纸并重新获取证据;
(2)移动检测:通过iPhone 3GS屏幕显示关键视频片段,并进行重新采集;
(3)高清监控:利用iPad设备实时监控相关信息。

在这里插入图片描述
  • OULU-NPU数据集:该数据集由4950个真实访问与攻击视频构成。如图5所示, 其中第一行呈现受控状态(光源可调节), 第二行为光源受限状态。NPU数据库涵盖的主要威胁类型包括打印与视频复制行为。这些威胁操作具体采用以下设备配置: 通过两台打印机(编号分别为1号打印机及2号打印机)实现打印功能, 同时依赖两台显示设备(编号分别为1号显示器及2号显示器)完成视觉输出过程。
在这里插入图片描述

评价指标

FAR:误识率,把不应匹配的匹配了
FRR:拒识率,把应该匹配的排除了
ERR:测试集上的相等错误率,该值表明错误接受的比例等于错误拒绝的比例。等错误率值越低,生物识别系统的准确度越高。
HTEP:测试集上的半数总错误率,同样是越小越好。
TPR:将正例分对的概率
FPR:将负例错分为正的概率
ROC曲线:反映了FAR、FRR关系,越偏向左上角效果越好。

在CASIA-FASD数据集的实验

利用训练集进行模型训练与参数优化,并在测试集上采用等错误率(EER)作为评估指标;将数据库中的原始输入图像与帧转换为MSR格式。随后将不同色彩空间下的图像分别导入我们的TSCNN进行处理。虽然RGB是最常用的色彩空间之一,在此研究中我们通过比较 RGB、HSV 和 YCBCR 三种色彩空间下系统的性能来探究其影响差异性分析的基础上进一步验证其有效性

在这里插入图片描述

ROC曲线如下图所示。

在这里插入图片描述

TPR@FAR=0.1和TPR@FAR=0.01的注意力融合结果如表VII所示。

在这里插入图片描述

结果

基于七个不同场景的数据测试表明,在结合ResNet-18与MobileNet的过程中, RGB及YCbCr均能实现显著的人脸识别性能提升, 均优于传统的HSV颜色空间, 同时两者的表现十分接近

在REPLAY-ATTACK和OULU-NPU的实验

表2主要展示了在REPLAY-ATTACK场景下的性能。结果显示MSR和RGB融合方案在EER方面显著优于各自单独使用的效果。此外,在对比LBP算法时发现其效果优于LBP算法。值得注意的是这种进一步的融合方案不仅显著优于ResNet融合方案而且也达到了MobileNet融合水平但仍然略逊于MobileNet方案的表现

在这里插入图片描述

为了考察RGB与MSR融合技术对不同光照条件下的适应性,在REPLAY-ATTACK数据库中设置了两种典型实验场景:一是采用一致背景并配合荧光灯光源的理想条件;二是模拟实际应用中的复杂环境——背景与光源均存在不均匀分布的情况。

在这里插入图片描述
在这里插入图片描述

对于OULU-NPU数据库:我们在开发集中实现了EER指标,在测试集中则涵盖了APCER、BPCER以及ACER三项指标。 表4及表7展示了MobileNet与ResNet-18分别用于提取RGB图像、MSR特性和两者的融合特征的表现。 在计算ACER与EER时发现,将RGB与MSR信息相结合能够显著提升识别性能。 通过结合多种信息源(如RGB与MSR),我们的实验表明,在四种协议中绝大多数情况下特征融合均优于单独采用单一特征源的方法。 参考表2及表4的数据可知, 我们所采用的MobileNet与ResNet-18网络架构在REPLAY-ATTACK攻击检测任务以及OULU-NPU数据库上的测试结果显示具有很强的竞争性水平。

在这里插入图片描述
在这里插入图片描述

基于注意力的融合结果

根据上述分析可知,在面部皮肤微观纹理这一层面中,在所有频率范围内集中体现了RGB特徵;相比之下,在高频区域则集中体现了MSR特徵,并且后者在一定程度上减少了光照带来的干扰。通过系统性的评估实验(见表I至表IV),证实了将RGB与MSR结合后的整体性能表现出了显著的优势。在此基础上,则进一步深入探究了这种融合方式的实际应用潜力。

在研究中,我们通过可视化展示了定性结果,并对比了不同特征融合方法的特点。相较于平均特征融合其自适应地不对称加权的能力更为突出。因此,在这种情况下,基于注意力的融合方法可能获得更高的权重值,并展现出更好的性能表现。图8(a)展示了我们所提出的这种方法如何实现这一不对称加权机制。具体而言,在REPLAY-ATTACK数据库中的样本选取上采用了全面的考虑:包括了两种成像亮度条件:在不利光照下(非均匀且复杂)以及受控光照下(均匀且中性)。从图8中可以看到,在单一评价条件下RGB和MSR可能出现各自的局限性:但在两者的融合效果上则表现出显著的优势——尤其是在多变的光照环境中能够达到更好的分类效果

在这里插入图片描述

对比分析了基于注意力机制的不同融合方案

在这里插入图片描述

此外,图7-(b)显示了使用MobileNet的流行特征融合方法的ROC曲线。

在这里插入图片描述

本文提出了一种基于注意力机制的数据融合方法,在所有其他场景(总体)中均取得了4.175% (MobileNet) 和 3.145% (ResNet-18) 的最低误差率比值(EER),这证明了该方法相较于其他数据融合技术的优势所在。对于MobileNet与ResNet-18系统而言,在性能排名前两位的最佳数据融合技术分别为{'特征最小化'与'得分平均化'}以及{'得分平均化'与'级联特征'}两种方案。表6列出了REPLAY-ATTACK与OULU-NPU系统的融合性能对比结果。我们观察到,在REPLAY-ATTACK(同时兼顾EER与HTER)以及OULU-NPU(仅考虑EER)系统中,基于注意力机制的数据融合方案显著优于所有其他数据融合技术方案。该类数据融合方案具有自适应能力,并能灵活地对RGB与MSR特征进行加权处理,在综合性能上表现优异

在这里插入图片描述

与SoTA对比

表8基于EER(%)和HTER(%)这两个指标,在REPLAY-ATTACK和CASIA-FASD数据库中与上述数据库中的现有最佳方案进行对比

在这里插入图片描述

表9基于 EER (%)、APCER (%)、BPCER (%) 和 ACER (%) 四个指标对 OULU-NPU 数据库与当前最先进方法进行了系统性对比分析。

在这里插入图片描述

综合而言,在三项标准数据库集合中应用我们提出的方法能够达到卓越的效果。

跨数据库比较

各自具有独特特征的欺骗面孔通常是在其特有的环境下通过特定设备捕获的。我们对 CASIA-FASD 数据库和 REPLAY-ATTACK 数据库进行了跨数据集评估。从技术角度来看,在一个特定的数据库中训练并优化分类器后,在另一个数据库中进行测试即为跨数据集评估。该系统体系在验证集与测试集中所达到的错误检测率指标(HTER)表现出了良好的泛化能力。每次实验均采用 CASIA-FASD 或 REPLAY-ATTACK 数据集作为对抗样本集合来进行模型训练与参数优化。实验结果展示于表X中,并将其性能对比基准与现有先进跨数据评估方法进行了详尽比较。

在这里插入图片描述

在不同成像环境下(如数据库间的域转移),反欺骗技术的效果普遍下降。相较于现有最优方案(MobileNet+注意力机制),我们的方法表现略逊一筹(准确率达到30.0%和33.4%)。仅略低于当前最优方案的27.6%和28.4%。然而,在这一领域中引入更为丰富的辅助数据(如三维面部轮廓和rPPG信号)则能显著提升检测效果。

为了探究跨数据库评估中性能退化的影响因素, 我们采用了标准分布距离度量以及最大均值差异 (MMD), 以评估源特征与目标特征分布之间的域偏移程度.

在这里插入图片描述

基于公式所述,在本研究中我们引入了表示法 φ()。该方法通过操作训练集特征 f_t ∈ F_T 和验证集特征 f_v ∈ F_V 来实现领域适应。当MMD值增大时,则表明两个域之间的分布差异也随之增大。实验结果如下所示。

在这里插入图片描述

当我们在同一数据库上共同训练测试一下时... MMD小于在MobileNet与ResNet-18的不同数据库上独立训练测试...的结果。
基于CASIA-FASD拥有七种典型场景特征,在REPLAY-ATTACK数据库上的测试结果显示...该方法实现的有效性显著高于传统方案。
通过融合RGB与MSR功能模块...我们成功降低了MobileNet与ResNet-18模型间的跨库性能差距。

总结

本文研究中,我们提出了新型基于注意力机制的双流卷积网络模型,并将其应用于人脸欺骗检测任务中以区分真实与假面。具体而言,在CNN架构下结合MobileNet与ResNet-18搭建了有效的特征提取模块,并通过MobileNet与ResNet-18提取出互补性RGB与MSR(Mean Squared Reflectance)特徵向量基础。随后采用了注意力机制进行特征融合操作以整合两个维度下的表征信息,并在此基础上设计了自适应加权策略以优化不同光照条件下的分类性能。

我们对一系列复杂且具有挑战性的数据库(包括 CASIA-FASD、REPLAY-ATTACK 和 OULU-NPU)进行了人脸欺骗技术的评估实验,并通过多维度分析验证了其优越性表现;此外,在特征融合方面的研究结果表明,在这一领域中注意力机制能够显著提升数据整合效率;通过跨平台测试进一步证实了 RGB 图像与多分辨率图像信息结合运用的价值

全部评论 (0)

还没有任何评论哟~