【FST】Explaining Deepfake Detection by Analysing Image Matching
文章目录
-
Explaining Deepfake Detection by Analysing Image Matching
-
key points
-
研究
-
贡献
-
算法
-
- FST匹配Deepfake检测模型
-
实验
-
- 验证假设
-
- 验证假设1
- 验证假设2
- 验证假设3
Explaining Deepfake Detection by Analysing Image Matching
会议/期刊: ECCV 2022
作者:

key points
分析图像匹配 【从图像匹配的角度】
旨在解释深度伪造检测模型在仅由二进制标签监督时如何学习图像的伪影特征。
从图像匹配的角度提出了以下三个假设:
1.Deepfake检测模型基于既不与源相关也不与目标相关的视觉概念来指示真实/虚假图像,即将这些视觉概念视为伪影相关。【从源与目标中分割出来】
2.除了对二进制标签的监督外,深度伪造检测模型还通过训练集中的FST匹配(即匹配的伪造、源、目标图像)隐式地学习与伪影相关的视觉概念。
3.通过原始训练集中的FST匹配隐含学习的伪影视觉概念容易受到视频压缩的影响。【压缩因素】
提出了FST匹配深度伪造检测模型,以提高压缩视频伪造检测的性能 。
研究
目标:从图像匹配的新角度解释deepfake检测模型的成功。
使用目标图像的表示来操纵源图像的面部,以生成相应的假图像。

将上述伪图像、源图像和目标图像视为匹配图像,称为FST匹配。
设计了不同的指标来定量评估图像匹配的有效性,并提出了以下三个假设。
假设1:Deepfake检测模型基于既不与源相关也不与目标相关的视觉概念来指示真实/虚假图像。【将这些视觉概念视为伪影相关】
视觉概念表示人脸的嘴、鼻子或眼睛等图像区域。
假图像是由源图像或目标图像的视觉概念生成的。
一些视觉概念可能不可避免地被deepfake方法操纵,导致它们与源图像和目标图像都不同。训练有素的深度伪造检测模型应该基于源无关和目标无关的视觉概念来指示真实/伪造图像。
假设2:除了对二进制标签的监督外,deepfake检测模型还通过训练集中的FST匹配隐式学习伪影相关的视觉概念。
二进制标签不足以完成deepfake检测任务。训练图像通常包含其他与伪影无关的视觉概念,例如图像的身份。这种视觉概念可能会在某些真实/虚假图像上共同出现,导致深度伪造检测模型学习伪造品的有偏见的表示。
FST匹配图像应该有助于deepfake检测模型丢弃与伪影无关的视觉概念,并专注于与伪影相关的视觉概念。
假设3:通过原始训练集中的FST匹配隐式学习的伪影视觉概念容易受到视频压缩的影响。
在原始图像上训练的Deepfake检测模型在对压缩图像进行测试时通常会出现明显的性能下降[28,54,36]。
我们假设这是因为通过FST匹配对伪影视觉概念的内隐学习对视频压缩很脆弱。具体来说,由于压缩,隐式学习的伪影视觉概念可能与压缩的源视觉概念和假图像上的目标视觉概念无法区分,导致深度假检测模型做出错误的预测。
方法
我们提出了一种基于Shapley值[39]的解释方法来解释具有各种骨干的deepfake检测模型的预测。
Shapley值无偏地估计了每个玩家对游戏总奖励的贡献。它自然满足四个属性,即线性属性、虚拟属性、对称属性和效率属性[45],这确保了它的公平性和可信度。基于Shapley值,我们从图像匹配的新角度评估图像的视觉概念,以验证提出的假设。
在压缩图像中学习到的源/目标视觉概念比在图像上隐式学习到的伪影视觉概念更一致。
结合对假设1的理解,我们通过从源/目标视觉概念中分离出与源/目标无关的表示来设计一个简单的模型来指示图像(称为FST匹配Deepfake检测模型),旨在提高压缩视频伪造检测的性能。
贡献
1.我们提出了一种从图像匹配的新角度解释深度伪造检测模型成功的方法,即FST匹配 。
2.从FST匹配的角度提出并验证了三个假设 ,为深度伪造检测任务提供了新的见解。
3.我们进一步提出了FST匹配深度伪造检测模型 ,以提高压缩视频的性能。
算法
基于Shapley值评估视觉概念对图像贡献的解释方法[39]
H1:基于既不与源相关也不与目标相关的视觉概念来指示真实/虚假图像
我们的目标是探索输入图像上的哪些视觉概念被认为是源相关、目标相关和伪影相关的。然后,我们希望评估这些视觉概念之间的关系,以验证假设。
核心挑战是公平地决定哪些视觉概念与源、目标和工件表示相关。
我们不会手动在图像上注释这些视觉概念,因为它通常代表人类对工件表示的理解,而不是模型内的工件表示。为此,我们训练了一个源编码器vs(·)和一个目标编码器vt(·),以指示图像上与源/目标相关的视觉概念 。
每个假图像与其对应的源图像和目标图像共享某些共同的视觉概念。
当源编码器vs将每个假图像及其对应的源图像分类为同一类别时,vs倾向于关注每个假图像上与源相关的视觉概念。目标编码器vt也是如此。
,我们使用图像的附加属性标签1来训练vs和vt 。为了训练源/目标编码器vs/vt,每个假图像都被视为与相应的源/目标图像相同的属性标签。每个真实图像都被视为其原始属性标签。
我们使用Shapley值[39]来评估图像上视觉概念对每个编码器预测的区域贡献。
将输入图像划分为L×L个网格,并分别计算每个网格的贡献。设G={g11,g12,…,gLL}表示所有网格的集合。
分别表示所有网格对检测编码器vd、源编码器vs和目标编码器vt的预测的贡献。通过这种方式,ϕvd、ϕvs和ϕvt分别表示图像上的伪影、源和目标视觉概念。
∀gij∈G,如果ϕvd(gij|G)>0,则认为它与伪影相关,反之不相关。源编码器vs和目标编码器vt也是如此。
基于网格级贡献,我们提出了一种度量来评估伪影相关视觉概念、源相关视觉概念和目标相关视觉概念之间的关系。
根据该假设,deepfake检测模型应该将伪影相关的视觉概念视为既不与源相关也不与目标相关。因此,与工件相关的视觉概念应该与源/目标相关的视觉观念几乎没有交集。为此,我们首先生成一个掩码Mτ=I(max(ϕvs,ϕvt)>τ)来表示与源/目标最相关的视觉概念,其中I(·)是指标函数,τ是某个阈值。如果内部条件有效,则I(·)返回1,否则I(.)返回0。然后,该度量被设计用于评估这些视觉概念之间交叉点的强度,如下所示。

其中·表示内积。第一项测量源/目标无关视觉概念和伪影相关视觉概念之间交叉的平均强度。第二项测量源/目标相关视觉概念和伪影相关视觉概念之间交叉的平均强度。Qτ>0表示与伪影相关的视觉概念与源/目标无关的视觉概念的关系比源/目标相关的视觉观念更密切。Qτ<0表示与伪影相关的视觉概念与源/目标无关的视觉概念的相关性低于与源/目的相关的视觉观念。
H2:通过训练集中的FSTMatching隐式学习与伪影相关的视觉概念。
评估训练集中的FSTMatching如何影响deepfake检测模型的学习。
训练集中的FST匹配意味着真实图像包含假图像的相应源图像和目标图像。为此,我们分别使用配对训练集和非配对训练集训练两个模型。
在配对训练集中,真实图像只是假图像的对应源图像和目标图像。在未配对的图像中,真实图像与配对训练集中的真实图像数量相同,但不对应于任何虚假图像。
H3:通过原始训练集中的FSTMatching隐式学习的伪影视觉概念容易受到视频压缩的影响。
为了验证这一假设,我们的目标是衡量隐式学习伪影视觉概念对视频压缩的稳定性 。
检测编码器vd首先在原始图像上训练,然后在压缩图像上测试。
我们设计了稳定性度量来评估在不同压缩率(即c23、c40)条件下伪影视觉概念之间的变化。稳定性度量的设计如下。

ϕcmp-vd表示在压缩图像上测试时,网格对检测编码器vd预测的贡献。ϕraw-vd表示在原始图像上测试的网格贡献。
cos(·,·)表示计算余弦相似度的运算。δvd∈[-1,1]的较小值表明隐式学习的伪影视觉概念容易受到压缩。
FST匹配Deepfake检测模型
与检测编码器vd(即vd)在压缩图像上隐式学习的伪影视觉概念(如图2底部所示)相比。受对假设1的理解的启发,我们认为直接从源/目标视觉概念中分离出源/目标无关的表示来指示图像可以提高压缩视频的模型性能。

FST匹配深度伪造检测模型的结构如图2所示,该模型旨在根据假设1,基于图像上与源/目标无关的视觉概念对人脸伪造进行分类。
首先使用源特征编码器和目标特征编码器直接学习图像上的源特征fs∈RB×Cs和目标特征ft∈RB x Ct。B表示输入图像的数量。Cs和Ct表示输出通道的数量。
我们设计了特征分离模块,在信道级别自动分离源/目标无关特征fir s,fir t和源/目标相关特征f r r s,fr t。与[23]类似,我们使用通道方向的注意向量as∈RB×Cs和at∈RB x Ct来解纠缠fs和ft,计算如下。

使用源特征编码器和目标特征编码器来明确学习图像上的源和目标表示 。特征去纠缠模块进一步提取源/目标无关表示,以指示图像的真实性,即真实或虚假。
其中MLP表示多层感知器,σ表示sigmoid函数。
为了确保特征解纠缠的有效性,我们使用FakeSource Pair Verification模块将f r s分类为与源图像相同的属性标签2。
通过伪目标对验证模块,f r t被分类为目标图像的相同属性标签。然后将f ir s和f ir t连接起来,以预测输入图像的最终真/假标签。设ys、yt、yd表示图像的源属性标签、目标属性标签和伪造检测标签。y、y、t、y分别表示预测的源属性、目标属性和伪造预测。FST匹配Deepfake检测模型的分类损失设计如下。

我们设计了另一个损失,以进一步加强f ir s和f ir t之间的相互作用,用于最终预测。设h(·)表示最终预测模块。交互损失旨在增加联盟[f ir s,f ir t]对f ir s和f ir t单独对最终预测做出贡献时的奖励总和造成的额外奖励。交互损耗设计如下:

其中0表示与f ir s和f ir t大小相同的零向量。h([0,0]表示当f ir s和f ir t均未对最终预测做出贡献时的基本得分。总体损失设计如下:


左图显示,随着采样次数的增加,Shapley值变得稳定。右图显示了源、目标和伪影视觉概念的可视化,即ϕvs、ϕvt和ϕvd。
在各种操作算法中,伪影相关视觉概念与源/目标相关视觉概念几乎没有交集,这支持假设1。
实验
DNN和数据集:
使用ResNet-18/34[22]和EfficientNet-b3[42]作为检测编码器vd、vs和vt的主干。
FF++[36]数据集上训练和测试了我们的模型。
Shapley值的实现:
Shapley值的精确计算在计算上是不可容忍的。为此,我们使用基于采样的方法[5]来近似计算所有视觉概念的贡献。在采样过程中,将未采样的图像网格设置为基线值,本文将其设置为零。我们使用在与图像的地面真值标签对应的softmax层之前选择标量作为所有编码器的输出分数。
Shapley值的公平性
为了确保Shapley近似值的稳定性,我们评估了采样时间T对Shapley值变化的影响。
在相同的采样时间T内重复采样过程[5]两次,分别得到ϕ1和ϕ2。
通过所有测试图像中的不稳定性度量
,测量了采样时间t在\981’1和♝2之间的变化。
如图3所示,计算了不同采样时间下基于ResNet18的ϕvd的不稳定性度量。结果表明,当T≥100时,我们得到了相对稳定的Shapley值,这保证了我们结果的公平性。
验证假设
验证假设1
对于定性分析,我们发现与伪影相关的视觉概念与源/目标相关的视觉观念几乎没有交集。
在图3中,我们展示了ϕvs、ϕvt、ϕvd的视觉结果,以及FF++中使用的不同操纵算法的主要视觉概念之间的交集[36]。为了更好的可视化,我们将ϕvs、ϕvt、ϕvd全部归一化为单位向量。检测解码器vd的主干是ResNet-18[22]。基于掩码Mτ表示源和目标相关的视觉概念。
对于定量分析,我们评估了各种DNN和操纵算法中提出的度量Q。
在表1中,我们计算了不同阈值τ之间的Q平均值,以便进行公平比较。τ被设置为不同的值,以分别在Mτ上保持{0.60L 2,0.65L 2,…,0.85L 2,0.9L 2,0.95 L 2}网格。Q>0表示学习到的与伪影相关的视觉概念与源/目标无关的视觉概念的关系比源/目标相关的视觉观念更密切。

各种类型的DNN主要将伪影相关的视觉概念视为既不与源相关也不与目标相关。此外,这些结果与vs和vt主干的选择没有本质关系。
当在FaceShifter操纵的图像上进行测试时,Xception[36]的Q<0[27]。这是因为[36]中最初发布的预训练模型Xception之前从未在FaceShifter的伪造图像上训练过[27],因此无法为FaceShifter找到与伪影相关的视觉概念[27]。
验证假设2
假设2假设训练有素的deepfake检测模型通过训练集中的FST匹配隐式学习伪影相关的视觉概念。为了验证这一假设,我们分别在配对训练集和非配对训练集上训练了同一骨干的两个模型。在配对训练集中,真实图像只是与假图像对应的源图像和目标图像。相比之下,未配对训练集中的真实图像与假图像不匹配,但与配对训练集中真实图像的数量相同。
比较了每个训练模型的ACC和视频水平AUC。

如表2所示,在配对训练集上训练的模型与在整个FF++[36]数据集上训练过的基线模型具有相似的性能。
配对训练集明显小于原始FF++[36]数据集,这表明了FST匹配在训练集的重要性。

我们还比较了每个训练模型之间提出的度量Qτ。为了进行公平的比较,我们计算了所有测试图像中不同τ的度量Qτ的值。如图4所示,在配对训练集上训练的模型具有较大的Qτ值,表明训练集中的FST匹配有效地帮助模型定位源/目标无关的视觉概念,并将其视为伪影相关。

验证假设3
假设3通过原始训练集中的FST匹配隐式学习的伪影视觉概念容易受到视频压缩的影响。为了验证这一假设,我们在压缩视频上测试了原始训练模型,并计算了所有测试图像中提出的度量δvd。
对于定性分析,如图2所示,原始训练模型表明压缩图像与原始图像相比具有明显不同的视觉概念。对于定量分析,计算出的δvd∈[-1,1]接近0,这也表明在不同压缩比条件下,ϕvd发生了很大变化。
还评估了源/目标视觉概念的稳定性。
令人惊讶的是,如图2和表11所示,与隐式学习的伪影视觉概念相比,这种学习的视觉概念与视频压缩具有很高的一致性。这些结果激励我们通过设计一个模型来提高压缩视频的模型性能,该模型明确利用了训练集中的FSTMatching。
FST匹配的Deepfake检测模型
我们将模型的性能与当前最先进的方法进行了比较。表4显示了压缩视频的性能。
当与其他方法的相同主干对齐时,我们的模型在压缩视频上取得了很好的性能,特别是在高度压缩(例如c40)的视频上。这些结果也表明了我们的方法的广泛适用性。

泛化能力评价
我们进行了另一个实验来评估我们方法的泛化能力。为此,我们在SPSL[30]中遵循了相同的跨数据集实验设置。结果如表6所示,其中指标为AUC(%)。我们在FF++上训练的模型[36]在Celebr DF上取得了出色的性能[29],无论骨干网如何。[30].
对图像编辑操作的稳健性
我们进行了另一个实验来评估我们在图像编辑操作应用于图像时的方法。
为此,我们在LipForensics[21]中遵循了相同的鲁棒性实验设置。结果如表7所示,其中指标为AUC(%)。我们的方法也证明了对所列扰动的强大鲁棒性。
Shapley值
最初是在博弈论中引入的[39],用于将所有玩家获得的总奖励/贡献公平地分配给每个人。具体而言,给定参与游戏v的n个输入玩家n={1,2,…,n}的集合,他们可以获得分数v(n)。游戏v被公式化为将任何参与的玩家映射到实数的函数。然后,玩家N获得的奖励计算为v(N)−v(∅),其中v(∅)被视为没有玩家参与游戏v时的基线分数。为了公平分配整体奖励,Shapley值ϕ(i|N)被计算为玩家i加入任何潜在子集S⊆N{i}时获得的平均边际奖励,即v(S∪{i})−v(S)。这样,Shapley值ϕ(i|N)的计算如下:








注:仅供学习交流
