【Cross-Forgery】Cross-Forgery Analysis of Vision Transformers and CNNs for Deepfake Image Detection
文章目录
- Cross-Forgery Analysis of Vision Transformers and CNNs for Deepfake Image Detection
- key points
- 方法
- 实验
-
- 单一方法训练
Cross-Forgery Analysis of Vision Transformers and CNNs for Deepfake Image Detection
会议/期刊:MAD 2022
作者:

key points
【泛化性】
在各种深度学习技术中,是否有一种技术能够将deepfake的概念推广到这样一种程度,即它不会与训练集中使用的一种或多种特定的deepfake生成方法相关联。【试图找出哪一种主要的深度学习技术最有能力概括deepfake的概念,从而证明其在识别被从未训练过的方法操纵的图像方面具有鲁棒性】
在 基于ForgeryNet数据集的交叉伪造上下文中比较了Vision Transformer和EfficientNetV2。
EfficientNetV2更倾向于专门化,通常在训练方法上获得更好的结果,而Vision Transformers则表现出卓越的泛化能力,这使得它们甚至在使用新方法生成的图像上也更有能力
对ViT和CNN进行了应用比较。
证明了前者不太倾向于专注于特定的方法,甚至在使用新方法生成的深度伪造上也能够获得一致的结果。
CNN的训练方法准确性的效果更好些。
方法
选择用于进行实验的数据集是ForgeryNet。

所使用的方法可以分为两个宏观类别,id - remaining和id - replace。
在第一种情况下,图像中的主体身份没有被替换,只是在他的脸上进行了操作。另一方面,在第二类中,身份被替换为与图像中实际存在的面孔不同的面孔。
这些类别又分为5个子类别:Face- reenactment and Face Editing属于id - remaining类别,Face Transfer, Face Swap and FSM属于id - replacement类别。
ForgeryNet中的图像还包括各种背景下的人物。
我们像[30]一样进行了数据增强。与它们不同的是,我们提取的面总是正方形的,没有填充。
在第一个类别中,选择了effentnetv2 - m[33],这是众所周知的effentnet的新版本,功能更强大,重量更轻。EfficientNets广泛应用于深度造假检测,目前仍是业界领先数据集上许多最先进方法的基础。使用的对应物是viti - base,这是第一个视觉变压器之一,并且与所考虑的卷积网络具有相似的尺寸。这两个网络都在ImageNet-21k上进行了预训练,并在从ForgeryNet提取的子数据集上进行了微调。构建的子数据集在假图像和真实图像之间保持了近乎完美的平衡。此外,为了降低错误检测的风险,只有检测到的置信度高于95%的面孔才会被考虑。除了最后两个专门用于下游任务的块外,这些网络被冻结了所有块的权重。
实验
实验分为两部分,第一部分我们将使用真实图像和使用单一方法生成的图像,第二部分我们将在训练阶段考虑属于同一类别的更多deepfake生成方法。
由于实验时尚未发布ForgeryNet测试集的标签,因此使用该数据集的验证集。
单一方法训练
该模型是在真实图像和使用单一deepfake生成方法处理的图像上训练的,将deepfake的概念推广到识别被其他方法篡改的图像的程度。

FaceShifter、Talking Head Video和StyleGAN2方法生成的图像上训练



第二个实验采用人脸再现类的方法,分别是Talking Head Video(7)、ATVGnet(8)和First Order Motion(10)。如表2所示,两个子集都很平衡,但大小不同。
在训练方法上,EfficientNet通常比Vision Transformer获得更高的准确性,但在其他方面的准确性要差得多。


在进行的两次实验中,我们发现vit-base的方差明显低于EfficientNetV2-M,从图4中图表的水平线可以看出。此外,EfficientNet还倾向于关注训练集中呈现的方法子集。
尽管在各种新方法上的准确率往往相当低,但在训练方法上,EfficientNets的表现往往比Vision Transformers更好,往往达到更高的准确率,但在新方法上的泛化效果却更差。

其中𝑛= 16为正确率的个数,分数为正确率值,分数为正确率值,分数为正确率值的平均值。

汇总了模型在真实测试图像(第0列)和使用所有deepfake生成方法处理的图像(第1-15列)上获得的精度。表格的最后一列包含了每个训练子数据集在不同的深度伪造生成方法下,模型在测试集上得到的精度之间的计算方差值。
从表3中报告的数据可以看出,无论使用何种方法构建训练集,与Vision transformer相关的方差总是较低的。
在几乎所有情况下,EfficientNet在训练方法上都达到了更高的精度水平,这可能是因为它已经学会了更好地识别这些方法中引入的特定异常,所有包含不同异常的图像都被认为是非深度假的。
在StyleGAN2 这种情况下,两种模型在未处理的图像上的性能都明显下降。这可能源于这样一个事实,即这种特定的方法特别有效,并且比数据集中存在的其他方法引入的异常更少,从而使真实图像和操纵图像之间的差异更加细微
注:仅供学习交流
