Advertisement

【论文笔记】ManTra-Net:Manipulation Tracing Network For Detection And Localization of Image Forgeries With

阅读量:

ManTra-Net: A ManTra-Net is a Manipulation Detection and Tracing Network designed to aim at detecting and localizing images with distinctive forgery characteristics.

论文链接:https://openaccess.thecvf.com/content_CVPR_2019/papers/Wu_ManTra-Net_Manipulation_Tracing_Network_for_Detection_and_Localization_of_Image_CVPR_2019_paper.pdf

源码链接:https://github.com/ISICV/ManTraNet

摘要

本文提出了一种无需额外预处理与后处理且具备端到端架构的新颖篡改检测网络——ManTra-Net系统。该网络采用全卷积结构设计,并具备适应不同尺寸照片的能力;能够识别并对抗多种已知攻击手段(包括拼接式复制与移动操作、数据删除与增强等),甚至涵盖未知类型的潜在攻击方式。研究的主要创新点在于通过自监督学习机制,在覆盖385种不同类型攻击手段的情况下提取特征;其核心创新还包括将篡改定位任务转化为局部异常点检测问题,并利用Z-score统计量捕捉局部异常特性的同时结合LSTM模型进行性能评估。

引言

拼接、复制移动以及移除均为图像处理中的重要操作,在研究领域最为关注。通过从选定区域中删除目标对象(如隐藏对象),并使用由背景估计得出的新像素值来填充被移除区域的空间。图像增强广泛应用于局部调整的各种技术中,如锐化技术和亮度调节等。

根据特征分析的方法通常用于识别假照片。这种方法提供了多种依据用于检测与定位。这些依据具体包括以下内容:JPEG压缩伪影、边缘不一致、噪声模式、颜色一致性、视觉相似性、EXIF一致性和相机模型信息。然而,在现实中构建高阶真彩色图像变得更加隐蔽。这一挑战促使我们开发一种全面的真彩色图像识别系统

在这里插入图片描述

问题虽被忽视但较为关键的是区域仿真的定位。现有技术主要聚焦于图像级别的真实性判断——即判断一张图片是否为伪造。然而,具备定位能力的技术往往需要进行繁琐且耗时的预处理步骤……如提取拼接块、应用最大期望算法、进行特征聚类以及分割处理等。此外,特征学习与伪造掩码生成之间存在脱节现象,这表明现有技术在仿真检测与定位优化方面仍存在不足

本文探讨了上述问题,并提出了一种新方案称为ManTra-Net以应对广义图像伪造定位与检测任务(IFLD)。该系统通过识别局部异常特征来检测被篡改像素从而避免局限于特定类型的伪造或篡改操作。作为一个端到端设计无需预处理或后续处理步骤各组件协同优化目标得以实现由可训练组件构成

篡改检测网络

相关工作

表1是最近针对IFLD方法的研究综述。非DNN的方法标注为N/A, 仅检测的方法标记为N/A, 而PP代表前后处理。

在这里插入图片描述

提出的模型

如图2所示,在此方法中包含两个关键组件:首先是一个名为图像操纵轨迹特征提取器 的子模块;其次是一个名为局部异常检测网络(LADN) 的独立单元。其中第一个子模块负责生成统一的特征表示;第二个模块则专注于直接识别并定位伪造区域。

在这里插入图片描述

主要贡献

  • 重新设计了图像处理跟踪特征后使其能够识别385种已知的操作类型并能对基于DNN的操作(如深度图像修复)以及顺序操作(如增强、调整大小和连续压缩)进行编码。
  • 我们放弃了传统的语义分割方法将其表述为局部异常检测问题从而增强了模型的泛化能力;更具体地说我们希望从局部特征与其对伪造标签引用之间的差异中学习决策函数映射。
  • 展开消融实验以全面优化IMC和LADN架构并提供理论基础及/或实验结果来支撑网络设计。

操纵轨迹特征

在这里插入图片描述

针对图像处理分类问题进行深入研究

Backbone网络结构的研究

对三个网络——VGG、Resnet和DNCNN进行Backbone的比较。

为了实现公正的对比实验, 我们设计了一个基准主干网络, 并使其保持一致的感受野宽度. 此外, 该基准主干网络还采用了与目标分支相同数量的卷积核和网络超参数(参考表2). 需要指出的是, 所有列出的操作分类分支均为无下采样且无密集层的设计, 即全卷积神经网络(FCN).

为了提高训练效率以及为多模型提供数据支持,我们针对压缩、模糊、形态学、对比度调整、加性噪声、重采样和量化七个类别进行了简化研究。具体而言,在实验设计中分别采用三个不同的架构进行训练,并对表2中验证集损失表现最好的三种结构进行了重点分析。研究结果表明,在这三种架构中均能达到类似的IMC-7性能指标。然而,在验证集与测试集之间的性能差距上,VGG架构表现更为均衡,并在KCMI测试任务上的准确率显著优于其他两种架构。因此,在后续的研究工作中我们采用了VGG架构作为基准模型进行深入探讨。

在这里插入图片描述

在本研究中,我们重点考察了第一层的特征选择问题.对比实验中,我们将SRMConv2D和BayarConv2D的最佳配置方案与传统Conv2D架构以及这三者的融合结构进行了系统性分析.经过详细测试分析发现,在IMC-7评估指标下不同特性的表现差异微乎其微(约为1%至2%),但采用融合配置方案能够显著提升整体性能水平.基于上述实验结果与分析对比,在本研究中我们最终确定采用融合型设计策略并将其应用于第一卷积层结构.

在这里插入图片描述

细粒度操作类型的研究

逐步分解七个操纵族,直到它们是单独的算法为止。

本研究中的所有IMC模型都遵循前面讨论过的相同的VGG网络架构,在仅决策块输出类别数量存在差异的情况下。表4详细列出了这些得分。基于预先定义好的层次结构图,在层次结构i上训练得到的IMC还可以用于预测i> j时层次结构j的相关标签。在下表中标有下划线的所有分数均是通过这种方式获得。值得注意的是,细粒度的操作不仅有助于提升低层次结构验证准确率的同时还使KCMI准确率从57.2%显著提升至82.6%

在这里插入图片描述

经IMC-385验证,该算法的准确度为47.3%左右(约为47.3%),表现尚可。由此可知,在两个正交方向上进行了相应的优化以提升整体性能。

增加宽度,在每一个卷积层中使用更多的filters。
加入更多convolution blocks,在每一层中增加深度。

表5显示了这些结果。

在这里插入图片描述

讨论

增大感受野尺寸后,则可进一步提升该方法的效果。
此处特别强调特征对小型操作区域的敏感性。
图 3-(a)展示了层次1(共25个类别)上的IMC-VGG-W&D混淆矩阵。
其结果极为接近于单位矩阵。
从而导致大部分IMC-385错误集中在相同类型的运算上。
实际上,在混淆矩阵中唯一显著的错误就是将JPEGCompression误认为JPEGDoubleCompression。
这可能与Dresden数据集中绝大多数原始图像均为JPEG格式有关,
因为它们已经被压缩过一次了。

KCMI测试结果显示了操作痕迹特征的一般性得到了验证。然而,在进一步考察IFLD任务中的特征有效性时发现了一些值得注意的问题。如图(b)所示,在对比I MC成员关系图与ground-truth时能够较为容易地区分两者之间的对应关系这一现象表明:(1)所提出的IMC特征求解方案在IFLD任务中展现出显著价值;(2)通过识别与周边环境存在显著差异的异常局部特性来准确辨识假造区域

局部异常检测网络

在这里插入图片描述

如图2所示,该算法由三个阶段组成:

  • 根据任务需求调整行为轨迹特征以满足异常检测的需求;
    • 基于人类认知模式识别出具有鉴别意义的异常征兆;
    • 在分析过程中综合考量各类疑点,并对图像中的像素真实性进行判断。
    • 由于这两个阶段处理过程较为直接透明,在深入分析后我们聚焦于异常征兆识别部分。

异常特征提取

给定一张特定的特征图谱,在人类能够有效识别潜在的艺术伪造区域时,本文将采用以下方法来进行判断:首先能够辨识图像的核心特征,在此基础之上与这一核心特徵存在显著差异的部分则被视为可疑或异常区域。

两个关键任务:

  • 核心特征及其计算方式是什么?此外,在量化局部特征与参考主导特征之间的差异方面有哪些最佳实践?
    • 在实际应用中采取哪些措施可以最有效地实现这一目标?

用公式(1)定义的平均特征作为主导特征:

在这里插入图片描述

其中 F 具有维度为 H×W×L 的基础特征张量。同样地,在等式(2)中展示了通过比较局部特征与其参考之间的差异来进行评估

在这里插入图片描述

考虑到通用性,公式(3)中定义的归一化Z分数效果更好,(见表6)

在这里插入图片描述

其中 σ F是如公式 (4) 所示的标准偏差。

在这里插入图片描述

在实践中,我们将 σF 替换为 σ* F,如等式 (5)所示。

在这里插入图片描述

其中,ν = 1e-5,w σ 是长度与 σ f相同的可学习的非负权重向量。

通过编码每个局部特征与主要特征之间的差异性,在实际应用中发现一个问题:如果同一图像包含两个篡改区域,则其中一个篡改区域能够显著影响平均值计算的结果,并因此导致难以准确识别另一个篡改位置。

一种高效的方法:从有限区域内的一个适当大的窗口计算参考特征以减少来自其他伪造区域的特征干扰。详细说明如下:

在这里插入图片描述

在这里插入图片描述

通过采用convlstm2d层结构设计的异常检测网络系统中,该算法能够依次解析不同时间段内的z分数偏差变化特征,从而实现对潜在异常状态的有效捕捉与定位. 在这一过程中,当存在不确定性时,我们会在深入研究每个维度上的zscore分布特性基础上,构建多级细粒度的空间映射关系模型,最终以系统化的空间分布规律作为理论支撑进行分析.

异常检测消融实验

在这里插入图片描述

实验评价

在本节中, 系统性考察了端到端的ManTra-Net在泛化能力、敏感度以及抗后处理能力等方面的适应度

采用AUC值作为评估指标。基于局部异常检测的特性,在原始像素数量较少的情况下,则认为ManTra-Net会对这些像素进行标记为虚假像素的操作。因此,在超过50%的图像像素被人工合成的情况下,则拒绝了ManTra-Net所预测出来的遮挡掩模这一结论

预训练和泛化测试

我们基于四个合成数据集采用了端到端的方法来训练 ManTra-Net 模型。预训练的 ManTra-Net 模型可通过访问 ISICV 项目的 GitHub 链接进行获取。

通过查看表7的数据可以看出,在使用完全随机权重训练的情况下,完全随机模型会过度拟合合成数据集并因此无法有效地概括真实数据的特征。然而,在这种情况下表现良好的半冻结模型虽然能够有效降低过拟合风险(如前所述),但也削弱了我们发现其他伪造类型更优特征的可能性。这是因为增强数据集已经在表6中展示了优化情况(请参阅表6中的增强列),但对拼接、复制-移动或删除这样的操作并未进行优化处理。相比之下,在允许使用较低学习率(如5e-5)的情况下训练这些权重时(如前所述),半随机模型不仅能够有效防止过拟合问题,并且能够收敛到所有不同类型的伪造样本的理想特征表示。因此,在以后的实验中使用ManTra-Net半随机模型

在这里插入图片描述

敏感性和鲁棒性评估

如图4-(a)所示,在面对加性噪声与模糊操作时(其中包含3×3 GaussianBlur这样的微小操作),ManTra-Net展现出极高的准确性;相比之下,在品质因子超过95的情况下,则压缩方法的表现显得较为不足

在这里插入图片描述

考虑了三种常见的后处理方案:(1) 将 X 降至较小尺寸;(2) 以较低质量因子压缩 X;以及 (3) 在伪造区域边缘周围对 X 进行平滑处理。我们未采用来自四个合成数据集的原始测试样本而是将经过预训练的 ManTra-Net 与后处理版本串联输入 并计算测试性能衰减结果 如图 4-(b) 所示 ManTra-Net 的整体性能对于 LinearResize 和 JPEGCompress 几乎呈线性下降 这比基于像素级减少的有效性要慢得多 最后 虽然局部模糊已知在欺骗基于边缘检测的伪造方法中表现优异 但 ManTra-Net 对此类攻击完全呈现出零抵抗力

与 SOTA 方法的比较

  • 采用经过预训练的模型而非微调版本 *
  • 综合评估全部数据集的效果而非采用分割后的验证集作为测试依据 *

表8为性能比较

在这里插入图片描述

相对于RGB-N而言,在NIST和Clumbia两个数据集上进行评估后发现Man-Tra Net表现稍逊一筹。在NIST数据集中发现ManTra-Net与the RGB-N method之间存在巨大性能差异的原因可能是由于该数据集中存在大量基础图像伪造样本来自完全相同或高度相似的照片——微调可能会有所帮助。而在Columbia数据集上我们的表现略低于最优方法RGB-N(3%)这一结果源于我们未依赖任何特定线索这一事实

然而,在COVERAGE和CASIA两个数据集上,在进行更大规模的评估任务时(即在更大的评估部分上),我们取得了比J-LSTM与RGB-N方法更好的性能;这两种方法均采用了数据集微调策略。一个可能的原因是我们所使用的数据集中的图片尺寸较小(例如,CASIA的数据集中典型图片大小为256×384,而NIST等其他机构的数据集中常见图片尺寸则大于等于1000×1000),并且更接近我们在模型训练过程中所采用的标准尺寸,即256×256

可以肯定地得出结论,ManTra-Net:

  • 显著优于现有的无监督方法
  • 其性能与当前最先进的DNN方法相当, 即使未进行任何模型微调或后续处理
  • 所提出的ManTra-Net在各类测试数据集上均展现出高度一致的性能, 这一结果表明该方法在多样的数据集上表现出良好的泛化能力

定性结果如图 5 所示。

在这里插入图片描述

缺陷

ManTra-Net在以下情况下可能会失败 :

  • 伪造的目标图像被完美复制并生成(借助样式迁移技术),如图6-(a)所示。
  • 通过精心设计的高相关性噪声干扰处理后的伪造图像与原有样本之间存在显著差异。
  • 通过对比实验发现,在特定条件下系统的鲁棒性得到了显著提升。
  • 在实际测试中首次准确识别了这些动物。
在这里插入图片描述

总结

在本文中, 我们提出了一种全新的全连接深度神经网络方案, 称为ManTra-Net, 专门用于图像伪造检测.该方案的独特之处在于它能够从测试图像中提取与操作相关的特征信息, 并通过分析局部特征与参考特征之间的差异来准确检测出存在异常的区域.经过大量实验验证, 所提出的ManTra-Net方案表现出对微小的操作细节高度敏感的特点, 同时也能有效抵抗经过后处理处理后的伪装行为.无论是在无法察觉的数据信息还是其他未知的操作类型上, 该方案均展现出卓越的表现能力.值得注意的是, 即使针对当前最前沿基于深度神经网络的操作技术如面部交换及深度图像修复等, ManTra-Net依然能够提供令人满意的性能表现.为了进一步提升其效果并使其适应更为复杂的伪造场景, 可以考虑在AIME挑战任务中增加更多的训练样本数量并扩展其功能范围.

全部评论 (0)

还没有任何评论哟~