【论文笔记】MVSS-Net: Multi-View Multi-Scale Supervised Networks for Image Manipulation Detection
发表于《IEEE Transactions on Pattern Analysis and Machine Intelligence》2022年版
主要贡献
- 为了实现从单像素级别的操纵检测向图像级预测的转变, 我们开发并引入了一种新型模块ConvGem, 替代传统的GMP架构. 该模块成功解决了传统GMP架构的两个主要缺陷, 即反向传播中的图像尺度损失瓶颈问题, 以及未能充分考虑操作者积极响应的数量与空间分布特性. 这一改进使我们建立了性能优越的新模型MVSS-Net++.
- 针对当前模型在处理通过屏幕截图重捕获的操纵行为时的表现进行了初步研究, 这一操作是互联网环境下常见的人工干预行为. 研究重点在于评估模型对其鲁棒性的支持程度.
提出的模型
下图是MVSS模型。

下图是MVSS++模型。

本文旨在构建一个复杂的多层深度学习模型G(具体而言,则不仅能够检测图像是否受到操控,并且能够识别操控的具体像素位置)。
- 语义分割头G_{seg}执行的是像素级操作的概率S(x)。
- 图像分类头G_{clf}基于像素级别的证据计算图像被操控的可能性C(x),通过分析分割图中的细节信息来确定这个概率。

为了提取具有广泛适用性的操作检测特征,G被构造为能够同时接收输入图像的原始RGB视图以及额外引入的噪声视图。 通过在检测灵敏度与特异性之间找到平衡点的方式进行多视点特征学习过程的设计,在不同尺度上进行标注信息的统一指导就形成了多视图多尺度监督网络(MVSS-NET)。
用于图像级预测的ConvGeM
Global Max Pooling (GMP) 负责计算 S(x) 的全局最大特征值作为 C(x),即通过数学公式S_{i∗,j∗}(x) 来表示。然而,在GMP中,C(x)直接与S(x)相关联。
- 该损失函数主要依据S_{i^*,j^*}(x)来计算,并且其反向传播仅限于特定点(i^*, j^*)。
**这一局限性不仅会导致分类头训练效率下降,
还可能削弱其对整个网络结构的理解能力。
** - 基于格式塔原理,
人类感知视觉模式与其所处的空间环境具有密切关联。
为了有效蒙蔽,
特定数量像素需以特定配置同时处理。
因此,
零星出现的有效反应往往难以达到预期效果。
GMP无法区分这些差异性反应。
对于第一个缺点:

由于额外的像素对C(x)的贡献度提升较高,几何平均池化(GeM)成功地突破了标准平均池化(GMP)在反向传播过程中的性能瓶颈。通过我们对实验数据的分析发现,在实际应用中将GeM替代为GMP可以显著缩短约10个训练周期的时间开销。然而,在正向传播过程中中性反应的空间分布并未受到影响。
由于卷积操作天然具备捕捉像素间空间相关性的能力,在GeM层之前插入一个卷积块具有良好的可行性。值得注意的是,在神经网络模型早期训练阶段中发现分割头G_{seg}表现不佳的现象尤为明显;这导致大量无效特征(S(x))被生成并被后续处理环节进一步放大影响分类头的表现(G_{clf})。为了避免这种负面影响的发生,在网络架构设计阶段我们引入了一种新型模块:非负权重λ加权衰减跳跃连接模块;该模块能够动态平衡各特征分量的影响程度并有效抑制噪声干扰对模型性能的影响。

其中 λ 被设置为初始值接近1,并且在其生命周期中按照非线性的规律递减 。图6中所示结果表明:当λ值接近1时,在早期训练阶段G_{.clf}能够暂时不依赖conv块进行操作。随后,在这一阶段中不断优化并提高G_{seg}的质量与可靠性后置条件的情况下(即其输出S(x)更加准确和稳定),在后续阶段λ逐渐减小。此时,在训练过程中G_{.clf}会更加依赖于conv层来充分利用这些特征信息。根据公式6可以看出,在整个训练过程中采用动态权重分配的方式构建GeM和GeM(conv)模型组合能够有效缓解该缺陷。

多尺度监督
图像级损失:使用的二进制交叉熵(BCE)损失。

值得注意的是,在loss_{clf}的有效性方面,并不仅限于提升模型的区分能力。借助ConvGeM框架,在图像尺度监督方面如今能够比我们以往采用的GMP方法更加高效地实现反向传播过程,从而进一步优化特征学习效果。
消融实验
语义分割主干网络的影响
在表3中展示了不同语义分割骨干的性能对比实验结果,在该研究中仅采用分割损失作为优化目标。其中F1得分采用百分比形式展示。

G_{clf}的影响
我们对比了G_{clf}的三种不同实现方案,其中包括GMP、GeM以及ConvGeM。这些方法的具体表现数据体现在表4中的最后三行部分。与基于全局平均池化的GMP相比,在像素级别的F1值方面,采用几何平均机制(GeM)表现出显著的优势。尽管以非线性方式处理像素响应特性使得其在图像尺度检测上稍显不足,在这一指标上的性能损失(从79.7%降至63.1%)导致整体图像级检测灵敏度出现了明显下降。然而,在两个核心任务之间的增益平衡方面,并未对总体性能产生显著影响(Com-F1值基本持平)。相比之下,在两项核心任务之间取得均衡性优势的是ConvGeM方法。该方法通过优化在两个任务之间的权衡关系,在两项指标上均实现了性能提升:Com-F1值从64.3%提升至66.3%。
边缘分割与边界框回归的比较
探讨被操控区域周围边界伪影的学习方法主要包含两种策略:一种是进行边缘分割;另一种则是将篡改定位视为进行边界框回归的任务。基于目标检测损失函数训练的 MVSS-Net 模型在表4中倒数第二行的位置展示出了较高的性能水平;具体而言,在像素级别的操作检测以及图像级别的操作评估中所得分数均显著低于 Setup #9。这些结果表明,在学习边界伪影特征的过程中

如图7所示为可视化方法构建的模型在不同场景下的像素级操作检测结果。数据来源为Defacto研究团队。经验证的测试图像均为真实捕捉。
多尺度监督(seg+clf等技术)的应用显著提升了检测准确性的同时也降低了检测效率。
值得注意的是MVSS-NET++算法在准确率与检测效率之间实现了最佳权衡。

与SOTA对比
像素级操纵检测
表5列出了各模型在像素级检测方面的性能数据。就整体而言,MVSS-NET++展现出显著的优势,并被认为是当前最优的选择。该方法所依赖的大规模训练数据源自 MSCOCO 提供的 DE-12K 基准集。值得注意的是,在 NIST 基准上表现最优的是 H-LSTM 模型,在该基准上其训练数据占比高达 70%。与基于 CASIAV2 数据集进行训练的基线模型 MFCN、RGB-N、CR-CNN 和 GSR-NET 相比,在多个测试集上 MVSS-NET++ 的检测精度均超越了这些基准模型。这一优异表现不仅体现在单模态任务中,在跨模态场景下其泛化能力同样令人瞩目。当将表5中的左右两部分进行对比分析时,可以清晰地发现两者之间的显著差距——对于最佳基线指标(跨度),其像素级 F1 值从 68.8 降至 21.4;而 MVSS-NET++ 则从 73.2 下降到 38.7 F1 分值。实验结果证实了该任务的高度挑战性,并突显了我们提出的评估协议对于确保技术进步能够顺利向实际部署迈进的重要性

图像级操纵检测
表6展示了不同模型的图像级别的性能数据,并且所有模型都采用了预设决策阈值为0.5的情况(较大的阈值意味着较低的敏感性并伴随较高的特异性)。其中MVSS-NET++再次取得了优异的表现。在多尺度监督下,MVSSNET系列能够从真实的数据集中学习特征,并在多数测试集上实现了更高的特异性和更低的误报率。我们的研究证实,这些模型同样展现出具有竞争力的AUC分数,这表明它们能够在各种评估点上超越基准方法。图8详细展示了各模型的表现曲线及其对应的决策阈值分布情况。值得注意的是,MVSS-NET++在决策值达到0.46时达到了峰值性能表现,其表现与理想状态下的0.5阈值极为接近。这一发现再次证明了我们提出的模型具有良好的泛化能力


像素级和图像级操作检测的总体性能在表7中提供。

鲁棒性实验
图9展示了JPEG压缩与高斯模糊两种图像处理技术的抗噪声能力评估。测试集采用CASIAV1+和MVSS-NET++(不包含数据增强中的JPEG压缩与高斯模糊训练)作为基准进行比较分析。与传统方法相比,所提出的方法表现出更高的稳定性。

首次研究了模型如何对通过截图重新捕获的操纵图像做出反应。
在以下部分中介绍针对截图评估的技术方案。我们采用来自CASIAV1++数据集的随机采样的一个子集进行研究
如图10所示,在原始测试集及其变体上进行评估的单个模型展现了显著的性能。通过对图形数据的分析和观察可以总结出以下两点:第一个发现是影响图像重建的关键因素主要集中在两种技术上;进一步研究表明尽管当前所有模型都面临着基于屏幕信息进行重建的问题,并非所有方法都能有效解决这一挑战;第二个发现则是不同变体之间的差异性表现出了显著性优势其中最突出的表现者是MVSS-NET++

效率测试
下表8为模型推断的速度。

失败案例分析
如下图 11所示,在第一排图片中使用了阴影化的儿童眼镜框架来进行操控操作。

附录
下表9详细呈现了不同模型在准确率和MCC指标上的表现。基线方案在保持良好平衡的同时,在MCC方面显著优于MVSS-NET系列。

下图12展示了如何通过类似ESB的方式在NSB中添加不可训练的MFR模块。NRB(噪声残差块)采用了与图中所述ERB(边缘残差块)相同的机制 3(b)。

