Advertisement

【论文笔记】ObjectFormer for Image Manipulation Detection and Localization

阅读量:

发布日期:CVPR 2023

摘要

在本文中, 我们提出了ObjectFormer用于图像操作检测与定位任务。为了捕获RGB域中不可见的操作细节, 我们提取了图像的高频特征, 并将其与RGB域中的特征进行融合, 从而形成多模态补丁嵌入信息。此外, 通过采用一组可学习的对象原型作为中间层表示, 我们能够有效建模不同区域之间的对象一致性关系, 并在此基础上进一步优化补丁嵌入机制, 从而增强其对区域一致性的捕捉能力**。实验结果表明, 所提出的方法在多个数据集上均取得了优于现有最先进的篡改检测与定位技术的效果

引言

在这里插入图片描述

如图1所示,在语义上具有意义且在感知上具说服力的方式生成的图像中,请问这些方法经常会在对象级别对图像进行操作吗?这些操作通常是通过在图像中添加或删除对象来实现的。然而最近的一些研究则专注于针对单一像素的操作进行检测,并利用CNN将输入直接映射到二进制标签(即真实或操作),而不显式地建模对象级别的表示。与此相反我们主张基于特征的空间一致性检测不仅能够识别某些区域是否存在异常分布还能有效捕捉整体目标之间的关联性 。此外基于像素的操作带来的视觉伪影往往会被人类察觉但在频域中的变化可能会被忽视因此为了发现细微的操作痕迹我们需要构建一个同时考虑RGB域和频域特征的多模态模型

在本文中,我们主要阐述了ObjectFormer这一创新性的方法。该方法是一种多模态Transformer架构,在图像检测与定位领域展现出卓越性能。具体而言,在基于Transformer的设计过程中,默认选择这一架构是与其通过自注意力机制识别空间位置间的关联性这一特性密不可分的原因所在。受自动学习对象查询这一技术启发,在构建这一系统时我们采用了独特的策略:通过一组可学习参数构建的对象原型(作为中层对象表示)能够识别物体级别的特征一致性;而进一步提升系统性能的关键在于利用补丁嵌入模型优化补丁级别的一致性建模过程

基于此观察,ObjectFormer首先将图像从RGB域转换到频域以实现有效的特征提取,并通过多个卷积层获取多模态分块嵌入。我们将基于RGB的分块嵌入与基于频率的分块嵌入进行串联处理以形成互补性关系。此外,在这一过程中我们引入了一组可学习的对象查询/原型表示,并将其与派生的分块嵌入进行交互学习以促进不同对象间的一致性建立。为了进一步优化效果我们利用这些具有交叉注意力机制的对象原型来优化分块嵌入表示并不断更新其全局特性表示直至获得全局特征编码空间这一框架最终能够系统地捕捉中级对象特性和其空间分布关系从而实现对操作工件的有效检测能力并最终对图像篡改情况进行准确预测

主要贡献

我们成功开发了一个端到端多模态图像处理检测与定位框架ObjectFormer,并通过整合RGB特征与频域特征来实现对被篡改物体的识别。
我们深入研究了基于可学习对象原型的中间层表示模型,并通过建模对象级别的统一性和精确的补丁嵌入表示来捕获补丁级别的统一性。
该方法在多个基准测试中经过全面验证,并展示了该方法在检测与定位方面的卓越性能。

方法

我们旨在通过建模中间层表示之间的视觉一致性来检测图像中的潜在操作点 ,这些中间层表示是由注意多模态输入自动导出的。 在本节中, 我们介绍了ObjectFormer这一方法, 它由高频特征提取模块、自适应对象编码器以及精确解码模块组成。 该自适应对象编码器利用可学习的位置关注机制来判断图像中各层次特征的一致性。 该精确解码模块能够生成高分辨率的操作检测结果图, 从而辅助实现目标定位。 图2展示了该方法的整体架构

在这里插入图片描述

高频特征提取

在这里插入图片描述

因为被操纵的图像通常经过后期处理以隐藏篡改伪影的原因在于,在 RGB 空间捕捉细微伪造痕迹极为困难;为此,在频域中提取特征有助于提供额外的操作检测线索;以图像 X 作为输入,在 RGB 域通过离散余弦变换 (DCT) 将其转换至频域:

在这里插入图片描述

在这里插入图片描述

其中F代表高通滤波器,在此应用中被设定为人工调节参数α所控制的关键指标,在一定程度上能够抑制信号中的低频干扰成分。接着,在对输入数据Xh进行多层卷积处理后,在频域中提取出与参考信号Gr具有相同尺寸特性的频率特征Gf。随后的操作步骤包括:基于Gr和Gf生成具有相同空间维度的空间区域图元,并将其展平成长度为L、由C个通道构成的一维向量序列;将这两个独立得到的空间片段序列连接在一起形成一个多峰片向量p∈R^{2L×C};最后,在该向量p中加入正弦位置编码信息以辅助后续模型对空间定位能力的学习过程

对象编码器

对象编码器旨在自动生成描述特定区域特征的中间表征,并判断这些区域之间的相似性。为此,我们以一组可调参量o∈R^{N×C}作为模板库,通过训练该模板库来获取图像中的物体特征。其中N为预先设定的最大值,在本研究中取值为16。

详细说明如下:给定第i层的对象表示经过层规范化(Layer Normalization, LN)处理后得到相应的分片嵌入pi,并将其作为键与值参与后续的操作。值得注意的是,在此过程中我们分别令p0=p,o0=o以保持一致性。随后通过矩阵乘法运算并应用Softmax函数可获得对象-分片间的亲和性矩阵Ai∈Rn×L(其中Ai为对象与分片之间的亲和性矩阵)。

在这里插入图片描述

其中Weq和Wek分别代表两个可学习的线性投影层参数。随后通过另一个线性层将pi映射至值嵌入空间,并借助人工智能技术计算其加权平均值得出注意力矩阵。最终通过与注意力矩阵建立关联关系更新对象表示形式,并得出oi∈R^{N×C}

在这里插入图片描述

具体而言,在值嵌入层中存在 learnable parameters Wev 代表

在这里插入图片描述

该Wc是一个可学习的权重矩阵,在认知不同对象原型之间相互作用机制的基础上揭示了其在对象级的视觉不一致特征。在处理过程中,在图像中存在对象数量差异的情况下,我们通过引入线性投影层和激活函数GELU来提升各目标特征的表现力。这一过程可以表示为:f(x)=\sum_{i=1}^{n} Wc_i \cdot g(x_i)其中g(x_i)代表各目标特征函数。

在这里插入图片描述

其中Wact1和Wact2是可学习参数,δ是GELU函数,oi+1是更新后的对象表示。

补丁解码器

一种称为"对象编码器"的技术允许图像中的不同物体相互作用的能力,并赋予其建模中间层在视觉上是否一致的能力的同时特别关注那些重要的区域或标记。
此外,在进一步细化补丁嵌入的过程中,
我们使用来自对象编码器的更新后的表示方法。
具体来说,
其中pi被用作查询参数,
oi+1则被用作键和值部分,
通过经典的注意力机制来强化每个区域的独特性。
这样一来,在后续处理中每个区域都可以从中提取出更有价值的信息。

详细来说,我们第一步采用层归一化对其进行归一化处理;随后将这些归一化的结果输入到注意力机制中进行分片级联细化。整个流程可以用以下步骤来描述:

在这里插入图片描述

其中,Wdq,Wdk,Wdv为三个嵌入层的可学习参数,MLP表示具有两个线性映射的多层感知器

在将中间层的目标特征融合到图像中的每一个patch之后,在此基础上通过应用边界敏感的上下文不一致建模模块(BCIM),我们能够检测出像素级别的不一致性,并从而实现对细节级别的特征建模。具体而言,在三维空间中的变量pi(属于R^{2N×C})被重新构造成二维特征映射ePi的形式(尺寸为RHs×Ws×2Cs)。随后,在局部窗口内计算每个像素与其周边区域的相似度程度。

在这里插入图片描述

其中κ表示特征映射Pe_i中的一个k × k小窗口, Pe_ij为窗口中心位置对应的特征向量, Pe_ik为其在κ内相邻位置的所有邻近特征向量.我们采用的相似度评估指标Sim基于余弦相似性.然后通过计算RHs × Ws × 1维空间中各单元与其对应的Pe_i向量间的点积并求总和的方式, 得到一个大小为RHs × Ws × 2Cs的空间域边界敏感特异性图, 并对该边界敏感特异性图进行分块编码处理得到下一个level上的patch embeddings pi+1 ∈ R^{2N} × C.

本研究中, 我们依次应用了堆叠对象编码器与图像解码器, 在实验中将次数设定为8次, 以便交替更新目标表示与补丁特征. 通过上述过程, 我们获得了pout∈R^{2N×C}, 其整合了目标级与片块级别的视觉一致性信息. 随后, 我们将此结果重构为二维特征图Gout, 并进而利用该特征图进行操作检测与定位.

损失函数

对于操作检测部分,在Gout空间中我们采用了全局平均池化技术,并结合全连接层来计算最终输出的二进制预测结果^{\hat{y}};而对于操作定位任务,则是通过交错的卷积层与线性插值模块相结合的方式,在逐级上采样的过程中生成预测掩模^{\hat{M}}。给定correct ground-truth标签y与掩模M作为输入,在此基础上我们设计了如下目标函数来进行ObjectFormer模型的训练。

在这里插入图片描述

其中Lcls和Lseg均为二元交叉熵损失,λseg为平衡超参数。默认设置λseg = 1。

实验

我们对两个紧密相关的领域进行了模型评估:操作识别与检测系统。针对第一个相关领域而言,在该领域中的目标是识别图像中经过特定处理的区域。而在第二个领域内,则是对图像进行分类时将其归类为受操控或天然状态。

实验设置

  • 合成预训练数据集:包括Fake-COCO(基于MS COCO构建),此外还有FakeParis(基于巴黎街景)以及原始图像(上述各数据集中原始图像)。在生成的数据中随机添加高斯噪声或应用JPEG压缩以模仿真实场景中的图像质量。
  • 测试集:PSCCNet采用CASIA、Columbia、Carvalho、NIST16以及IMD20等数据集进行性能评估。为了微调ObjectFormer我们采用相同的训练/测试分割方案。
  • 评价标准:检测系统的AUC和F1分数被用来评估性能。对于定位任务使用像素级AUC以及mask上的F1评分作为指标。由于计算F1分数需要二进制掩码与检测得分之间的平衡处理采用了等错误率(EER)阈值来进行二值化处理。
  • 实现细节:backbone选择在ImageNet上预先训练好的EfficientNet-b4架构。
  • 基线模型:J-LSTM H-LSTM RGB-N MantraNet SPAN PSCCNet。

图像篡改定位

基于SPAN以及PSCCNet的基础上, 对包括当前最先进篡改定位方法在内的多个方案进行对比分析。

  1. 使用模拟数据集来训练模型,并在全面的数据集上验证其性能。
  2. 通过微调预训练模型来优化分割任务,并在测试集中评估效果。

对于预训练模型评估,将ObjectFormer与MantraNet、SPAN和PSCCNet进行比较。在表1中报告了AUC分数(%),从中我们可以看到ObjectFormer在大多数数据集上都实现了最佳的本地化性能。特别是,ObjectFormer在真实数据集IMD20上达到82.1%,比PSCCNet高出1.9%。这表明我们的方法具有较强的篡改特征捕捉能力,并能很好地推广到高质量的篡改图像数据集 。在Columbia数据集上,我们超过SPAN和MaTraNet 2.0%和15.9%,但落后PSCCNet 2.7%。我们认为,其原因可能是PSCCNet合成的训练数据与Columbia数据集的分布非常相似 。这可以通过表2中的结果进一步验证,表2显示,如果在Columbia数据集上对模型进行优化,ObjectFormer在AUC和F1得分上都优于PSCCNet。此外,值得指出的是,与其他方法相比,ObjectFormer使用较少的训练前数据获得了不错的结果。

在这里插入图片描述

对于微调模型而言,在解决合成数据集与标准数据集之间存在的视觉质量差异方面仍有一定局限性。因此我们采取了进一步优化的方法:即对特定领域数据集上的预训练模型进行微调,并将其与表2中列出的其他方法进行对比分析。经过实验分析后发现性能提升显著:这表明ObjectFormer通过对象级一致性和片元级一致性建模以及多模态设计实现了对细微篡改工件的有效捕捉

在这里插入图片描述

图像篡改检测

本表3展示了在CASIA-D数据库中用于检测篡改图像的AUC值及F1分数(%)。实验结果显示,在所有测试条件下,我们所提出的模型均展现了卓越的性能水平。这些结果进一步验证了我们方法在识别图像篡改方面的有效性。

在这里插入图片描述

鲁棒性评价

多尺度图像缩放效果显著,在应用中展现出良好的适应性特点;基于k尺寸的高斯模糊滤波器能够有效去除噪声干扰;通过σ值调节的标准差参数,在不同场景下实现理想的去噪效果;结合Q因子优化的JPEG压缩算法,在保持图像清晰度的同时实现高效的压缩传输效率;具体性能对比结果展示于表4中;研究表明,在多种失真条件下(如压缩比100%和50%),ObjectFormer展现出更强的鲁棒性优势

在这里插入图片描述

消融分析

该系统采用了高频率特征提取(HFE)模块以捕获频域中的异常仿生特征,并通过边界敏感度不相关建模(BCIM)模块来提升篡改置信度。为了验证HFE和BCIM的有效性,我们将这两个模块从ObjectFormer中剥离,并在CASIA和NIST16数据集上进行实验测试。

实验结果详细展示在表5中。观察到,在排除HFE影响时(即不考虑HFE的存在),CASIA数据集上的AUC值降低了约14.6%,而NIST16数据集上的AUC值则减少了11.0%;当不考虑BCIM的影响时(即假设BCIM不存在), CASIA AUC降低了约6.2%, NIST16 AUC减少了约2.4%。这一现象表明,在引入HFE和BCIM后(即通过应用这两种技术),模型的整体性能得到了显著提升。为了验证ObjectFormer学习的有效性(即证明其表示能力的有效性),我们采用了不同的方法:不再依赖对象表示层(即放弃自定义对象表示),而是采用了更为基础的技术架构——基于普通自注意力机制的设计替代了先前复杂的对象编码器与解码器堆叠结构。从表5的数据可以看出,在测试过程中引入上述改进措施会导致明显性能退化:具体而言,在NIST16测试集上(即主要评估指标集中在这一场景下), AUC值减少了约5%,而F1分数则降低了约12.5%。

在这里插入图片描述

构建对象原型来表示可能出现在图像中的虚拟元素,并有助于ObjectFormer能够学习对象级别的语义一致性建模。为了探究原型数量(N)对模型性能的影响程度, 我们进行了系列实验研究。如图3所示, 并通过实验验证了该假设: 随着原型数量的变化趋势分析表明, 答案是肯定的. 当设置N=16时, 在Columbia和CASIA两个数据集上均取得了最佳效果.

可视化结果

可观察性分析框架对目标编码器进行了可视化研究。我们进一步分析其行为特征,在第一个编码模块中计算并归一化了所有注意力单元(如图所示)。对于每张图片而言,在第一列展示了原始输入(即第1个编码模块),而后续各列则分别对应基于不同典型实例提取的目标区域。例如,在第二、第三列中展示了两个典型实例对应的主要前景目标;而在第四、第五列中则反映了与背景相关联的基础面目标特征。实验结果表明,在迭代更新过程中生成的目标表示能够有效捕捉图像中具有重要意义的空间信息,并为统一目标建模提供了理论支撑。

在这里插入图片描述

定性结果 。图5展示了不同方法下的预测操纵掩码示例。由于PSCCNet的源代码缺失导致其预测结果无法直接获取。研究发现,在引入ObjectFormer后通过其独特建模能力——不仅能够显著提高篡改区域定位精度,并且能有效生成清晰且精确的边界

在这里插入图片描述

高频率信息的呈现 。本研究通过GradCAM技术实现了高频分量与HFE特性的可视化呈现,并在图6中进行了展示。实验结果显示,在视觉上生成图像看似自然,在频域处理后的区域与未处理区域之间存在显著差异。

在这里插入图片描述

局限性

当使用预训练模型对Columbia上的篡改定位进行性能评估时,在AUC得分方面ObjectFormer相较于PSCCNet低出了约2.7%。这一差距可能主要源于两者的训练前数据均来自相似的数据分布环境。基于此观察结果,我们推测为解决这一问题可进一步收集与目标测试集具有更高代表性的额外训练前数据集

总结

该研究提出了一种端到端多模态框架ObjectFormer用于图像篡改检测与定位。为识别无法在RGB域中察觉的微小操纵伪影Objective Former采用了频域分析提取伪影特征作为辅助信息并将其与RGB特征相结合以构建多模态分块嵌入。随后系统通过交替激活堆叠的对象编码器与分块解码器更新对象原型与分块嵌入从而有效建模对象级及分块级的一致性特性。通过多个数据集的大量实验验证了该方法的有效性

全部评论 (0)

还没有任何评论哟~