【论文笔记】TransForensics: Image Forgery Localization with Dense Self-Attention
发布于ICCV2021
摘要
该框架的核心组件结合了密集自注意力编码器与密集校正模块。
前者用于构建全局上下文以及不同尺度上局部区域之间的双向互动 ,后者则用于增强隐藏层的可解释性和优化各分支的输出结果 。
与以往的传统和深度学习方法相比,在识别出本质不同的特征的同时,并非局限于单一类型的抗untargeted攻击场景或特定的应用顺序下才能实现有效的检测能力。经过系统性评估一系列标准测试集中的主要基准集,在很大程度上TransForensics展现出显著的优势
引言
深度学习方法的主要缺陷是高度依赖于人工设计的patch序列顺序以及操作类型的选择。具体而言,基于RNNs的方法将图像划分为一系列的小块,并利用长短时记忆(LSTM)网络来学习各部分间的相关性。这些网络虽然能够处理顺序输入,但却无法保存空间位置信息。相比之下,结合手工提取特征与深度学习自动提取特征的方法能够达到当前最先进的性能水平,但它们通常假设篡改类型事先已知。基于上述分析,我们在以下内容中展示了如何在图像伪造定位框架中采用空间注意力网络来建模图像中所有斑块之间的成对交互(包含丰富的统计特征的信息),同时保持整体结构特性,并有效缓解排序技术和操作类型的限制。
框架概述
FCN被用作主干网络,在其架构中基于自注意力机制处理不同尺度特征图中各点间的复杂相互作用。为提升性能目标,我们的网络设计引入了密集连接的校正模块,在此过程中通过早期层能够提取更加精细的空间位置信息,并实现预测结果的精确校准
主要贡献
- 本研究提出了一种基于Transformer的新图像伪造定位技术。
- 在图像取证领域首次探索了全局成对关系建模方法的同时,在保持patch间空间结构方面取得了突破性进展。
- 通过设计了一种密集监督架构实现了对隐藏层直接监督功能的增强,并采用逐元素相乘的方式实现了跨分支输出信息的有效协调。
- 实验结果表明所提出的TransForensics在性能上显著优于现有最优方法SOTA。
相关工作
深监督
即为一种在深度神经网络的关键中间层配置一个辅助分类器作为另一个分支网络来对主干模型进行辅助训练的技术手段。这种设计旨在缓解深度神经网络在训练过程中出现的梯度消失问题及优化其收敛速度。

方法
本文提出的图像伪造定位网络的体系结构如图2所示。

整个图像代表输入信号。第一步是通过FCN骨干网络提取具有鉴别的特征。接着,在位置编码块C2至C5中提取出各块特征后分别输入到self-attention编码器中以捕获输入图像中'patches'之间的丰富交互关系。最后阶段则采用乘法基线性融合策略来优化预测结果。在本研究中我们未对图像进行分块分割操作其中feature map中的每个点与输入图像是完全一致的小区域(如图3所示)。
用于交互建模的self-attention
基于自注意力的机制可用来模拟图像中像素或patch之间的复杂互动,并以更全面和有用的视角处理复杂的视觉问题
在本工作中,我们在图像取证中使用了self-attention编码器,其动机 是:
每个篡改类型都会导致其特有的篡改伪影;
这些伪影通常隐藏在图像细节区域中。
此外,在分析图像中的区域关系时,
我们采用预先设计好的Patch序列来分析它们之间的关联;
这种情况下,
无法捕获这些区域内的空间位置信息。
如果我们采取一种方法,
将整个图像分解为H×W个Patch,
经由自注意力机制处理后,
从而能够完整地捕捉到每一对关系的信息。
这是将self-attention编码器用于篡改定位的理论基础。
在深度学习领域中定义为各自对应的field(如图3)。基于point-wise关系建模能够有效提取差异特征。值得注意的是,在本文研究过程中并未采取直接划分图像区域的方法。具体而言,我们选择ResNet50作为Backbone模块,并包含五个独立的演化阶段;随后将前四个演化阶段的输出传递给自注意力编码器进行深入分析处理

用于网络剪枝的深监督
通常情况下,高度可区分性的特征将带来显著的效果优势。如果隐藏层输出能够直接用于最终分类任务 ,网络将实现语义理解、粗粒度预测以及细粒度预测等多种层次的信息提取与应用。在本研究中,在篡改定位系统的框架内引入了深度监督机制(如图2所示)。该网络结构包含四个分支(如图3所示),每个分支分别计算各自的定位损失函数(见图4)。该体系结构的优点在于:通过深度监督机制实现了更为丰富的特征融合(具有语义意义以及浅层信息提取能力)(见图5)。同时,在结合模型优化方法的基础上实现了剪枝操作以获取更为高效的模型结构(见表1)。值得注意的是,在实验过程中发现:通过调节各分支之间的权重参数(如图6所示),模型能够根据具体任务需求动态地选择最优特征组合以提高整体性能水平(见表2)。

基于特征融合的预测校正
FCN在进行语义分割任务时
我们将当前块的上采样输出与相邻块进行信息整合,并确保两者的尺寸一致。如图5所示,在高级模块(B)与低级模块(A)之间建立关联关系:其中图5展示了高级块(B)与低级相邻块(A)之间的关系。通过将A和B相乘得到最终整合结果C。具体而言,在特征整合模块中使用1×1卷积层来调整来自不同分支的不同特征维度,并结合上采样操作进一步优化信息质量。随后利用sigmoid函数(阈值设为0.5)计算出各通道之间的融合权重系数。最后,在完成特征整合并完成乘法运算之后运用stride=1及padding=1的方式执行3×3卷积操作以生成最终掩模预测结果。

预测损失
使用DICE损失和Focal损失来监督每个掩膜预测:

…
实验
数据集
CASIA、COVERAGE和IMD2020
细节
该网络由三个核心模块构成:其中一个是专门负责特征提取的FCN主干;另一个通过密集自注意力机制处理不同尺度的patch之间的关联;还有一个专门负责提升性能的密集校正模块。
之前的一些作品采用规模较大的图像生成数据集对模型进行微调训练以获取Coverage指标上的性能提升尽管由于Coverage的数量较为有限但我们在实验中并未对该指标进行相应的优化调整最终仍能与当前最优方法(SOTA)相媲美(如表1和表2所示)
评价标准
F1、AUC。
基线模型
ELA, NOI1, CFA1, J-LSTM, RGB-N,BLK, ADQ1 , ManTra-Net , LSTM-EnDec, SPAN。
结果
定量分析
表格1展示了不同图像伪造定位方法的AUC性能比较结果。其中符号「*」表明我们所进行的COVER实验未做微调处理,则其他对比的方法则未做此处理

表2是F1比较。

定性分析

消融实验
体系结构

自注意力机制被识别为建模集合元素之间复杂交互的核心组件,在这一过程中位置编码的作用尤为突出。参考表3的数据可知,在单独应用自我注意力机制的情况下无法获得理想的效果;只有在结合自我注意力机制与位置编码时才能实现性能上的显著提升效果。通过密集校正处理后发现隐藏层内部结构更加透明,并且能够根据各层间语义关联性对掩码预测结果进行优化调整;进一步研究表明从表3最后一行数据可以看出密集校正是提升模型性能的重要手段之一
网络剪枝
密集校正是实现网络剪枝的关键技术之一

在训练阶段中,在低位空间分辨率下提取出特征,并通过密集回环校正生成涵盖边缘在内的低分辨率特征反馈。这正是单向连接网络最明显的不同之处。然而,在C3分支中虽然预测结果呈现离散化特性,并未减少对边缘细节的关注。

特征融合类型
特征融合可分为两类:一种是基于乘积的融合方法(Multiplicative fusion),另一种是基于叠加的操作(Additive fusion)。参考表6中的数据可知,在对抗定位任务中,基于乘积的融合方法表现出了更高的优势(higher performance),这一发现与预期结果高度吻合。

总结
我们开发并提出了一种名为TransForensics的新方法。这种方案通过密集自注意力编码器成功模拟了全局上下文与不同尺度补丁之间的所有成对相互作用。这项研究是首个系统性地引入自注意力机制进行图像篡改检测的工作。此外,在掩模预测方面通过乘法操作实现了性能提升。实验结果表明我们的系统能够在检测真实篡改图像的同时实现性能与时间效率的良好平衡。该系统为图像伪造提供了可靠的模型基础,并且在性能与时间消耗方面达到了良好的平衡点。未来的研究工作将聚焦于扩展自注意力架构的应用场景,在领域如目标检测和语义分割等其他任务中取得突破进展
