Advertisement

【论文笔记】AR-Net: Adaptive Attention and Residual Refinement Network for Copy-Move Forgery Detection

阅读量:

AR-Net:用于复制-移动伪造检测的自适应注意和残差改进网络

摘要

本研究提出了一种基于自适应注意和残差细化网络(AR-Net)的端到端神经网络方法。该方法通过利用自适应注意力机制整合位置与通道层面的关注特征,在充分捕捉上下文信息的同时实现了丰富的特征表示。此外,在计算特征图间的自相关性时采用了深度匹配的方法;随后,在空间金字塔池化的基础上融合了比例相关图以生成粗遮蔽;最后,在精细处理阶段中使用保留物体边界结构的残差细化模块对粗遮蔽进行了优化以获得最终结果

基于CASIAII、COVERAGE以及CoMoFoD等数据集展开的一系列实验结果表明,在像素级定位被篡改任务中所提出的方法能够显著超越现有的先进算法性能水平,并且能够在真实区域实现可靠的定位效果。此外,在后期图像处理环节中所设计的方法也展现出极强的抗干扰能力;这些常见干扰手段均能有效抵御这些干扰措施的影响

引言

方法的提出

如图1所示。AR-Net主要包含两个核心组件:粗略估计篡改区域的检测组件以及通过残差学习精确定位边界细节的部分。该网络体系能够精准识别并定位所有可能存在的篡改区域,并在多个公开测试基准数据集上展现出卓越的表现。其中,在检测阶段由两大部分构成:首先是自适应注意力机制驱动的特征提取网络;其次是基于自相关深度匹配与ASPP(渐近卷积池化)相结合的分支结构。而在优化预测阶段,则通过残差学习进一步优化边界细节,并生成精确的目标遮罩符号⊕表示特征图融合

在这里插入图片描述

主要贡献

我们开发出一种新型的自适应注意力机制来识别并提取被后处理篡改的关键特征参数,并将其无缝整合至任意现有的伪造检测框架中运行测试数据集进行评估结果表明该方法较之传统方案在定位精度方面有显著提升

网络架构概述

CMFD的主要目标是鉴别真实区域与篡改区域。
基于像素级别的分析,我们的创新方法能够识别图像中的篡改区域能够准确对应到其真实位置。
如图1所示,在本方法中主要包含两个功能单元:检测单元(用于识别异常特征)以及细节增强单元(用于优化图像细节)。
检测单元由三个关键组成部分构成:
- 具有自适应注意力机制的特征提取网络;
- 基于自相关性的深度匹配算法;
- 采用渐进式金字塔池化(ASPP)的空间聚合机制。

自适应注意模块

池化层有助于降低网络参数数目,并必然导致空间分辨率下降。以提高深层特征的空间信息内容为目标,在第四层卷积后设置膨胀率(dilation rate)为2的Atrous卷积模块用于生成高分辨率特征图。

考虑到CNN主要关注局部特征

在这里插入图片描述

借助位置注意力机制在该模块上的运用, 可以实现将更广泛的上下文信息转化为局部特徵, 进而增强卷积表徵的多样性和深度. 其中, 在位置注意力机制的作用下, 矩阵A被定义为

在这里插入图片描述

其中a_{i,j}代表第i个像素对第j个像素的作用关系,在卷积操作后得到的特征图分别为\bm{Q}\bm{K}。如图2(a)所示。空间注意力机制中的位置关注特征图\bm{E}_P具体表现为

在这里插入图片描述

其中α被初始化为零,并且是一个可学习的参数;V则代表经过卷积层、批归一化层以及ReLU激活后的特征图(如图2(a)所示)。类似于位置注意机制,在通道注意力机制中(如图2(b)所示),特征图EC通过其计算过程进行处理。

避免因忽视位置与通道注意力特征图之间的权重而导致信息丢失的问题后才能准确定位被篡改区域的基础上

在这里插入图片描述

其中和是两个自适应参数,在训练过程中不断学习

深度匹配和ASPP模块

对于CMFD系统而言,在计算深度特征的相关性时存在一个关键点。通过引入自适应注意机制来生成模仿特征。鉴于复制-移动检测具有独特性,在此过程中我们还需要确定相应的正确区域。因为被篡改区域源自真实区域的复制行为,因此其与真实区域之间的相似度显著高于其他真实区域之间的对比值。基于此特性,我们采用深度匹配技术来识别出相似的区域位置。

属于我们可以找到匹配补丁的特征图。
在计算两个补丁 Emk 和 Enk 的特征图之间相似度得分时,

在这里插入图片描述

为了过滤掉无关紧要的信息内容,在计算过程中我们采用了排序池,并从排序池中选择分数最高”的元素作为indk(T)。

在这里插入图片描述

其中Top_T_index(·)表示选择top-T值对应的索引函数表达式;而Sk则表示特征图Ek的相似性得分为。

在我们的网络架构中,在应用空洞卷积之后,在线性代数层面上进行特征提取时发现,在线性代数层面上进行特征提取时发现,在线性代数层面上进行特征提取时发现,在线性代数层面上进行特征提取时发现

在这里插入图片描述

在复制-移动伪造过程中所涉及的被篡改区域通常呈现出缩放特征。因此合理利用相关图提供的多尺度信息具有重要意义。为了更有效地预测可能存在的粗略遮挡区域我们采用了ASPP这一技术手段从而有助于识别不同尺度下的篡改范围

残差细化模块

现有基于深度学习的伪造检测方法仅识别被修改的位置 ,并未对目标遮罩实施精细优化 ,这对检测性能产生了显著影响 。这里将该模块输出的目标遮罩视为初步粗略版本 。如图1所示 ,粗化后的遮罩经残差精炼模块处理后得到了更为精细的结果

如图3所示,该网络架构主要由五个关键模块构成:输入层、下采样层、桥接层、上采样层和输出层。具体而言,在输入级配置了64组3×3尺寸的卷积滤波器,并随后接入批量归一化层和ReLU激活函数以引入非线性特性。在桥接阶段还引入了一个卷积层,并应用了64组同样大小(3×3)的卷积滤波器,在此之后同样采用了批量归一化并应用ReLU激活函数以维持特征映射的质量。值得注意的是,在下采样过程中采用了平均池化操作以降低空间分辨率,在上采样过程中则采用双线性插值方法以恢复图像的空间细节信息。此外,在上采样环节后还引入了一种跳跃式连接机制,在此基础之上将特征映射与相应位置的输入级特征映射进行融合整合。最后经过一个带有sigmoid激活函数的卷积层处理后得到了最终的精炼掩模响应

在这里插入图片描述

训练损失

该算法包含两个主要部分:检测模块和残差细化模块。分别采用不同的损失函数进行训练。

检测模块损失

在对检测模块进行训练的过程中,通过应用空间交叉熵损失函数来最小化网络中的最优参数集。因为伪造检测本质上是一个二进制分类问题,从而导致计算得到的二进制交叉熵损失Lbce为

在这里插入图片描述

其中G(i, j)∈{0,1}表示像素(i, j)的标签,T(i, j)是像素(i, j)被篡改的预测概率值。

残差细化模块损失

BCE损失单独处理每个像素 ,忽略了像素间的相互作用关系。该损失函数在处理篡改区域与真实区域边界时采取了对等对待的方式,并未能凸显两者的区别性特征。基于此需求,在保留更多图像结构信息的基础上提出了混合损失函数Lref定义为

在这里插入图片描述

其中Lbce、Lssim和Liou分别代表BCE损失、结构相似(SSIM)损失和交并比(iou)损失。 BCE损失主要用于评估像素级的分割能力,并促进模型在每个像素点上实现收敛。

SSIM损失能够反映结构信息,并关注每个像素的局部邻域,在Patch级别中作为指标。利用SSIM损失,残差细化网络在训练过程中特别重视篡改区域的边界,并赋予边界更高的权重。 SSIM损失可以表示为

在这里插入图片描述

其中u_Gu_T代表GT的平均值;\sigma_G\sigma_T分别代表GT的标准偏差;\sigma_{GT}为协方差矩阵。\n设定\varepsilon_1 = ①\,①\cdot①\,②\,②\,③\,③\,④\,④ = 1\times1e^{-4}\varepsilon_2 = ①\,①\cdot①\,②\,②\,③\,③\,④\,�4 = 9\times1e^{-5}以防止分母出现零值

IOU损失作为一种重要的度量工具,在目标检测与图像分割任务中得到广泛应用 ,在训练阶段也得到了广泛应用。 Liou 的计算过程表示为

在这里插入图片描述

在训练残差细化模块时,我们依据公式(8),将这三个损失进行整合。其中,
BCE 损失旨在确保每个像素都具有平滑的梯度,
SSIM 损失则用于保留图像的空间结构信息,
而 IOU 损失则以增强网络对篡改区域的关注程度为出发点进行设计。

实验

数据集

在这里插入图片描述

训练设置分析

在这里插入图片描述

图4展示了两个阶段的可视化显示损失情况,在该图表中使用了l_bce1来表示检测模块在第一阶段的学习损失。而在第二阶段中,则通过l_bce2、l_ssim和l_iou分别代表了残差细化模块在第二阶段的学习损失。

在这里插入图片描述

评价指标

Precision、Recall、F1、AUC

消融实验

自适应注意模块和残差细化模块

在这里插入图片描述

1)Base:不包含自适应注意力机制及残差细节分支的网络架构。
2)Base-Atten-P:仅具备位置注意力机制而不具备通道注意力机制的设计。
3)Base-Atten-C:仅包含通道注意力机制而未涉及位置注意力机制的设计。
4)Base-Atten:通过简单整合position attention与channel attention形成的基础架构中未引入自适应融合机制。
5) Base-Ada-Atten:包含自适应注意力机制而不具备残差细节分支的设计方案。
6) AR-Net:同时配置了注意力机制及残差细节分支的技术方案。

鲁棒性分析

在这里插入图片描述

由于加入噪声后部分篡改区域被成功遮蔽,在这种情况下召回率有所下降;然而F1指标则保持稳定。尽管高斯模糊与高斯噪声在某些方面表现相似性;但随着图像模糊程度的提升,F1值及查全率均呈现更为明显的下降趋势。基于此分析可知,在一定范围内的图像模糊问题上AR-NET展现出更强的鲁棒性。针对JPEG重压缩这一处理手段而言;AR-NET仍展现出令人满意的鲁棒性能水平。

与SoTA比较

在CASIAII上比较

在这里插入图片描述
在这里插入图片描述

在Coverage上比较

在这里插入图片描述
在这里插入图片描述

在CoMoFoD上比较

在这里插入图片描述

为了评估不同攻击对篡改图像性能的影响, 我们将攻击分为六类: 亮度变化 (BC), 对比度调整 (CA), 图像模糊 (IB), JPEG压缩 (JC), 颜色减少 (CR), 和噪声添加 (NA). 如图7所示, 当前最先进的方法与 AR-Net 的 F1 分数进行比较时, 仅在 CA3 实验结果表明其范围为 (0.01, 0.8) 时表现不佳; 其余情况下, AR-Net 性能稳定且最优

在这里插入图片描述
在这里插入图片描述

根据图8前五行的信息可以看出,在处理图像边界时AR-Net表现出色,在精确预测每个边界像素的位置基础上实现了对整体网络性能水平的有效提升。然而这一技术并非完美无缺,在实际应用中仍存在一些特殊情况值得深入研究:例如,在某些边缘场景下模型可能出现误判现象如图4所示这一现象的存在提示我们仍需进一步探索如何通过优化算法来减少误报的发生概率从而实现更加可靠的图像仿造检测机制

总结

本研究开发了一种基于自适应注意力机制与残差细化技术的端到端CMFD网络架构。该网络通过自适应注意力机制整合位置特性和通道尺寸特性从而使得网络能够充分提取不同尺度篡改特征的信息。此外 在像素级定位被篡改区域的同时 还实现了预测掩模的精细优化。实验结果验证了自适应注意力模块的有效性 并通过残差细化提升了模型在多个数据集上的性能 相较于现有先进的CMFD方法 在定位被篡改区域方面表现更为精确 并且在面对噪声 模糊以及JPEG压缩等常见图像处理后效问题时展现出更强的鲁棒性。值得注意的是 当前版本的AR-Net仅采用单一信息流 在信息整合方面仍有提升空间 在未来的研究工作中 我们计划进一步整合多种信息源以提升模型的整体性能

全部评论 (0)

还没有任何评论哟~