【论文笔记】Image forgery localization based on fully convolutional network with noise feature
以噪声特性全卷积网络为基础的图像伪造检测
摘要
在图像预处理环节中
通过充分挖掘噪声特征展示了篡改操作对图像的影响
从而显著提升了网络模型的泛化能力
而在全卷积神经网络架构中
采用卷积层结构而非全连接层设计实现逐像素级别的预测输出
为此我们引入了专门用于目标检测任务的设计模块——区域建议网络
这显著提升了算法整体鲁棒性性能
引言
表1总结了最近在图像取证领域的一些有代表性的工作。

主要贡献
- 采用自适应径向基函数(SRBF)与约束卷积神经网络(CCNN)结合设计预处理模块 ,能够显著地提取噪声特征从而提升网络的泛化能力。
- 在深度可分离卷积网络(FCN)中融入区域感知网络(RPN),通过聚焦于可能受到篡改的对象而不是整个图像来增强网络对抗常见后处理攻击的鲁棒性。
准备工作
全卷积网络(FCN)
该研究提出了一种基于全卷积网络(FCN)的图像伪造定位方法。作为CNN的一种变体,FCN旨在解决语义分割问题,并在像素级对图像进行分类识别。与传统CNN不同之处在于其特殊的网络架构设计:通过连接多个连续的卷积层,在最后产生的特征图上映射至固定维度的特征向量。这种设计使得FCN能够处理不同尺寸的输入图像,并通过反卷积层对最后产生的特征图进行上采样处理。最终实现每个像素的位置信息得以保留,并在此基础上完成分类预测任务
图像篡改定位本质上是一个仅包含两个类别的语义分割任务。通过将图像划分为原始像素和篡改像素,能够轻易获得篡改掩码。
空间丰富模型(SRM)
本研究采用基于小波变换(Wavelet Transform)的时间序列预测算法来实现心电信号(ECG)异常检测功能

其中c代表残差层的数量,在该区域中包含与X_ij相邻的所有像素点,并且通常情况下,在该区域中包含的像素数量等于c的数量。此外,在计算过程中我们假设从cx_ij在邻域内的预测结果得到一个改进后的估计值Xb_ij,并且该方法使得动态变化范围显著缩小,并且统计描述更加紧凑和稳健。
方法
如图1所示,在FCN的基础上构建的整体网络划分为预处理模块、改进型区域建议网络(MODIFIED REGION PROPOSAL NETWORK, RPN)以及特征提取模块。在预处理部分中结合SRM滤波器与受限卷积层来提取噪声特征,并引入公共卷积层以考虑图像内容特性。随后针对图像提取任务进行了相应的优化设计。随后对RPN进行了优化整合并将其融入FCN体系中。由于篡改区域多为物体而非背景,在常规后处理操作下不会影响物体形状及位置坐标值。鉴于RPN与FCN的目标函数存在差异性差异最终总损失函数由两者加权求和构成

预处理模块
卷积网络的第一层负责对输入图像进行预处理操作。与常规图像处理中降噪的目的不同,SRM滤波器和约束卷积能够有效提取图像中的噪声残差部分。如果未更换第一层,则可以直接利用公共卷积层来提取图像的内容特征。为了评估不同预处理方式对图像篡改分类精度的影响 ,我们进行了针对每个卷积层的对比实验分析。

根据表2的数据可以看出, 两者的性能表现基本一致, 而通过将这三个卷积层串联起来进行操作, 则能够带来了一定程度的性能提升. 因此, 我们综合运用这三种结构作为预处理阶段的基础模块. 具体来说, 本研究整合运用了三组超分辨率重建模块(SRM)、三层约束型卷积模块以及十倍增强型普通卷波器集合. 其具体表现如图2所示.

最初提出了一种SRM滤波器以解决隐写分析问题。随后开发了多种线性和非线性的空间高通滤波器用于计算图像残差,并从相邻像素的相关性中提取隐写特征。由于图像取证与隐写分析具有相似性,在图像篡改场景中也可以利用SRM滤波器提取噪声特征。研究表明,在网络性能方面,SRM特性具有积极的影响。
在使用了基本的滤波器数量为30的情况下,我们采用了标准配置,并基于文献[33]得出了能够显著抑制图像内容残差的结果。三个滤波器的具体权重参数如图3所示

将此视为预处理层中的一个卷积核,并设定尺寸参数为5×5×3。针对彩色图像输入的情况,请注意经由这三组滤光片处理后输出通道数量维持在3个不变。观察此特定设计时,请注意其权重参数固定不变——即不会因反向传播过程而发生调整变化。SRM特性能被视为一种人工设计的独特特征——它虽然存在一定的局限性——但通过动态提取并适应图像中的操作特征来实现预期效果。研究文献[1,28]中有详细说明这一方法已被成功应用于解决图像取证问题,并获得了广泛的认可——这种特性模仿了静态滤波器的行为模式——并通过限制权重参数来引导模型学习生成低级取证相关性的预测误差滤波器的具体机制。以下将详细阐述这一系列约束条件的具体实施方式:

权重参数w代表卷积核中的各个参数,在其上标ℓ的位置标识了网络特征描述符的第ℓ层特征图,在下标k的位置标识了一层内部第k个滤波器的空间位置坐标系中对应的位置坐标系中对应的位置坐标系中对应的位置坐标系中对应的位置坐标系中对应的位置坐标系中对应的位置坐标系中对应的位置坐标系中对应的位置坐标系中对应的位置坐标(0, 0)即代表滤波器矩阵的核心位置元素。在训练过程中,每次迭代都会满足特定约束条件并执行如下操作:首先使位于位置坐标(0, 0)处的权重参数取-1值;其次确保其余所有位置上的权重之和等于1。具体的约束更新过程可参考算法1

在预处理层中的一种卷积核上施加约束以设定其尺寸为5×5×3,并与SRM滤波器相似地进行设计。这种设计使其权重具有自适应特性,并可以在网络发展或训练过程中进行更新以适应不同的输入数据特征。
改进的RPN
最初提出用于快速提取目标检测框架中的边界框。相较于传统选择搜索方法,RPN借助全卷积神经网络架构,能够继承并利用整幅图像的空间特征,从而几乎免费地生成区域候选框,显著提升了边界框候选数量。同时,RPN能够识别图像中每个像素属于前景还是背景区域,其使用的损失函数定义如下:


原始RPN由两个输出层构成,其中一个是用于判断像素是否为图像背景或对象的cls层,另一个是用于校正锚框坐标的reg层。从直观上讲,在图像中对象比背景更容易受到篡改的影响;因此可以通过RPN进一步细化定位结果
因为输出中不需要proposals边框的原因是取消了reg层的设计 ,改进后的RPN系统其架构如图1所示 ,基于特征提取器输出得到特征图并经过3×3卷积处理随后进入批量归一化层并应用激活函数处理接着完成一次卷积操作后再执行上采样过程最终通过Softmax层实现分类目标 。
特征提取器
ResNet被用作主干网络。该网络分为五个主要部分,并且每个部分均包含两种类型的模块:卷积层和标识层。具体而言,在第二部分包含两个模块,在第三部分包含三个模块,在第四部分包含五个模块,在第五部分则只有两个模块。conv模块和标识模块的结构如图4所示。该网络采用stride为2的卷积层来进行下采样操作而不是max pooling运算。

与传统的ResNet相比,在激活函数的选择上采用了PReLU替代ReLUs,并且具有更好的非线性特性表现

基于带有参数α_i的设计
算法分析
泛化能力
神经网络的能力能否在所提取出的问题主要特征上展现出足够的泛化能力?
从特征提取质量的角度来看的话,则最理想的做法是找出不同篡改操作所产生的图像间的共同特征。任何图像都会有其独特的像素分布模式以及特定的空间关系结构。这些像素与其邻居之间的统计关联性可能会被更改甚至破坏。因此,在提取有效篡改特征方面取得成功的关键,则是如何在自然图像中建立内部相关模型来提取特征。目前的研究主要将篡改特征的建模视为隐写分析领域的一个重要方向。只要将隐写术中的数据嵌入视为一种典型的图像篡改行为,则隐写的特性就与传统的假想式改动具有相似性。然而,在这种情况下造成的像素值变化幅度通常会大于传统假想式改动所带来的影响。也正因为如此,在研究过程中所获得的数据嵌入相关的统计数据就可以有效地模拟真实伪造行为所带来的像素统计关联性的变化。
SRM利用公式(1)计算出多种残差,并基于这些残差对统计特性进行建模,在隐写分析领域达到了最佳性能水平。此外,在约束卷积层中通过模仿传统高通滤波器的功能,在训练阶段能够自适应地学习图像处理操作的残差特征。综合运用这两种技术,在训练阶段我们能够高效地提取特征,并显著提升网络的泛化能力。
鲁棒性
现有的深度学习方法的有效性主要取决于拥有高质量的训练数据集。当训练集中存在显著复杂噪声、异常值侵入以及类别不平衡等问题出现时,在这种情况下其有效性的保障就无法得到充分满足这正是深度学习鲁棒性问题的一个典型表现。针对图像恢复问题而言,在边界细节的变化上模糊与压缩等后处理技术往往会带来负面影响这种变化不仅会降低而且可能彻底消除恢复过程中留下的痕迹
为了增强网络的鲁棒性,在FCN中加入了RPN作为辅助网络。直观上来看,在FCN中引入了RPN后被篡改的主要区域主要是物体而不是背景。此外,在常规处理之后图像不会改变物体的形状和位置这一事实得到了验证。随后,在训练过程中系统会根据输入图像的比例设置大量候选锚点,并根据这些锚点判断哪些是带宾语的正样本以及哪些是带背景的负样本。最后,在整个网络训练过程中,RPN与FCN分别采用了不同的损失函数,其计算过程如下所示:

实验分析
统一将输入图像尺寸设置为224×224×3。预处理层由三个组件构成:首先采用SRM滤波器对输入图像进行预处理;接着应用约束卷积进行特征提取;最后使用大小为5×5×10的普通卷积进一步增强特征表达能力。该网络采用Adam优化算法在TensorFlow 2.0平台进行训练,并设定固定学习率为0.001。选择交叉熵损失函数作为目标函数,并在损失计算中引入L2正则项以提高模型泛化能力。为了评估模型性能主要基于F1分数这一指标。
性能比较
表3详细列出了CASIA 2.0数据集中的定位性能对比情况。图5呈现了我们所设计网络的实验结果。根据表3的数据分析可知,我们的方法获得了F1-score为0.631的好成绩。值得注意的是,在与MFCN相比时尽管我们的网络表现稍逊于MFCN但我们相较于传统算法仍有显著优势与现有的其他深度学习算法相比


实验结果表明,在基于深度学习的篡改定位方面取得了显著的优势与传统的篡改定位方法相比。其优势在于传统方法仅依赖手工设计的特征,并且仅适用于某一类篡改操作;而深度学习能够自动识别最为显著且具鉴别性的特征。
泛化能力评价
采用两个开放的数据集 CASIA 1.0 和 Columbia 以评估网络的泛化能力。其中 CASIA 2.0 被用作训练数据集, 而其余两个则用于测试
表4总结了各方法在各个数据集上所获得的F1分数。根据表4的数据可知,在 CASIA 1.0 数据集中我们模型达到了 F1 分数 0.593,在 Columbia 数据集中则获得了 F1 分数 0.684。与现有研究相比,在 CASIA 数据集中我们的模型性能最优;对于 Columbia 数据集而言,则接近于 Constrained R-CNN 和 RGB-N 模型,并且其 F1 得分位列第一(分别为 0.790 和 0.697),显著优于其他现有方案。

图6和图7分别显示了CASIA 1.0和Columbia上的一些可视化结果。


单独依赖噪声特征无法满足实际需求,在此情况下还需要引入辅助特性以增强网络性能表现。通过在哥伦比亚数据集上进行实验发现,在被篡改区域较为简单的场景下,“良好的噪声特性能够显著提升模型输出质量”。值得注意的是,在我们的网络架构中除了采用SRM与约束卷积模块用于提取噪声特性外,并且为了全面捕捉图像信息内容我们还增加了传统卷积层来进行辅助特性识别,“最终实验结果表明该方法能够实现较好的性能表现”。
鲁棒性评价
JPEG压缩、高斯模糊和高斯噪声。



当一张图片受到一系列典型的图像处理操作影响时,其像素间的统计特性相互关联会被打断,进而导致噪声特性的存在反而不利于准确定位篡改痕迹,此时仍需借助其他非统计特性来辅助识别。以MFCN为例,在利用边缘特性方面取得了显著成效。由于我们采用的方法能够更好地聚焦于可能被篡改的对象,从而提升了整体鲁棒性
消融实验

总结
开发了一种基于全卷积网络的图像伪造定位技术方案。通过融合SRM滤波器与受限卷积层实现了图像噪声特征的有效提取,并采用RPN对定位结果进行了平滑处理。基于ResNet的设计主干架构下构建FCN模型,在多个数据集上进行实验验证表明:该方法较传统算法及多数深度学习模型表现出更高的鲁棒性,在常见图像后处理操作中具有更强的效果表现。针对所提出的网络体系存在的不足之处发现:多目标场景下的图片难以实现精确的目标定位效果,并且存在较多 misdetection及误检情况的发生可能性较高。未来研究的重点应放在多目标场景中被篡改对象的具体识别上
