Advertisement

【论文笔记】A Dense U-Net with Cross-Layer Intersection for Detection and Localization of Image Forgery

阅读量:

该系统旨在实现图像篡改定位中的精确识别与有效检测,在第46届国际自适应信号处理学术会议(ICASSP)2020年会上发表,并可通过以下链接访问完整论文:https://ieeexplore.ieee.org/abstract/document/9054068

摘要

本研究将跨层交叉机制整合到密集U-Net架构中以解决图像伪造检测与定位任务。首先我们建立了一个基于DenseNet的二值分类模型用于特征提取。随后通过空间丰富模型**(SRM)滤波器对检测到的关键点位置进行残差信号捕获以增强细节信息提取能力。接着我们提出了一种完整保留全连接层特征图的方法并将这些特征作为图像分割的空间决策依据进一步优化了网络性能。此外我们创新性地引入了多尺度上采样与串联技术使得下采样路径捕捉到的特征能够更加高效地传递至上采样分支从而提升了网络的整体收敛速度和效果表现。实验验证表明在多个基准数据集上实施该方法后均取得了显著成效

引言

在本文中

提出的方法

基本组成包括:DenseNet和全卷积网络。该网络由密集卷积网络和反卷积网络构成。其中,密集卷积网络负责从图像中提取特征并进行下采样;而反卷积网络则用于恢复被压缩后的特征图尺寸。

卷积网络的结构

对于网络的主干网络(backbone),我们基本遵循DenseNet-BC的结构设计。该架构由4个密集块(DenseBlock)、3个过渡层(TransitionLayer)、一个全局平均池化操作(GlobalAveragePooling2D)以及一个全连接层(DenseLayer)构成。在预处理阶段采用了7×7大小的大卷积核进行操作,并设置了一个stride值为2的操作以减小feature map尺寸的一半。根据实验结果选择将DenseNet的增长速率设定为15,并与[5,10,20,12]相同设置瓶颈层数值以划分四个密集块区域,并从整体上使得整体网络规模得到适当缩减以适应实际需求。由于全局平均池化操作的存在使得该网络在实际应用中能够支持多尺度图像输入训练策略以提高模型鲁棒性。此外,在原始采样路径的基础上又增加了中间的一个卷积模块并采用归一化的SRM过滤器作为其内核初始化方案从而能够捕获更好的图像残差特征表现得更加稳定可靠地传递给后续模型组件用于特征提取工作。针对真伪图像分类问题我们采用了softmax交叉熵损失函数来进行模型优化过程并据此指导整个神经网络的学习过程。

在这里插入图片描述

每个下采样操作或上采样操作都可通过图中的块尺寸变化来进行观察。绘制虚线表明,在该区域被篡改时,该位置的信息已不再依赖。生成的空间特征图会被直接传递给全连接层进行特征融合处理。

反卷积网络的结构

基于对称结构的u-net架构设计了反卷积网络(表2中的"DU")。首先移除了卷积网络中的全局平均池化层以保留完整的特征映射特性。接着加入了3个反卷积过渡层以及3个密集块结构。其中过渡层采用1×1卷乘积进行特征压缩操作,并特别地在第一个过渡层充分利用了卷积网络输出端的压缩特性;随后通过反卷积操作实现了2倍的上采样效果。在密集块设计中将瓶颈层数设定为[12,6,3]序列,并随着深度递增宽度和高度逐渐减小特征厚度。为了便于理解该网络结构图1中使用彩色箭头标注了各个反卷积层之间的上采样关系。值得注意的是,在反卷积极限尺寸设置上需要特别注意其核尺寸设置应对应放大两倍以避免因下采样导致的尺寸不一致问题

借鉴[15]关于语义分割任务的研究进展,本研究引入了密集连接机制(如表2所示)。该研究过程首先由下采样路径提取不同尺寸的空间特征,然后通过串联方式将这些数据传递至上采样路径进行融合处理。经过实验发现,在掩模输出方面,并未显示出大放大率对整体性能提升的作用效果,因此在后续实验中选择使用双倍和四倍放大率作为主要参数进行优化设计。每个反卷积层接收来自浅层网络的信息,并生成15个特征图;这些特征图与其它比例信息进行有机整合以完成最终目标

基于U-Net架构的设计中,在图1所示的上采样路径右侧(见表2中的EC标识),我们引入了一个额外的关键连接点。通过对卷积网络产生的两个通道输出进行逐级放大,并将这些放大后的特征与上采样过程中的不同层级进行巧妙地整合。通过跨层级连接的方式传递空间决策信息,并充分利用了在伪造检测任务中获得的经验权重配置。具体而言,在恢复原始尺度下的特征图过程中构建了五个独立分支,这些分支共同协作以确定最终分割结果的关键信息。

经过训练后的模型最终生成两个特征图,并通过带权重的softmax分类器完成像素级别的二进制图识别任务。该设计旨在解决由于被篡改区域面积较小导致正负样本比例失衡的问题。通过大量实验研究,在保持分类精度的同时我们发现将篡改像素的比例α设定为0.6(即80%)时能够获得最佳性能表现

在这里插入图片描述

其中i是第i个类别在0和1之间的权重,yi是实际值(0或1),yi是softmax输出。

结果与分析

数据扩充

数据集:CASIA, NC2016和Columbia未压缩数据集。

为了获取规模充足的训练数据, 我们首先采用基于滑动窗口的技术生成大量高质量的数据样本. 该方法通过分析被篡改后的图像特征, 根据以下标准筛选图像块:(1)筛选出篡改区域占比低于40%的数据; (2)剔除篡改区域面积不足150像素的数据. 这种策略能够有效避免了伪造区域不合理的现象以及样本数量偏少的问题, 并有助于提升网络识别图像伪造的能力. 然后通过水平翻转和旋转样本进行处理, 进一步增强了数据集的质量. 最后不仅提升了模型对旋转变化的鲁棒性, 并且提高了整体抗干扰能力.

数据集性能

实验结果通过表1展示我们的网络在五折交叉验证中的平均性能。结果显示该网络在检测精度方面表现出色(Columbia数据集达到99.17%,而CASIA v2.0数据集则达到97.39%)。同时,在定位指标方面也表现优异。四个测试集合在像素级分类准确率、IoU以及F1分数等方面均超过了95%、46%及0.52。

在这里插入图片描述

我们提出的该方法在F1得分方面显著高于基于人工特征的手动特征方法(如表2所示)。其优势源于卷积神经网络更高效地提取特征信息以及SRM层的有效性体现在能够精准捕获残差信号的同时DenseNet通过重用中间特征实现了信息的深层整合

在这里插入图片描述

我们还与现有的其他先进深度学习方法进行了对比研究。该网络在Columbia数据集上的表现优于MFCN以及RGB-N模型,在CASIA v1.0数据集上的测试结果显示该网络的表现同样超越了MFCN以及RGB-N模型。进一步验证了我们所提出的网络在全局特征融合方面的优势明显高于其他两种结构(DC与EC)的组合方式。其中,在表2中最后三个实验项目的逐步对比分析表明,在处理目标检测任务时DC结构能够显著提升检测精度,在目标分割任务中EC结构则能有效提升分割质量

如图2所示

在这里插入图片描述

我们研究的网络架构在JPEG压缩攻击下的抗性测试结果如表3所示。实验过程中设置了三个不同的压缩质量系数:90%、70%和50%。在纵向方向上发现随着压缩强度(即质量因子)降低至最低值时(即从90降到70再到50),网络定位性能逐渐下降。这是因为图像被过度压缩后,在解码过程中重建图像时会引入较大的重建误差(即被篡改像素与原始像素之间的距离被显著缩小),这使得后续分类任务变得更加困难。为了使模型能够更好地适应真实场景中的不确定性,在训练阶段采用了一种随机分块投影策略(即横向对比分析)。该策略下模型性能退化速度较慢且更为稳定(即训练效果并未明显下降)。然而有趣的是,在未经任何额外压缩处理的传统图像基准测试集上(如CASIA v2.0和NC2016),经过这种增强式训练后的模型表现并没有带来显著提升(即F1分数略有下降)。原因在于这些数据集中的高级篡改手段可能导致样本间的簇间距较小,在进一步压缩训练数据时可能会对决策边界产生不稳定影响

在这里插入图片描述

总结

我们开发了一种基于密集连接的U-Net架构用于图像伪造检测与定位任务。相较于现有研究,在本方案中通过跨层交互机制能够系统性地揭示不同尺度特征对分割任务的整体影响。本研究通过去除非池化层的方式保留下采样过程中的关键细节信息,并结合多级上采样的特性实现了特征信息的有效传播。为了提升模型训练效率及泛化性能,在网络架构设计中我们引入了分块预训练策略,并基于完整分辨率图像进行了精细微调优化。通过在多个公开基准数据集上的全面评估实验结果表明该方法在性能指标方面具有显著优势同时展现出较强抗JPEG攻击能力

全部评论 (0)

还没有任何评论哟~