【论文笔记】Learning Rich Features for Image Manipulation Detection(CVPR2018)
CVPR2018: Extracting Rich, High-Level Representations for the Detection of Image Manipulations
方法的提出
- 当前的篡改手段日益增多,并且越来越高明。值得注意的是,在对图片进行了篡改之后还会执行高斯平滑、压缩等后续处理步骤,这使得辨识被篡改区域变得更加困难。
- 当前的一些检测技术存在局限性较为明显:例如基于LSTM的体系结构以及结合局部噪声特征与CFA模式的方法;这些方案大多仅适用于特定类型的图像篡改。
- 与传统的语义对象检测不同的是,在图像篡改检测中我们更加关注的是所谓的"篡改伪影"而不是图片的内容本身。本文提出了一种双流的Faster R-CNN网络来学习丰富的图像篡变检测特征。实验结果表明该网络表现出对拼接、复制移动以及删除操作具有良好的鲁棒性。此外该方案还能够辅助我们对可疑的数字水印攻击类型进行分类。
- 本文还采用了基于SRM滤波器内核的方法提取低级噪声,并将其作为Faster R-CNN网络的输入特征。此外还联合训练了一个并行的RGB流模型以建模中级与高级视觉上的数字水印破坏痕迹
通过在四个标准图像处理数据集上的实验结果表明本文提出的双流框架显著地超越了现有单流方法。并展现出对该方法鲁棒性的有效性,在压缩图像以及大小变化后的图像检测方面表现突出。该方法不仅达到了当前最先进水平的能力,并且在多个关键指标上都表现出色。
先导知识
三种常见篡改类型:
- 融合(Image splicing) :将来自其他图像的特定物体融合到另一张图像中。
- 重复移动(Copy-move) :在同一幅图像内进行部分区域的内容被复制并放置于该图像的其他位置。
- 删除(Delete):在像素级别对图像的一部分进行处理以实现删除效果。

第一列为原始图像、第二列为经过特定处理后的图像、第三列为通过掩膜技术显示被篡改区域
Faster R-CNN网络
一种目标检测算法。

上图为Faster R-CNN的基本结构,由四个部分组成:
- 卷积模块(Convolutional Blocks)。该模块用于从图像中提取关键特征信息。输入是一整幅图像数据作为原始输入信号,在经过一系列卷积操作后得到一组特征图(feature maps)作为输出结果。这些基础组件通常由连续执行多次卷积激活(max pooling)操作构成。
- RPN网络(Region Proposal Networks)。该网络负责从初步计算得到的第一阶段特征图(featrues)中识别出若干候选目标框(region proposals)。
- 兴趣区域聚合层(Interest Region Pooling Layer)。该处理单元的任务是整合输入的空间特征图与当前检测到的目标边界框信息,在综合分析后筛选出与目标检测相关的聚合级特征图(feature map),将其传递给后续全连接神经网络完成目标类别分类及定位计算。
- 分类与定位系统(Classification and Localization System)。此系统根据前面各阶段检测到的目标候选项进行分类并估计其在图像空间的位置信息。
下图是python版本中的VGG16模型中的Faster R-CNN的网络结构

所提出的方法
RGB-N: 双轨的Faster R-CNN网络架构。分别由RGB stream 和 noise stream 组成。它是一种多任务模型:同时执行识别分类和边界框回归。
- RGB流: 基于RGB图像输入识别特征用于检测篡改伪像。
- 噪声流: 基于SRM图像识别噪声特征用于分析真实与篡改区域间的差异。
- 在全连接层之前采用双线性融合机制整合来自两个数据流的特征向量 从而实现对篡改行为的分类任务。
- RPN(区域候选网络)利用RGB流中的信息完成对篡改区域的定位任务。

根据图中所示,在图形中以橘色箭头所连成的就是RGB流
RGB输入流
Faster R-CNN模型实现了边界框回归与分类任务的同时也能进行类别篡改。通过ResNet 101网络从输入的RGB图像中提取特征。该模型的最后一层卷积操作负责进行类别篡改操作。
传统的目标检测框架中的RPN(区域建议网络)主要关注可能包含目标的对象区域搜索;而本文提出的RPN则聚焦于可能存在篡改操作的关键区域搜索。候选区域可能不一定是目标 ,例如,在移除篡改过程中的情况。
该模型的损失函数定义如下:
\text{损失函数} = \sum_{k=1}^{K}\lambda_k \text{损失}_k
其中与Faster R-CNN中的RPN架构设计保持一致。


噪声输入流
基于RGB通道的方法在应对多种篡改情况时存在局限性。其中,在某些经过精心后期处理的情况中(尤其是隐藏拼接边界并减少对比度差异)会对基于RGB通道的方法构成挑战)。因此我们引入了图像的局部噪声分布作为补充证据。(而噪声流则侧重于关注图像中的噪声特性而非其语义内容)
双线性池化
在应对多种篡改情况时存在局限性的是RGB通道这一技术手段。值得注意的是,在经过精细后期处理后(例如通过遮蔽拼接边界和缓解亮度差异),某些篡改图像对基于RGB通道的方法仍构成挑战
与基于RGB的颜色流不同,基于噪声的颜色流更加聚焦于图像中的噪声部分而非语义化的图像内容。通过结合基于SRM的过滤器,在处理基于RGB的颜色图像时提取局部噪声特征作为输入信号。该方法所使用的主干卷积网络架构与基于RGB的颜色流完全一致,并且两者均共享相同的区域兴趣(RoI)池化层。在进行边界框回归任务时,则仅依赖于单个RGB通道的信息。
如下图所示,在表格中依次列为:第一个区域是被篡改的图像;第二个区域是被红色方框圈出的部分放大后的图像;第三个区域是噪声图;第四个区域是ground truth(GT)。 在第二列中发现棒球员身体边缘具有异常高的对比度这一特征提供了明确的证据表明存在篡改现象 而在第三行中的建筑结构清晰可见 相比之下 在第二行中的房屋难以仅凭视觉直接判断是否存在篡改痕迹 然而 在第三行中的建筑结构清晰可见 这表明了不同场景下视觉信息与噪声特征共同作用于反forensic攻击检测机制

通过双线性池化技术将RGB流与噪声流进行融合处理以实现篡改检测。经过全连接层和softmax层的计算后得出了RoI区域对应的预测类别。交叉熵损失函数被应用于篡改样本的分类任务而smooth L1损失函数则用于优化边界框的位置坐标。总损失函数为:L = L_{\text{cls}} + L_{\text{bbox}}

其中总损失由L-total表示,在RPN网络中计算出相应的RPN损失值为L-RPN,在交叉熵分类任务中通过L-tamper量化其分类误差,在边界框回归任务中则利用了L-bbox来评估预测框与真实框之间的差异程度。在提取图像RGB通道特征的基础上融合了噪声流信息后得到f-RGB RoI特征,在结合f-NRoI特征后计算得到各子任务对应的误差项之和构成了总损失函数J
实验部分
我们在四个标准化图像处理基准数据集上展示了该双流网络模型,并通过实验结果与其当前最先进的同向模型进行了对比分析。此外,在评估过程中我们还对比了多种不同的数据增强策略,并评估了该模型在尺寸调整以及JPEG压缩过程中的鲁棒性表现。
预训练模型
因为缺乏足够的训练数据,在实验阶段初期我们选择了生成的数据集来进行预训练步骤
- 基于COCO数据集自动生成合成数据集
- 使用分割标注从COCO中随机选取objects并粘贴到其他图像中
分开训练集与测试集分别占90%与10% - 在训练过程中将默认边界框扩展了约20像素
这种调整有助于RGB流与噪声流识别篡改区域与真实区域之间的差异 - 模型输出带有置信度评分的边界框表示检测到的区域是否已被篡改
我们采用平均精度(AP)作为评估指标
在Faster R-CNN中使用的ResNet-101模型在ImageNet上经过预训练
为什么只选用RGB特征作为RPN的输入?
本文作者为何选择将RGB特征作为RPN的输入?
这一选择基于实验对比得出。
本文作者进行了单通道网络与采用多通道不同输入设计出双通道网络,在检测篡改区域效果上的对比实验。
具体结果可见下表。
这些测试结果显示,在所有对比中,
不仅表现更为突出的是多通道模型,
而且表现最为优异的是仅使用RGB特性的模型。

RGB Net:仅使用RGB流检测篡改区域
Noise Net:仅使用噪声流
RGB-N noise RPN:双流,但采用噪声特征作为RPN输入
Noise+RGB RPN:双流,同时采用噪声和RGB特征作为RPN输入
RGB-N:双流,仅采用RGB特征作为RPN输入(本文采用的方法)
在标准数据集上的实验
数据集
NIST16 :该数据集包含了之前提到的三种图像篡改类型, 对该数据集中的操作进行后处理以隐藏可见痕迹。它们还提供用于评估的真实值篡改掩模。
CASIA :提供各种对象的拼接和复制移动图像。仔细选择被篡改的区域,并应用一些后期处理,例如滤波和模糊处理。通过对篡改图像和原始图像之间的差异进行阈值处理来获得真实值掩模。我们使用CASIA 2.0进行训练,并使用CASIA 1.0进行测试。
COVER :是一个相对较小的数据集,专注于复制移动。它覆盖了与粘贴区域相似的对象,以隐藏篡改伪影,并提供真实值掩模。
Columbia数据集 :侧重于基于未压缩图像的拼接。提供真实值掩模。
评价指标
F1分数和AUC,与基线模型(ELA、NOI1、CFA1、MFCN、J-LSTM)做对比。
实验结果
表3列出了本文方法与基准模型在F1分数上的对比结果;表4展示了AUC值的对比情况。观察结果显示,在所有测试用例上,本文方法均显著优于传统方法;同时,在双流场景下的性能表现也明显超越了各自单一流的表现

数据增强技术:我们对不同数据增强方法进行了详细对比分析,在未经任何增强处理的基础之上对每种方法的效果进行了评估。研究表明,在图像翻转操作后能够显著提升模型性能,在此基础之上应用JPEG压缩及添加噪声等其他常见图像增强手段并未带来明显效果提升。
通过表格对比可以看出,在引入JPEG压缩及添加噪声的前两步中未见显著效果提升的情况下进一步测试发现,在引入JPEG压缩及添加噪声的前两步中未见显著效果提升的情况下进一步测试发现,在引入JPEG压缩及添加噪声的第一、二步处理中也未见明显效果提升。

本研究针对JPEG图像压缩过程中可能存在的稳定性问题进行了深入分析,并通过大量实验验证了所提出算法的有效性。不仅与现有研究中提出的三种相关技术进行了对比实验,并通过F1分数等指标进行评估。本研究提出的方法在对抗此类攻击方面表现出更强的优势。

篡改技术检测
通过实验测试了当前方法在三种篡改类型上面的性能,如下表。

可以看出主要体现在拼接检测效果最为突出这一特点上这是因为拼接过程中很可能同时引入RGB伪影以及噪声伪影(比如不自然的边缘对比度差异等)。而在去除方面的表现受到复制移动的影响由于去除过程后的修补会对原有的噪声特征造成较大破坏从而影响其整体效果相比而言在复制移动性能方面存在明显不足
- 因为复制的区域来自同一张图像的原因是它们表现出相似的噪声分布,并导致我们的噪声流呈现出混乱的状态。
- 两者在对比度上保持一致。
- 该技术在理想情况下应能将两个对象进行互相比较(即,在此过程中它需要同时查找并比较两个RoI),但目前的方法无法实现这一目标。
定性结果
对于COVER数据集而言,在复制移动包时会干扰RGB网络与噪声网络之间的性能表现。经过实验验证,在这种情况下提出了改进型RGB-N架构(即RGB与噪声网络结合体),其能够通过整合两个信号流动中的关键特征实现超越性的检测效果。
在哥伦比亚数据集测试中发现,在相同的输入条件下,在相同输入分辨率下对比度调整后的视觉效果(即对比度增强后的视觉效果)输出了更为精准的结果。
在CASIA1.0数据集测试中发现,在相同的输入条件下,在相同输入分辨率下对比度增强后的视觉效果(即对比度增强后的视觉效果)不仅保留了原始信号中的重要特征信息,在保留这些特征的同时还引入了一定的数据增强操作(即引入了特定的数据增强操作),从而能够更加准确地进行了双重验证。
从实验结果来看,在单个数据源出现故障的情况下(即一个子流出现故障的情况下),基于两路信号融合的方法依然能够展现出令人满意的性能表现(即两路信号融合的方法依然能够展现出令人满意的性能表现)。

该图表展示了RGB-N网络在对抗NIST16破坏技术检测任务中的表现。从图表中可以看出,在面对多种攻击手段时,我们的网络都能实现精准的检测效果。

总结
本研究开发了一种创新性网络架构,在同时处理RGB视觉信息与去噪信息方面展现出独特优势
