Advertisement

论文阅读-DGM4-Detecting and Grounding Multi-Modal Media Manipulation

阅读量:

本文提出了一种新的研究课题——检测并定位多模态媒体篡改任务(DGM4),以应对日益严重的多模态假新闻问题。由于视觉生成模型的发展以及大型语言模型的出现,单一模态检测方法难以应对新型多模态篡改场景。本文提出了首个大规模检测并定位多模态媒体篡改的数据集(DGM4),并构建了多模态层次化篡改推理模型(HAMMER)。该模型通过融合与推理多模态语义特征,在跨模态语义不一致性上实现了对篡改样本的检测与定位。实验结果表明HAMMER在多模态篡改检测和定位任务中表现优异,并提供关于篡改单词的注意力可视化结果。此外,本文贡献了全球首个针对多模态假新闻的大规模数据集,并为后续研究提供了强有力的工具和技术方案。

一、论文信息

论文名称:Detecting and Grounding Multi-Modal Media Manipulation

作者团队:南洋理工+哈工大

Github:https://github.com/rshaojimmy/MultiModal-DeepFake

项目主页:https://rshaojimmy.github.io/Projects/MultiModal-DeepFake

论文地址:https://arxiv.org/abs/2304.02556

二、动机与创新

动机

随着视觉生成技术如Stable Diffusion等迅速发展,在图像处理方面取得了显著进展。这也导致高质量的人脸图像能够被自动合成出来,并在一定程度上模仿了真实的照片来源。与此同时,在自然语言处理领域中出现的大规模预训练语言模型(如ChatGPT)使得大量虚假文章不仅容易生成,并且可能被恶意传播以散播谣言。

为此, 一组专为对抗生成智能[AIGC]技术而设计的单模态检测模型得以开发, 旨在针对图片与文本模式下的内容仿造活动. 然而, 当前这些方法存在明显的局限性, 无法有效应对新型多模态假新闻创作所面临的挑战. 具体而言, 在多模态媒体仿造实践中, 各类新闻报道图片中的关键人物形象常遭替代表述(如图中所示, 法国总统的人脸形象被替换), 同时文章核心表述部分也容易遭受恶意篡改(如图所示,'is welcome to'这一主要表达被巧妙地转变为'is forced to resign', 从而既改变了人物身份信息, 又严重扭曲了原有的信息内涵). 这种双重操作不仅导致关键人物身份暴露, 更会直接误导受众对事件的真实认知, 最终形成可在互联网范围内广泛传播的多模态虚假报道.

创新

本文提出的DGM4与现有的图像和文本伪造检测相关任务的比较

主要贡献

该文开发了方法用于识别和定位多模态媒体篡改任务DGM4,并提供了公开的基准数据集作为研究基础。此外,该文还开发了多模态层次化篡改推理模型用于分析媒体篡改行为。

三、方法

1、检测并定位多模态媒体篡改数据集DGM4

为了推动DGM4研究的发展,在下图中展示的方法框架下

该研究涵盖了5种主要的人脸与视觉信息攻击方式:人脸替换、属性修改、文本替换以及文本属性修改。通过分析实验数据可以看出:攻击者倾向于在小尺寸区域内进行面部改动;相较于纯文本改动方式,在属性层面进行修改的效果更为显著;针对纯文本改动的研究发现其对情感强度的影响相对有限;各类攻击场景下的样本数量分布呈现出明显的差异化特征。

该数据集总共生成约23万张图像与文本配对样本,并且这些样本中包含两部分内容:其中一部分是未经修改的真实样例(总计包含77,426个原始的图像-文本配对样本),另一部分是在原有基础上经过人为干预修改后的结果(共计包含15.3万多个篡改样例)。这些被篡改的样例外在特征主要分为四类:

2、多模态层次化篡改推理模型

该研究中展示的图形展示了所提出的多模态层次化篡改推理模型 Hierarchical Multi-Modality Manipulation Reasoning Transformer (HAMMER)。本研究认为,在多模式数据中出现篡改时会导致各模式之间产生微小的语义不一致。因此通过整合与推理模块之间的语义特征分析,在发现跨模式样本中的微小语义差异时,本研究提出了一种新的解决方法来应对 DGM(4) 的问题。

针对此思路,在如图所示的基础上(或以如图所示为依据),本文提出了一种新型的多模态层次化篡改推理模型HierArchical Multi-modal Manipulation rEreasoning tRansformer (HAMMER)。该模型以构建于采用双塔结构进行多模态语义融合与推理的架构体系为基础,并通过分层式的浅层与深层篡改推理机制实现对多模态篡改信息的精确检测与定位过程

具体而言,如图3所示,HAMMER模型具有以下两个特点:

在浅层的篡改推理框架中, 采用对比学习机制(Contrastive Learning Framework for Adversarial Manipulation, CAF-AM), 以对齐来自图像编码器与文本编码器中的单模态语义特征. 此外, 进一步利用交叉注意力机制促进各单模态之间的信息交互, 并引入局部块注意力聚合机制(Patchwise Attentional Aggregation Module, PAM-Net)来精确定位被篡改的空间区域.

针对文本深度篡改推理过程而言,在多模态聚合器中部署了具备模态感知交叉注意力机制的模块。通过这种架构设计,在此基础上实现了对文本各维度语义特征的综合提取与深度关联建模。基于此框架实现了一种创新性的双层模型:一是基于序列标记技术的细粒度语义表示;二是基于联合分类方法的多层次语义识别策略。

四、实验

如图所示, 通过实验结果可以看出本文作者所提出的HAMMER方法在检测能力方面均优于其他多模态与单模态检测方法, 并能够实现对多模态信息篡改的精确识别和定位.

1、性能表现

2、可视化结果

多模态篡改检测和定位结果可视化

关于篡改文本的模型篡改检测注意力可视化

实验结果展示了多模态篡改检测与定位过程的具体可视化分析。研究者指出该算法能够有效地同时完成文本篡改检测及定位任务,并对被篡改单词处模型注意力分布进行了详细展示。此外,该算法还提供了关于被篡改单词处模型注意力分布的可视化信息。进一步研究表明,该算法通过聚焦于与篡改文本语义存在不一致性的图像区域来实现多模态的数据完整性评估。

五、总结

本研究提出了一项新的研究课题:识别和定位多模态媒体篡改工作,以应对多模态假新闻。

本研究开发了首个大型的多模态篡改数据集,并对其进行了精确的检测与定位。该数据集不仅提供了高质量的标注信息,还涵盖了多种媒体类型的篡改案例。研究团队认为这一成果将对后续多模态假新闻检测工作产生积极影响。

本研究提出了一种强大的多模态多层次的篡改推理模型作为此新课题的有效初始方案。

全部评论 (0)

还没有任何评论哟~