智源-计算所虚假新闻检测大赛 | 探秘假新闻中的视觉信息

2019年8月, 北京智源人工智能研究院携手中科院计算研究所及数据评测平台bi endata, 共同推出了该领域首个具有影响力的中文多模态虚假新闻数据集, 并宣布开展评测竞赛(2019年8月至11月初), 其中总奖金为十万人民币.
比赛网址请见下方链接,或点击“阅读原文”链接。
本次比赛中, 除主要聚焦于文本信息外, 还特意强调了视觉模态在假新闻检测中的重要性. 主办方为了帮助参赛者全面掌握现有研究进展, 编写了详细综述, 主要围绕虚假新闻检测中的视觉模态应用及其具体实施方法进行了总结.

比赛链接:
https://biendata.com/competition/falsenews/
微博、微信等社交平台的发展不仅带来了便利性,还为虚假信息的滋生与传播提供了温床
与此同时
本文旨在探讨视觉模态在虚假新闻检测中的应用现状。 首先, 本文对现存虚假新闻配图的类别进行了详细分析. 随后, 从统计数据、证据收集以及语义分析三个维度阐述了有助于检测的关键特征. 并详细介绍了通过融合多种视觉模态实现MVNN的技术方法. 此外还探讨了几种多模态检测方案, 并重点阐述了如何整合视觉信息与文本信息来有效应对虚假新闻检测中的挑战问题.
问题分类
虚假新闻中的配图情况主要有以下三种: * 图片篡改或伪造: 通过恶意篡改或伪造现有图片来达到误导公众的目的。例如,在一张原本不包含普京的照片中巧妙地将普京的形象融入到图片中,并将其安置在画面中心位置上(下图所示),从而让公众误以为普京身居会议中央参与讨论。

▲ 图片篡改
- 图文不符: 图片本身是真实拍摄的这一事实经过核实后发现与文字描述存在明显差异。具体案例中显示希拉里因意外摔倒导致受伤的具体情况并未在配文中得到准确反映。其官方配文却将其误述为……

▲ 图文不符
- 图片更新延迟: 使用旧版本新闻配图作为当前新闻报道插图的做法已引起关注。例如,在MH370事件报道中出现了一张2009年纽约飞机失事的照片作为其机难搜救行动插图。这种做法存在以下问题:首先由于这些图像与事件之间存在一定的相关性 在某种程度上可能误导读者 从而影响信息传递的效果

▲ 图片过时
在实际应用中难以事先确定其配图类型归属类别。由此可见,虚假新闻检测面临的一个主要挑战在于识别具有普适性的特征集合,并开发能够处理各种场景的模型系统。
视觉特征
基于视觉模态内容的分析方法,在检测虚假新闻图片时主要依赖以下三种类型的特性:统计特性、证据特性以及语义特性的其中一类是统计特性和
研究团队[1]通过统计分析发现虚假新闻配图与真实新闻在视觉特征上有明显区别。例如,受限于图片获取渠道,虚假新闻通常是由少数几张复制粘贴而成,而真实类媒体则能够提供丰富多样的素材来源,因此其配图呈现出高度多样性。如下所示, 图(a)展示了真实类图片样本, 图(b)则为假新闻图片样本。对比之下, 真实类图片在多样性和丰富性方面均优于假新闻图片。

▲ 真实新闻事件与虚假新闻事件配图多样性的差异
除了图片多样性的考量之外,在分析新闻配图特征时还应关注配图中所包含的具体数据指标。这些指标包括配图数量及其质量分布情况,并特别关注那些包含高点击率或流行内容类型的新闻占比情况。此外,在分析过程中还需要考虑特别类型的图片占比情况(如长图、聊天截图等),这些特殊类型图片的比例往往能够反映某种特定的社会传播特征,并且在虚假新闻检测中也发挥着重要的作用 [1,2,3]:
-
视觉清晰度(Visiual Clarity Score, VCS): VCS 被用来衡量来自两个集合的图片差异,其中一个集合图片来自某一特定事件,而另一集合是训练集中所有事件的配图。通过使用 K-L 散度度量两个集合的分布差异,我们可以得出该事件的图片分布是否具有特异性。
-
视觉一致度(Visiual Coherence Score, VCoS): 通过计算图片两两之间的相似度来衡量同一事件中的图片一致性。
-
视觉相似性分布直方图(Visual Similarity Distribution Histogram, VSDH): VSDH通过将图像间的相似性转化为频率分布的方式构建数据模型,并精确地衡量同一事件中各图像的一致性程度。
- 视觉多样度(Visiual Diversity Score, VDS): VDS 用来度量事件中图像在视觉上的多样性程度。
-
视觉信息聚类度(Visiual Clustering Score, VCS): VCS 基于图像层次聚类的方法来评估新闻图片的空间分布情况;计算该事件内所有图片通过层次聚合后形成的集群数量。
取证特征
判断多媒体新闻的真实性最直接的方式是考察其视觉信息的可信程度。如果视频或图像曾被篡改、经过多重压缩处理,并且并非基于真实素材创作,则这则新闻很可能存在可靠性问题。通过分析图片是否存在篡改、多重压缩或是否为生成内容等特征,则可初步评估其可信度。**在取证特征中,则主要包括篡改特征、生成特征以及重压缩特征三种类型:
篡改检测****
假新闻制造者倾向于对其他新闻报道中出现的配图进行剪接、复制粘贴或删除等处理以制造虚假新闻配图效果。借助高超的后期处理技术使得许多读者难以准确判断图片真假。现有的图像篡改检测主要采用基于手工特征识别和深度学习特征识别两种方法:
手工特征:基于手工特征的篡改检测技术多聚焦于对篡改图像底层特性的研究。这些基础特性主要包括双层JPEG压缩留痕、单色转换阵列特性以及局部位噪特性等关键指标。其中,双层JPEG压缩留痕的技术通过建立DCT系数和量化因子的概率模型来识别篡改区域与未篡改区域在压缩程度上的差异性;单色转换阵列特性则假设篡改区域与未篡改区域来源于不同的相机,在分析不同区域滤波阵列统计特性的基础上定位出篡改范围;局部位噪特性的研究则利用隐写丰富模型(Spatial Rich Model, SRM)[4]等方法,在相邻像素噪声特性不连续性方面实现对篡改范围的有效定位。
深度学习特性:基于手工特征的传统检测方法往往仅能识别特定类别图像的篡改痕迹,在这一领域中占据着较为局限的地位。近年来随着深度学习技术的发展与应用,在通用图像篡改检测方面取得了显著进展。Cozzolino及其团队将SRM特性和卷积神经网络相结合,在此过程中进一步挖掘了局部噪声特征在图像篡改识别中的作用,并尝试将图像篡改任务抽象为异常检测问题,在这一思路下运用自编码器方法定位难以重建的区域作为篡改部位并实现了无监督式的篡改检测工作[6]。在此基础上Peng等研究者开发了一种双流图像篡改检测模型该模型通过从RGB流与噪声流中提取丰富的特征表达实现了对拼接复制粘贴以及局部去除等多种常见图像操作所带来的破坏性变化的有效识别
生成检测****
伴随着深度生成网络技术的进步, 人们能够生成极具逼真的图像与视频序列, 其中一些图像已经达到难以用肉眼分辨的真实程度, 这也给鉴别这些虚假图像带来了相当大的困难. 然而现有的生成图像已经达到近乎istinguishable的程度, 在某些特征上仍然与真实图片存在显著差异, 现有方法主要从信号层的特征来进行检测:
Co-occurrence Matrix [8]:Co-occurrence Matrix 能够描述图像空间中的一致性特性。Nataraj 等人从像素域提取图像的 RGB 三通道 Co-occurrence Matrix ,并借助卷积神经网络模型分析生成图像在 Co-occurrence Matrix 中的模式分布
Intensity Noise Histogram [9] 指出GAN生成图像在三通道光谱响应中显示出比真实图像更高的重叠程度,在RGB通道中存在显著的相关性。基于这一观察结果,Scott等人开发了一种基于Intensity Noise Histogram特征的方法来评估像素级别的统计相关性。
Saturation [9] :相机拍摄所得图像具有饱和度指标且不会出现负值。相比之下,基于GAN生成的数据通常会突破这一限制。由此可知,饱和度中极端值的分布比例可作为重要指标用于判断图像是否为生成数据。
重压缩检测 ****
在虚假新闻中常见的是经过多次压缩后的低质量配图,在这些案例中主要原因包括两个方面:一是由于图像被篡改后重新存储导致的二次压缩;二是因社交媒体多次上传和下载导致的二次压缩
由于假新闻常用篡改后的图片或过时图片作为配图内容,在这种情况下,假新闻配图通常具有更高的压缩程度。进而可通过分析图像重压缩特性来识别虚假新闻。现有研究主要关注于从图像频次域和像素层面上提取相关特征,并引用文献[10]作为依据。
改写说明
- 像素域: 多级压缩过程会在像素级别上造成图像锐度降低、呈现明显的分块现象以及增添视觉干扰等问题。通过分析这些现象的特征并进行定量评估,从而能够评估图像压缩的效果.
语义特征
为了增强读者注意力并促进信息传播效果,在媒体实践中虚假新闻配图往往会普遍具备强烈的视觉震撼力与情感诱导力(参考文献[11]及研究[12,13])。通过这一视觉元素的设计来引导观众形成特定认知倾向,并激发观众的情感反应。这种设计手法不仅能够强化受众的信息接收态度,并且其表现形式往往包含强烈的情感暗示(如图所示)。

在语义层面上而言,在描述虚假新闻配图时往往表现出显著的视觉吸引力(a)(c),并带有强烈的情感色彩(b)
该网络在提取图像语义特征方面展现出卓越的能力。在虚假新闻图片检测领域中,默认情况下采用的是 VGG 网络这一方案。传统的做法通常是直接采用预训练模型,并将分类前的最后一层特征用作图像语义表示的基础。除此之外,在基础卷积神经网络架构方面也出现了一些改进型的设计方案。其中 [17] 的研究者采用了多分支卷积神经网络结合循环神经网络的结构。
视觉特征融合方法
Qi等人[17]指出虚假新闻不仅包含被恶意篡改的照片还包含了用错误方式表现无关事件的真实图像。现有技术仅能处理单一类别的虚假新闻该系统难以全面识别所有类型的虚假新闻他们提出了一种综合分析频域和像素域特征的新方法MVNN

▲ MVNN模型图 [17]
该模型主要分为三部分:取证信息抽取、语义信息抽取与信息融合。
其中,在取证信息抽取阶段中,由于经过重压缩或篡改处理后的图像通常会在频域中表现出明显的周期性特征,因此该模型能够有效地提取出图片中的频域信息,并通过CNN网络来识别这些具有规律性的特征
在语义信息抽取模块中,本系统构建了一个多路径式的 CNN-RNN 架构以捕获虚假新闻图片所展现的不同层次语义特性具体而言CNN采用自上而下的层次化结构逐步提炼出复杂语义特征其中其视觉吸引力及具有引导性的情绪色彩与多种多层次视觉要素之间存在密切关联为此我们在这一模块中引入双向Gated Recurrent Unit(BiGRU)以有效刻画各时空域内的依存关系
3. 在信息融合模块中, 由于图片中的物理特性和语义特性在识别假新闻时相互补充, 但在不同类型的新闻中它们的作用各有侧重. 比如,在篡改后的图片中, 频域特性相较于像素域语义特性更为关键. 因此,在该模型中我们采用了注意力机制来调节各特性的重要性程度,并通过加权后的特征向量来进行假新闻识别.
多模态检测方法
一篇社交媒体新闻往往同时融合了文本与视觉元素,并通过各自的优势与相互的关系共同呈现信息内容。因此,在反假新闻检测领域中建议采用多模态检测方案来综合运用文本与视觉数据特征以准确判断新闻真实性,在现有研究中最具代表性的工作包括基于 attention 的递归神经网络 attRNN 基于增强自注意力的卷积神经网络 EANN 以及基于变分自编码器的多视图自监督模型 MVAE
注
Jin 等人 [14] 首次运用深度神经网络将多模态数据引入虚假新闻检测领域,并开发了一种带有注意力机制的循环神经网络(attRNN),用于整合文本和视觉信息以提高检测效果。

▲ attRNN模型图 [14]
该模型采用两部分分别提取不同模态的信息:其中一部分借助VGG-19网络从图像中提取语义特征;另一部分运用注意力机制从文本及社交上下文中提取关键信息。为了使VGG-19网络能够关注与事件相关的语义特征;我们将从文本及社交背景中提取的关键信息与图像的语义特征进行逐元素相乘;从而调整视觉语义信息的重要性权重。实验结果表明;该方法能够在一定程度上发现那些单一模态难以识别的虚假新闻案例。

▲ 被attRNN捕捉,但被仅使用文本的RNN忽略的虚假新闻案例
Wang 等人 [15] 开发了一种基于对抗网络架构的新型端到端学习系统。该系统的核心目标在于现有许多现有的方法都倾向于提取与具体事件高度相关的特定特征信息这些信息往往难以直接迁移到其他类型的新颖事件中从而限制了系统的泛化能力为此Wang 等人主张应促进模型提炼出具有更强泛化能力的基础性特征

▲ EANN模型图 [15]
在本模型架构中
Dhruv等人指出单纯地将文本模态特征与视觉模态特征进行拼接难以充分捕捉两者间的互动关系。因此Dhruv等人采用了编码器-解码器架构来构建多模态特征表示。在该模型中文本与视觉模态的融合特征被编码为一个中间表示通过重构损失机制确保编码后的中间表示能够还原到原始状态并利用该中间表示向量进行虚假信息检测。

▲ MVAE模型图 [16]
总结
本文深入探讨了视觉模态在虚假新闻检测中的作用及其现有研究进展。这些研究主要从统计特征、手工特征与深度学习等方法入手,并开发了一系列基于视觉模态的虚假新闻检测方案,在实际应用中均取得了显著成果。
然而当前这一问题仍面临两大主要挑战:在高质量标注下的多模态虚假新闻数据仍显稀缺状态;研究者不仅应致力于扩大数据集规模,并且还应着重探索无监督及半监督学习方法在虚假信息检测中的应用;现有研究仅依据事实真伪进行判断,并未充分考虑结果的可解释性这一缺陷导致公众对于技术的有效性存在疑虑。
比赛链接:
https://biendata.com/competition/falsenews/
参考文献
Zhiwei Jin, Juan Cao, Yongdong Zhang, Jianshe Zhou, and Qi Tian. 创新的视觉与统计图像特征用于微博新闻验证. IEEE Transactions on Multimedia, 第19卷第3期:598至608, 2017
[2] Wu Ke, Yang Song, and Kenny Q. Zhu. On sina weibo's false rumor detection using propagation structures. At the 2015 IEEE International Conference on Data Engineering, pages spanning from 651 to 662. IEEE, 2015.
[3] Fan Yang, Yang Liu, Xiaohui Yu, and Min Yang. Automatic identification of rumors on sina weibo. Appearing in the proceedings of the ACM SIGKDD Workshop on Mining Data Semantics, on page thirteen. ACM Press, 2012.
[4] Fridrich J, Kodovsky J. Advanced approaches for the hidden information extraction from digital images[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(3): 868-882.
[5] Cozzolino D, Poggi G, Verdoliva L. Blind image splicing detection system: A novel blind image insertion detector[C]. 2015 IEEE International Workshop on Information Forensics and Security (WIFS). 2015 : 1 – 6.
Domenico Cozzolino and Luigi Verdoliva. "基于自动编码器的异常检测方法用于单图像拼接定位." 该会议记录, 2016.
Investigation into image tampering detection through a research methodology utilizing a multi-task CNN (MFCN) was presented in the paper.
[8] Lakshmanan Nataraj, Tajuddin Manhar Mohammed, BS Manjunath, Shivkumar Chandrasekaran, Arjuna Flenner, Jawadul H Bappy, and Amit K Roy-Chowdhury. This study employs co-occurrence matrices to identify fake images produced by GANs. published as an arXiv preprint (arXiv:1903.06836), in 2019.
Identifying GAN-generated imagery through the analysis of color-based indicators.
Identifying Redundant Compression in JPEG Images through Pattern Recognition of Encoding Residues for Detecting Image Tampering.
Zhiwei Jin et al. conducted image credibility analysis using effective domain transferred deep networks.
Kai Shu et al. explore the detection of fake news on social media from a data mining viewpoint. Social media's fake news detection: From a data mining viewpoint. ACM SIGKDD Explorations Newsletter, 19(1):22–36, 2017.
[13] Cass R Sunstein. On rumors: A study of how falsehoods propagate and why people accept them. Farrar, Straus and Giroux, 2009.
[14] Zhiwei Jin, Juan Cao, Han Guo, Yongdong Zhang, and Jiebo Luo. Utilizing recurrent neural networks to achieve multimodal fusion for detecting rumors on microblogs platforms. appeared in the proceedings of the 2017 ACM Multimedia Conference, pages 795–816. ACM Press, 2017.
[15] Yaqing Wang, Fenglong Ma, Zhiwei Jin, Ye Yuan, Guangxu Xun, Kishlay Jha, Lu Su, and Jing Gao. Eann: Event adversarial neural networks for multi-modal fake news detection. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 849–857. ACM, 2018.
Khattar Dhruv et al. introduced MVAE as a method for detecting fake news at the 2019 World Wide Web Conference.
[17] Peng Qi et al., Extracting multi-source image data for false news identification. In the 19th IEEE International Conference on Data Mining, IEEE presented the research findings in 2019.
智源研究院后续将会有更多的竞赛和活动,请您关注研究院公众号(码名baaibjkw,请扫下方二维码),以及大赛首页(biendata.com/baai)。
?
现在,在**「知乎」** 也能找到我们了
进入知乎首页搜索**「PaperWeekly」**
点击**「关注」** 订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推送前沿人工智能论文、深入解析研究进展、分享AI最新动态以及讨论创新实践的学术平台。如若关注人工智能领域,请您关注公众号后台的「交流群」即可加入PaperWeekly 专业的交流社群。
▽ 点击 | 阅读原文 | 报名参赛
