Advertisement

论文笔记:Cross-modal Contrastive Learning for Multimodal Fake News Detection

阅读量:

Cross-modal Contrastive Learning for Multimodal Fake News Detection

文章下载地址:https://dl.acm.org/doi/abs/10.1145/3581783.3613850

摘要

多模态假新闻的自动检测近年来得到了广泛的关注。许多现有的方法寻求融合单峰特征来产生多模态新闻表示。然而,强大的跨模态对比学习方法在假新闻检测方面的潜力尚未得到很好的利用。此外,如何聚合来自不同模式的特征来提高决策过程的性能仍然是一个悬而未决的问题。为了解决这个问题,我们提出了一种用于多模态假新闻检测的跨模态对比学习框架,旨在实现更准确的图像-文本对齐。为了进一步捕捉视觉和语言之间的细粒度对齐,我们利用一个辅助任务来软化对比过程中负样本的损失项。建立了一个跨模态融合模块来学习跨模态关联。实现了一种带有注意引导模块的注意机制,以帮助有效地和可解释地聚合对齐的单峰表示和跨模态相关性。

1.介绍

随着推特和微博等在线社交网络(OSNs)的普及,个人可以自由地分享日常信息,表达自己的观点和情感。然而,滥用OSNs和缺乏适当的监督来验证网络帖子的可信度,导致了大量假新闻的广泛传播。因此,假新闻检测得到了广泛的关注,并成为近年来的首要任务。

现有的关于自动假新闻检测的研究主要集中在文本内容上,无论是使用传统的学习方法,如决策树分类器,还是使用深度学习方法,如卷积神经网络(CNN)。然而,社交媒体上的帖子通常包含丰富的多模态信息,基于单峰(单模态)特征的检测远远不够。图1显示了来自推特的一些例子,说明了为什么这四条新闻被认定是虚假的原因。最近的研究试图融合文本和视觉特征,产生多模态后表示,然后提高假新闻检测的性能。然而,我们认为应该适当地应用更先进的多模态表示学习,因为获得更复杂的对齐单模态表示和跨模态特征是有效的多模态假新闻检测的先决条件。此外,跨模态特征在某些情况下不一定发挥关键作用。例如,图1(a)中的文本内容非常荒谬,足以表明它是假的。与之相反,图1(d)中的跨模态信息间隙可以帮助提高分类精度。因此,来自不同模式的特征如何影响决策过程,以及我们如何使其更有效和更可解释,仍然是一个悬而未决的问题。

对比损失的目的是通过将正图像-文本对的嵌入推到在一起,同时将负图像-文本对的嵌入分开,使图像特征和文本特征对齐。它已被证明是改进单峰编码器以更好地理解图像和文本的语义意义的一个有效目标。虽然有效,但对比学习中的热门标签会惩罚所有负面预测,不管它们的正确性。因此,这种多模态假新闻检测的对比框架存在几个关键的限制: (1)假新闻中大量的图像-文本对天生不匹配(如图1d),对比目标可能与这些数据过拟合,降低模型的泛化性能;(2)不同的图像-文本对可能存在潜在的相关性(特别是在同一事件的不同多模态新闻的情况下),现有的对比目标直接将这些对视为负的,可能会混淆模型。因此,虽然这些先进的技术可以有利于多模态表示学习,但它们在多模态假新闻检测中的应用仍有待探索。
![!外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传\((https://ad.itadn.com/c/weblog/blog-img/images/2025-05-02/LRsGYirgQt9HWodJBOwkqyzP3vlA.png)

我们利用一个简单的双编码器框架来构造视觉语义水平和语言语义水平。然后,我们使用图像-文本对比(ITC)学习目标,以确保图像和文本模式之间的对齐。如上所述,用于检测多模态假新闻的对比性学习框架受到一定的约束,主要源于单热标记方法(为每个分类特征的每个可能值创建一个新的二进制特征(即“独热”特征),在分类时分为0和1,作者说的约束主要指分类结果只有0和1,没有百分比,无法充分捕捉类别间的潜在关系或顺序信息,从而在某些情况下导致有用信息的丢失 )。为了缓解这一问题,进一步提高对齐精度,我们利用一个称为跨模态一致性学习的辅助任务,引入更多的监督,引入更细粒度的语义信息。具体来说,对比学习目标确保了图像-文本对的一对一对应,一致性学习任务可以获得潜在的语义相似特征,以减轻负样本(未配对样本)的损失。然后,我们将对齐的单峰表示输入一个跨模态融合模块,以学习交叉模态的相关性。最后,我们设计了一个注意机制模块,以帮助有效地聚合对齐的单峰表示和跨模态相关性。我们引入了一个注意引导模块,通过估计文本和图像的表示分布的差异来量化它们之间的模糊性,这可以帮助指导注意机制为模式分配合理的权重。这样,COOLANT可以获得更复杂的对齐单峰表示和跨模态特征,然后有效地聚合这些特征,以提高多模态假新闻检测的性能。

本文的主要贡献如下:

  • 我们提出了一种用于多模态假新闻检测的跨模态对比学习框架,旨在实现更准确的图像-文本对齐。
  • 我们在对比过程中软化了负样本的损失项,以减轻严格的约束,从而使其更符合我们的任务。
  • 我们引入了一种带有注意引导模块的注意机制,以帮助有效地和可解释地聚合来自不同模式的特征。
  • 我们在推特和微博的两个广泛使用的数据集上进行了实验。实验结果表明,我们的模型大大优于以前的系统,并在两个数据集上取得了新的最先进的结果。

2.相关工作

2.1假新闻检测

2.1.1单模态方法

现有的单峰假新闻检测方法主要依赖于文本内容分析或帖子中的图像内容。在文本内容分析中,Qian提出了一个生成模型来提取新的模式,并通过分析用户过去有意义的反应来协助假新闻检测。TM 利用文本的词汇和语义属性来检测假新闻。此外,验证逻辑稳健性、捕捉写作风格或提取修辞结构也被广泛用于打击假新闻。对于图像内容,Jin声称在真实新闻和假新闻的图像内容传播模式中存在明显的区别特征。MVNN 联合利用空间域中的视觉特征和频域特征中的图像特征进行取证。然而,这些方法忽略了跨模态特征,如相关性和一致性.

2.1.2多模态方法

近年来,人们提出了几种基于跨模式的方法,以在假新闻检测中获得优越的性能。为了学习跨模态特征,EANN 利用了一个额外的事件鉴别器来帮助特征提取。MVAE 引入了一个多模态变量自动编码器来学习概率潜在变量模型,然后重建原始文本和低级图像特征。MCAN 叠加了多个共同注意层,以更好地融合文本和视觉特征,以检测假新闻。然而,对多模态假新闻检测的研究很少考虑最近出现的多模态表示学习范式的应用。此外,还有一些方法是基于弱模态和强模态的原理来工作的。CAFE 通过评估单模态特征分布之间的库尔-莱布勒(KL)散度来测量跨模态模糊性。然后,学习到的歧义评分在最终分类前线性地调整单模态和多模态特征的权重。LIIMR 发现了对假新闻检测更有信心的方式。在本文中,我们有效地利用了来自不同模式的特征,使决策过程更具可解释性。

2.2对比学习

近年来,对比学习在计算机视觉(CV)和自然语言处理(NLP)方面取得了巨大的成功。它也被用于视觉语言表征学习。WenLan 提出了一种双塔中国多模态预训练模型,并将MoCo 适应于跨模态场景。CLIP 和ALIGN 证明,在大量有噪声的web数据上使用对比目标预训练的双编码器模型可以学习强大的图像和文本表示,从而使模型能够零镜头转移到各种下游任务。ALBEF 采用对比损失来有效地对齐视觉和语言表征,然后采用交叉注意模型进行融合。此外,ALBEF 提出了一种基于对比相似度分布的硬负挖掘策略,BLIP 和VLMo 也同样采用了该方法。CoCa 在改进的编解码器体系结构中进行对比损失和字幕(生成)损失,广泛适用于许多类型的下游任务,并获得了一系列最先进的性能。

在本文中,我们提出了一个跨模态假新闻检测的多模态对比学习框架。特别是,我们的研究利用图像-文本对比(ITC)学习目标,通过一个直接的双编码器框架有效地对齐视觉和语言表示,从而产生一个统一的潜在嵌入空间。此外,我们利用一个辅助的跨模态一致性学习任务来测量图像和文本之间的语义相似度,然后为对比学习模块提供软目标。

3.方法论

给定图像-文本对,我们首先通过模态特定编码器(3.1)提取单峰特征。然后,我们的方法由三个主要部分组成:用于图像和文本模态之间对齐的跨模态对比学习模块(3.2)、用于学习交叉模态修正的跨模态融合模块(3.3)和带有注意机制和注意指导的跨模态聚合模块(3.4),从而提高了多模态假新闻检测的性能。
在这里插入图片描述

3.1模态特异性编码器

输入多模态news x=[𝑥𝑣,𝑥𝑡]∈D,其中𝑥𝑣,𝑥𝑡和D分别表示图像、文本和数据集。由于模态特定的编码器不是本工作的重点,我们利用预训练技术将图像𝑥𝑣 和文本𝑥𝑡分别编码为单峰嵌入𝑒𝑣和𝑒𝑡.

3.1.1视觉编码器

给定一个视觉内容𝑥𝑣,我们利用通过ImageNet数据库训练的预训练模型ResNet 来提取区域特征。最终的视觉嵌入𝑒𝑣是通过使用一个全连接层来转换ResNet捕获的区域特征得到的.

3.1.2文本编码器

为了精确地捕获语义表示和上下文化表示,我们采用BERT作为文本语言模型的核心模块。具体来说,给定一个带有一组单词的文本𝑥𝑡,每个单词都由一个预先准备好的词汇表进行标记,然后我们利用BERT来获得作为时间文本特征的聚合序列表示。最终的文本嵌入𝑒𝑡是通过一个全连接层转换时间文本特征得到的。

3.2跨模态对比学习

来自不同模态的特征可能存在巨大的语义差距,因此我们采用了更先进的多模态表示学习范式,即跨模态对比学习,通过将单模态嵌入转换为共享空间,将来自不同模态的特征对齐。具体地说,我们利用一个简单的双编码器框架,建立不同的视觉语义和语言语义水平来构建一个跨模态的对比学习模块。如上所述,对比学习中的单热标记方法会对所有的负面预测施加惩罚,而不管它们的准确性如何。因此,我们提出利用一个辅助的跨模态一致性学习任务,它可以帮助测量图像和文本之间的语义相似性。一致性学习模块可以提供语义相似度矩阵作为对比学习模块的软目标。

3.2.1 一致性学习

跨模态一致性学习是一种二元分类任务,它可以预测一对图像和文本的多模态特征是正(匹配)还是负(不匹配)。具体来说,我们首先在D的基础上构建一个新的数据集D‘=[Dpos,Dneg],如果文本和视觉嵌入来自同一条真实新闻,则文本对被标记为𝑦’=1,否则将被标记为𝑦‘=0。我们用x‘=[𝑥𝑣’,𝑥𝑡‘]∈D’提供模态特异性编码器,以获得单峰嵌入𝑒𝑣‘和𝑒𝑡’。单峰嵌入是通过特定模态的多层感知器(MLP)投影到共享语义空间,以学习共享嵌入𝑒𝑠𝑣‘和𝑒𝑠𝑡’。然后,将共享嵌入输入到一个平均池化层,然后是一个全连接层作为二值分类器。我们使用具有边缘𝑑的余弦嵌入损失作为监督:
在这里插入图片描述

其中cos(·)表示归一化余弦相似度,根据实证研究将边际𝑑设为0.2。通过反向传播的梯度,跨模态一致性学习任务可以自动学习多模态嵌入之间的共享语义空间,这有助于度量它们的语义相似性。该任务可以与对比学习任务并行学习.

3.2.2 对比学习

对于一批𝑁图像-文本对x={(𝑥𝑖𝑣,𝑥𝑖𝑡)}𝑁𝑖=1,,其中𝑖表示𝑖𝑡ℎ对,由模态特定编码器得到相同维数的归一化嵌入向量{𝑒𝑖v,𝑒𝑖𝑡}𝑁𝑖=1。图像-文本对比学习的目的是预测𝑁×𝑁可能发生的图像-文本配对。在一个训练批处理中有𝑁2−𝑁负图像-文本对。我们的对比损失是被设计来实现视觉表示和文本表示之间的对齐。具体来说,对于𝑖𝑡ℎ对,预测的视觉-文本相似性𝒑𝑖𝑣→𝑡={𝑝𝑖𝑗𝑣→𝑡}𝑁𝑗=1和文本视觉相似性

𝒑𝑖𝑡→𝑣= {𝑝𝑖𝑗 𝑡→𝑣} 𝑁 ~𝑗=1可以通过:
在这里插入图片描述

其中𝜏是一个初始为0.07初始化的可学习温度参数,函数sim(·)进行点积来衡量相似度得分。利用

𝒚𝑖𝑣→𝑡={𝑦𝑖𝑗𝑣→𝑡}𝑁𝑗=1和𝒚𝑖𝑡→𝑣={𝑦𝑖𝑗𝑡→𝑣}𝑁𝑗=1对应的单热标签向量,正对为1,负对为0,作为计算交叉熵的目标:
在这里插入图片描述

同样地,我们可以计算L𝑡→𝑣,然后得到:
在这里插入图片描述

然而,如上所述,这种硬目标可能与多模态假新闻检测并不完全兼容。为了进一步提高对齐精度,我们使用一致性学习模块构建一个更精细的语义级别作为软目标,以提供更准确的监督。

3.2.3 构建软目标

基于之前的单峰嵌入𝑒𝑣和𝑒𝑡,一致性学习模块可以将它们投射到共享的嵌入𝑒𝑠𝑣和𝑒𝑠𝑡中。对于一批𝑁图像-文本对,我们建议利用共享嵌入{(𝑒𝑠𝑣)𝑖,(𝑒𝑠𝑡)𝑖}𝑖=1𝑁来构建语义相似度矩阵作为软目标。以语义视觉与文本的相似性为例。对于𝑖𝑡ℎ对,语义视觉到文本的相似度

𝒔𝑖𝑣→𝑡={𝑠𝑖𝑗𝑣→𝑡}𝑁𝑗=1可以通过以下方法进行计算:
在这里插入图片描述

其中,𝜏为初始化为0.07。同样地,我们也可以计算语义文本到视觉的相似度𝒔𝑖𝑡→𝑣。

3.2.4 语义匹配损失

使用语义相似度𝒔𝑖𝑣→𝑡和𝒔𝑖𝑡→𝑣作为软目标来计算语义匹配损失。因此,语义匹配损失是预测的相似度与软目标之间的交叉熵,分别为:
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

交叉模态对比学习模块的最终学习目标定义为:
在这里插入图片描述

其中,𝜆控制着软目标机制的贡献。我们联合训练跨模态对比学习模块,以产生语义对齐的单峰表示𝑚𝑣和𝑚𝑡,作为跨模态融合模块和跨模态聚合模块的输入。

3.3 跨模态融合

为了捕获不同模态之间的语义交互,我们采用跨模态融合模块来学习跨模态相关性。具体来说,给定对齐的单峰表示𝑚𝑣和𝑚𝑡,我们首先通过计算单峰表示之间的关联来获得模态间的注意权重:
在这里插入图片描述

其中,𝑑𝑖𝑚表示单峰表示法的维数大小。然后,利用模态间注意权值对原始的单模态嵌入向量进行更新,得到显式的相关特征:
在这里插入图片描述

最后,我们使用一个外部产物𝑚𝑣𝑓和𝑚𝑡𝑓来定义它们的交互矩阵𝑚f:
在这里插入图片描述

⊗ 表示外积。

3.4 跨模态聚合

聚合模块的输入是通过自适应地连接两组嵌入来获得的:来自跨模态对比学习模块的对齐单模态表示𝑚𝑣和𝑚𝑡,以及来自跨模态融合模块的跨模态关联𝑚𝑓。

3.4.1注意力机制

由于不是所有的模式在决策过程中都发挥着平等的作用,我们建议在这些特征聚合之前应用一个注意机制模块来重新加权它们。受SE-Net的启发,我们采用一个注意模块对模态关系进行建模,然后自适应地对每个特征进行加权。具体来说,考虑到这三个𝐿×1的特征𝑚𝑣、𝑚𝑡和𝑚𝑓,我们首先将它们连接到一个𝐿×3特征中,其中𝐿表示特征的长度。我们采用全局平均池𝐹𝑠𝑞(·)将全局模态信息压缩到一个1×3向量中。然后,我们选择使用一个简单的门控机制𝐹𝑒𝑥(·,𝑊),具有s型激活来完全捕获模态依赖关系。注意机制模块的最终输出是通过重新调整𝐹𝑠𝑐𝑎𝑙𝑒(·,·)的𝐿×3特征来获得的,该特征将用于获得一个={𝑎𝑣,𝑎𝑡,𝑎𝑓}的注意权重。

3.4.2注意指导

然而,这种决策过程仍然处于黑盒水平,在网络设计中不能解释为什么这些权重被分配给每个模态。为了使这一过程更易于解释,我们利用变分自动编码器(VAE)对潜在变量进行建模,形成注意引导模块。具体来说,给定对齐的单峰特征𝑚𝑣和𝑚𝑡,变分后验(VAE中用于近似真实后验分布的一种方法)可以表示为:𝑞(𝑧|𝑚)=N(𝑧|𝜇(𝑚),𝜎(𝑚)),其中平均𝜇和方差𝜎可以从模态特定的编码器中得到。考虑到它在整个数据集上的分布情况:
在这里插入图片描述

当单模态特征呈现较强的模糊性时,假新闻检测器应更加注意跨模态特征,反之亦然,这是跨模态歧义学习问题。根据跨模态模糊性的定义,我们通过单模态特征分布之间的平均KL散度来测量数据样本x𝑖中不同模态的模糊性:
在这里插入图片描述

其中,𝐷𝐾𝐿(·∥·)代表KL的散度。同样地,我们可以计算𝑔𝑖𝑡→𝑣,然后得到:
在这里插入图片描述

然后我们可以得到跨模态模糊性分数g = { [1−𝑔𝑖,1−𝑔𝑖,𝑔𝑖]}𝑖𝑁=1。我们开发了另一个损失函数L𝐴𝐺,它计算来自注意机制模块和歧义得分注意力权值之间的对数差值a={𝑎𝑣,𝑎𝑡,𝑎𝑓}
在这里插入图片描述

通过最小化L𝐴𝐺,注意机制模块学习了为模态分配合理的注意分数,这意味着该模块根据不同模态的模糊性来分配每个模态。

3.4.3 分类

给定单峰表示、跨模态相关性和注意权重,最终的表示x可以通过以下方法计算:
在这里插入图片描述

其中,⊕表示连接操作。然后,我们将其输入一个完全连接的网络来预测标签:
在这里插入图片描述

我们使用交叉熵作为损失函数:
在这里插入图片描述

其中,𝑦表示真实标签。跨模态聚合模块的最终学习目标定义为:
在这里插入图片描述

其中,𝛾控制了L𝐴𝐺的比例。我们联合训练跨模态聚合模块,为每个模态分配合理的注意分数,并有效地利用来自所有模态的信息来提高多模态假新闻检测的性能。
在这里插入图片描述

4.实验

4.1 实验配置

4.1.1 数据集

我们的模型是在两个真实世界的数据集上进行评估的:推特和微博。发布Twitter数据集是为了验证媒体网站上的多媒体使用任务。在实验中,我们保持了与基准测试相同的数据分割方案。训练集包含6840条真实推文和5007条假推文,测试集包含1406篇文章。收集的微博数据集包含3749条假新闻和3783条真实新闻用于培训,1000条假新闻和996条真实新闻用于测试。在实验中,我们遵循工作中相同的步骤,删除重复的和低质量的图像,以确保整个数据集的质量。

4.1.2 基线
  • EANN [31],是一个基于gan的模型,旨在删除特定于事件的特性。
  • MVAE [19],它使用一个变分自动编码器和一个二进制分类器来学习文本和图像的共享表示。
  • MKEMN [38],它利用外部知识级别的联系来检测假新闻。
  • SAFE [39],它测量假新闻检测的跨模态相似性。
  • MCNN [34],在假新闻检测中结合了文本特征、视觉篡改特征和跨模态相似性。
  • MCAN [33],它堆叠了多个共同注意层来融合多模态特征。
  • CAFE [6],它测量跨模态模糊性,以帮助自适应地聚合单峰特征和跨模态相关性。
  • LIIMR [29],它利用内部和内部的模态关系来检测假新闻。
  • FND-CLIP [40],它使用两个预先训练过的CLIP编码器从图像和文本中提取深度表示。
  • CMC [32],通过一种新的蒸馏方法传递跨模态相关。
4.1.3 详细数据

评估指标包括准确性、精度、召回率和f1分数。我们使用64的批大小,并使用Adam 训练模型,初始学习率为0.001训练50个epochs。对比学习损失中的𝜆(Eq。7)和跨模态聚合学习损失(Eq。18)分别设置为0.2和0.5。所有代码都使用PyTorch 实现,并在NVIDIA RTX TITAN上运行。

4.2 实验结果

表1给出了在Twitter和微博数据集上的COOLANT和其他方法之间的性能比较。如表中所示,COOLANT在每个数据集上的Acc和F1-score方面均显著优于所有被比较的方法,这证明了我们所提出的模型的有效性。具体来说,COOLANT在Twitter数据集上获得了90.0%的最新的准确率,实现了6.9%的显著改进。COOLANT的准确率也达到了92.3%,获得了最先进的微博数据集,比之前的最佳数据集高出1.5%
在这里插入图片描述

4.3 消融实验

4.3.1 定量分析

为了评估建议冷却液中每个组分的有效性,我们从整个模型中删除每个组分进行比较。更具体地说,COOLANT的比较变量实现如下:

w/o ITM:我们删除一致性学习任务,只使用对比学习任务的硬目标学习对齐单峰表示;

w/o ITC:我们删除图像-文本对比学习任务,使用一致性学习任务学习对齐单峰表示;

w/o CMF:我们删除跨模态融合模块,替换为简单的连接𝑚𝑣和𝑚𝑡;

w/o ATT:我们删除了注意机制模块并直接聚合这三个特征,得到最终的特征

w/o AGU:我们删除了注意力引导模块。
在这里插入图片描述

结果:

没有ITC的COOLANT会产生最差的性能,这表明有必要获得更复杂的对齐单峰特征,以进行有效的检测。此外,我们的研究还揭示了图像-文本对比学习的目标可以促进视觉和语言表示的最优对齐,这对于提高多模态假新闻检测任务的性能至关重要

无ITM在Twitter数据集上的冷却剂性能比在微博数据集上下降更明显。如前所述,Twitter数据集中有相当数量的推文属于单个事件,因此由于单热标记方法的局限性,阻碍了对比学习框架的有效性。该结果验证了软目标可以帮助模型保持事件不变的特征,并更有效地检测与同一事件相关的新闻。此外,微博数据集的规模比推特数据集更大,这意味着语料库的规模可以在一定程度上补偿数据集的噪声,正如在对齐之前的发现中所观察到的那样。

5.结论

多模态假新闻检测任务的性能至关重要

无ITM在Twitter数据集上的冷却剂性能比在微博数据集上下降更明显。如前所述,Twitter数据集中有相当数量的推文属于单个事件,因此由于单热标记方法的局限性,阻碍了对比学习框架的有效性。该结果验证了软目标可以帮助模型保持事件不变的特征,并更有效地检测与同一事件相关的新闻。此外,微博数据集的规模比推特数据集更大,这意味着语料库的规模可以在一定程度上补偿数据集的噪声,正如在对齐之前的发现中所观察到的那样。

5.结论

在本文中,我们提出了一种新的多模态假新闻检测的跨模态对比学习框架,它使用图像-文本对比学习目标来实现更精确的图像-文本对齐。为了进一步提高对准精度,我们利用一个辅助任务来减轻损失对比过程中的负样本项。然后,我们将对齐的单峰表示输入一个跨模态融合模块,以学习交叉模态的相关性。实现了一种带有注意指导模块的注意机制,以帮助有效地和可解释地聚合来自不同模式的特征。在Twitter和微博两个数据集上的实验结果表明,COOLANT的性能大大优于以前的方法,并在两个数据集上取得了新的最先进的结果。

全部评论 (0)

还没有任何评论哟~