Advertisement

BMR:基于Boostrapping多视图的虚假新闻检测

阅读量:

一、概述

文章提出了三种视图信息来表示一篇新闻:文本、图像结构、图像语义。然后设计了改进的多门混合专家系统(iMMoE)来进行信息融合。保留单模态信息来保证特征对新闻的保真性,增加的多模态信息能保证不同模态的一致性,从而提高整体模型的识别能力。

二、原理

如文章标题所写,文章有两个关键点“Boostrapping”(中文直译为:自举)和“多视图”,其中,多视图指的是新闻的照片和文字两种模态所组成的4种特征 ,分别为单视图的图片结构特征(IP)、单视图的图片语义特征(IS)、单视图的文本特征(T)、将图片语义特征与文本特征结合的融合特征(CC)。

然后自举实际上是一种集成学习的方法,一个专家系统(MoE),而文章对原来的专家系统技术进行了改进,加入了门结构 后能够更好地控制专家们的输出,而且可以设计多套门结构来获取多个输出。文章将其命名为Improved MMoE(即iMMoE)。

三、模型架构

文章总体的模型架构如上图所展示,接下来我们从左到右、从上到下,来看其框架。

1.Multi-view Feature Extraction

Bayar Conv块 是一种图形预处理方法,其能帮助后面的编码块(Image Pattern Analyzer)更关注图像的结构特征,忽视语义特征;DA块指的是数据增强模块 ,其对图片进行翻转、颜色变换来获得新的图片,从而让后面的编码块(Image Semantic Analyzer)更关注图片的语义信息。

然后三个分析块(编码块)都是使用别人训练好的模型来对前面的数据进行编码,训练过程不调参。IP编码块使用预训练好的InceptionNet-V3 来提取图像结构信息;IS编码块使用Masked Autoencoder ,是一种先mask某些像素再预测该像素的预训练模型;T编码块使用Bert模型。

2.Refinement & Fusion

之后来到第三列,Projuction Head是直接对前面InceptionNet-V3的输出层进行修改,将其改成全连接层,使其输出e_{ip}的大小与r_{is}相等,由于iMMoE输出也保持输入的大小,所以e_{ip}e^{0}_{is}也是一样大小。

Improved MMoE是文章的主要贡献,其具体结构如下图所示,基础的MMoE是没有Token Attention这个模块的,然后每个专家的权重在MMoE中是用softmax再计算一次的,这里舍弃掉了softmax,直接用token attention来算该权重。

通过公式可明显看出区别:公式1是MMoE的输出结果,公式2是iMMoE的输出结果。其中k表示下游任务数量,上图中有AB两个任务输出,故k=2。G是控制各个专家权重的参数,使用MLP(x)使得权重更加合理化,因为MLP这里计算的是每个词的重要性,且设计了同一个下游任务的MLP的参数是相同的,用专家的结果是否匹配MLP的结果,再来决定专家的权重。

又因为softmax导致每个专家都给予的正值的贡献,文章作者认为负值也有其必要性,所以舍弃了softmax。

3.Disentangling & Reweighing

这个步骤是需要从前面的浅层特征提取出深层特征。但实际上,就是各种全连接层(或者叫MLP,多层感知机),首先,single-view prediction块是一个多层感知机,然后F()函数是另一套参数的多层感知机,所以主要的输出结果S_{ip}w_{ip}的计算公式如下:(可以对照着框架来看其含义)

对于融合特征,文章做出了不同的设计,主要目标是解决特征融合后的一致性是否得到满足。 对于Consistency Learning块,文章没写明其具体是什么结构模型,但猜测应该也是多层感知机,只是对于其训练,作者设计了一整套新的训练任务让其去学习参数:

其用原本的数据集,去构建一个新的“合成新闻”:实际上就是用A新闻的图片加上B新闻的文字去合成新的新闻,让整个BMR模型去识别新闻是否合成,这时BMR模型只输出S_{m}这个向量,通过S_{m}去识别新闻是否合成。

这个过程在其算法描述中,写明了其用一个参数train_consist来调节模型的训练模式 (红色框部分,蓝色框为正常训练过程):

文章对S_{m}这个参数,又认为其不足以表达融合效果,使用了一个可训练的向量e_{x}来修正它,实际上,可以把他看成是对S_{m}里面的元素设置一个权重,其最后w_{x}的计算公式如下:
w_{x}=e_{x}dot F_{m}

自此,我们获得了5个特征,分别为:单模态的图片结构信息w_{ip}、单模态的图片语义信息w_{is},图片语义-文本模态的融合信息w_{m},图片语义-文本模态一致性对齐的融合信息w_{x},单模态的文本信息w_{t}。5者进行拼接,进行最后的检测模块。

4.Bootstrapping

集成学习由诞生以来,就是分类任务中,效率最高,正确率最好的一种学习策略。这里使用iMMoE与前面使用的iMMoE是一样的,只是参数不一样而已。再通过一个全连接层得到最后的结果。

在计算损失函数上,其将单模态的计算损失也加在最后的损失中,公式如下:

四、实验结果与分析

实验结果如下,可见BMR并没有全面达到最强,差距也没有拉得太开。

但在信息挖掘、模型参数、训练速度上,BMR做出了比较好得表现:首先,虽然CAFE有着最小的参数量(FLOPs这里作者可能搞错了,FLOPS,全大写是用于描述计算速度,FLOPs,s小写用于描述模型计算量和模型复杂度,显然作者好像搞混了)但其挖掘的数据信息并不好,混在了一起,而BMR在较小参数下,信息挖掘做得更好,说明了模型优势所在。

五、总结

本文的模型可能受限于专家系统和整体框架过于简单(几乎全是多层感知机的处理),导致性能并没有达到很高,但其在参数量上和信息挖掘能力上表现得很好。要是更换别的模型,套用这套训练方法,可能能做的更好。

全部评论 (0)

还没有任何评论哟~