论文阅读【Multimodal Disentangled Domain Adaption for Social Media Event Rumor Detection】
该文本讨论了社交媒体平台上谣言检测面临的两大主要挑战:一是由于事件本身与内容纠缠在一起导致的复杂性;二是现有事件训练的模型对新发生的事件缺乏标签指导下的泛化能力。针对这些问题,提出了一种名为MDDA(多模态解纠缠域自适应)的新方法来检测新兴社交媒体事件的谣言。该方法通过多模态解纠缠表示学习(包括文本和图像的独立编码器)和无监督域自适应技术(利用对抗性神经网络实现领域漂移的鲁棒处理),能够从多媒体帖子中提取高质量的谣言特征并进行分类检测。实验结果表明,该方法在两个Twitter基准数据集上表现优异,在新事件检测中取得了更好的效果。
谣言检测存在的两大挑战
①纠缠挑战:当前主流社交媒体平台上的谣言往往与具体信息紧密相连。在同一事件中所涉及的各种谣言之间差异显著。
②领域挑战:现有的基于历史数据的传统模型对新发生的事件难以有效指导。
该任务的目标在于识别未标注数据的新颖社交媒体事件中的谣言。
结论
本研究聚焦于社交媒体平台上出现的新型谣言检测问题:针对此类事件性谣言的自动识别与分析。 本研究旨在无需标注数据的前提下实现新兴事件性话题的有效识别与分类。 为此我们提出了一个基于多模态特征的自适应学习框架——MDDA方法(Multi-Modal Decomposition and Adaptive learning framework)。 该框架由表示学习阶段与无监督领域自适应模块组成:首先在表示学习阶段将每个多媒体帖子分解为两个互补的部分:事件语义特征与谣言写作风格特征;其次通过无监督学习机制提取领域通用性特征,在保持类别间共性的同时消除类别特有的干扰因素。 通过在两个典型社交平台数据集上的大量实验验证该方法较现有方案表现出显著的优势。
初始化定义
训练D_{S}=\left \{p^i,y^i \right \}_{i=1}^{N_{S}}
我们设S为某个特定的事件;其中,N^S表示在该事件下产生的帖子总数;每个帖子p_i(其中p=1,2,...,N_S)由两部分组成:文本内容x_i和图片数据v_i;而y_i∈{0,1}表示该帖的二分类标签
实验D_{T}=\left \{p^i,y^i \right \}_{i=1}^{N_{T}}
T为要检测的新事件
N^T为此事件的帖子数量
方法
模型组成
①多模态解纠缠表示学习
删除统一事件,不用帖子的不同特征,保留分析不变内容的谣言风格特征。
②无监督领域的适应
基于对抗性神经网络构建的领域自适应模型,在分析多媒体帖子中的可迁移特征后,设计并训练了一个高效的检测器。该检测器利用谣言风格特征进行识别和分类任务。
多模态解纠缠表示学习
整体表现欠佳的原因在于每个帖子都具有独特的特征,在相互借鉴的过程中会导致训练出来的数据模型整体效果受到影响。该结构的核心功能体现在将内容与风格分离出去,并通过风格属性进行优化训练。针对文本信息与图片信息需要分别进行解耦处理以实现独立优化目标。
①文本解纠缠表示学习
变分自动生成器可被视为基础架构。
其中包含三种独特的编码模块:
第一种为普通的编码器E_{X}^{b},
其主要功能是从数据中提取潜在语义特征,
并通过概率模型捕捉文本的深层语义关系。
第二种为内容编码器E_{X}^{c},
其作用专门负责提取和表示文本的核心信息与主题内容。
第三种为风格样式编码器E_{X}^{S},
它则专注于识别和模仿谣言特有的语言风格与传播特征。
疑难杂症
①RNN、LSTM、GRU
模型结构

所提出的多模态解纠缠域自适应(MDDA)方法的说明。MDDA首先执行多模态解纠缠表示学习,将多媒体表示帖子分离为内容特征和风格特征,并删除特定于内容的特征进行训练。如果没有对内容信息的干扰,仅从风格特征中训练出来的谣言分类器就会更加精确和健壮。
然后采用基于对抗性学习 的领域自适应来处理不同事件上的风格表示分布漂移。通过这种方式,MDDA可以处理社交媒体事件的谣言检测任务,并在新出现的事件中持续表现良好。
红线 是推理管道。一旦模型被训练,目标数据可以直接输入样式编码器和标签预测器,以得到标签预测。
问题1:什么叫Down Sampling?(待完善)
降采样
问题2:什么叫Residual Blocks?(待完善)
防止梯度出现问题,可以跳过中间的,直接退回。
问题3:什么叫多层感知机?(待完善)
人工神经网络,输入层、隐藏层、输出层。
模型解读
模型同时具备对文本 和图像 的处理能力,并且最终输出二者缺一不可。
①对文本
普通编码器
具体而言,
h_n=\mathbf{E} _X^b(x;\theta_{\mathbf{E_x^b}})=GRU(x_n,h_{n-1})
表示该模块网络中的参数
\theta_{\mathbf{E}_x^b}
与输入序列
x
以及前一个时间步的状态
h_{n-1}
共同作用,
其中
h_n
代表第n个时间步的状态变量。
这一方程表明,
当前状态
h_n
是通过期望操作
\mathbf{E} _X^b
作用于输入数据
x
并结合前态信息
h_{n-1}
后得到的结果,
而这种信息处理机制由Gated Recurrent Unit(GRU)进行建模。
内容编码器
[\mu_c,\log \sigma_c^2]=\mathbf{E}_X^c(h_n;\mathbf\theta_{\mathbf{E}_x^c})=MLP_{content}(h_n)
风格编码器
[\mu_s,\log \sigma_s^2]=\mathbf{E}_X^s(h_n;\mathbf\theta_{\mathbf{E}_x^s})=MLP_{style}(h_n)
其中\mu和\sigma分别为期望和方差
抽取
分别从内容编码器和风格编码器的输出结果中提取变量。其中内容表示为x_c,
其中x_c \thicksim \mathcal{N}(\mu_c,\sigma^2_c\mathbf{I});
同时风格表示为x_s,
其中x_s \thicksim \mathcal{N}(\mu_s,\sigma^2_s\mathbf{I})。
解码层
由GRU网络构成
\hat{x}=\mathbf{D}_x(x_z;\theta_{\mathbf{D}_x})
来自x_c和x_s的输入是
生成的解码结果\hat{x}在理想情况下应与原始输入x一致
损失函数
损失函数\mathcal{L}_x被定义为四个参数的函数:生成器网络的参数\theta^b_E, \theta^c_E, \theta^s_E以及判别器网络的参数\theta_D。计算该损失函数涉及三个主要步骤:首先,在条件x_c下对x进行采样并计算其与潜在变量x_z之间的对数似然;其次,在条件x_s下重复上述过程;最后通过调节权重系数\lambda_{kl}引入两个KL散度项来平衡各部分的影响。整个过程旨在优化生成器和判别器网络以实现对目标变量x_c和x_s的有效区分和重建。
\lambda_{uk}作为平衡参数,在模型中扮演重要角色。其中,
p\left(x_{u}\right)表示未加先验的概率分布,
p\left(x_{s}\right)则表示已加先验的概率分布,
它们均遵循标准正态分布\mathcal{N}\left(0,I\right).
此外,
q_{E}\left(x_{u}|x\right)\text{和}q_{E}\left(x_{s}|x\right)\text{分别服从均值为}\mu_{u},\sigma{2}_{u}I\text{以及均值为}\mu_{s},\sigma{2}_{s}I\text{的正态分布}$.
设计辅助分类器
为了能有保证有效的编码。
构建两个辅助分类器模型用于区分真假谣言(其作用机制包括)
基于文本风格编码模块\mathbf{E}_x^s构建而成的文本风格预测系统中
该模型中的损失函数用于衡量生成器和判别器之间的性能差异。具体而言,
该损失函数定义为:
\mathcal{L}_{x_s}(\cdot) = -\mathbb{E}_{(p,y)\sim \mathcal{D}^s}\left[\, \textbf{y}\log y_x^s + (1-\textbf{y})\log(1-y_x^s) \,\right]
其中,
\textbf{y}表示真实标签,
y_x^s表示样本x在领域s上的预测概率,
\mathcal{D}^s表示领域s的数据分布,
\cdot表示输入参数。
文本风格鉴别器
y_x^c=\mathbf{P}_x^c(\mu_c;\theta_{\mathbf{P}_x^c})
该模型中的损失函数 \mathcal{L}_{x_c}(\theta_{\mathbf{E}_x^c},\theta_{\mathbf{P}_x^c})被定义为衡量模型预测结果与真实值之间差异的标准。它由两个期望项组成:当真实标签y为1时的对数似然项和当真实标签y为0时的对数似然补项。
对抗训练参数优化
②对图像
内容编码器
v_c=\mathbf{E}_v^c(v;\mathbf{\theta}_{\mathbf{E}_v^c})
风格编码器
v_s=\mathbf{E}_v^s(v;\theta_{\mathbf{E}_v^s})
解码层
重建的图片
\hat{v}=\mathbf{D}_v(v_c,v_s;\mathbf{\theta}_{\mathbf{D}_v})
损失函数
该模型中的损失函数\mathcal{L}_v旨在实现三个参数之间的平衡关系:即估计器的全局参数\mathbf{\theta}_{\mathbf{E}_v^c}、局部参数\mathbf{\theta}_{E_v^s}以及判别器参数\theta_{D_v}之间的优化协调。具体而言,在计算阶段中通过期望值运算符\mathbb{E}对范数项进行求解以实现目标
设计辅助分类器
为了确保编码具有可靠有效性而设计。
开发两个辅助分类器系统...用于信息辨别。
(旨在判断信息是否为虚假谣言)第一个图片风格预测器\mathbf{P}_v^s将输入分布的风格\mu_s的平均值,并通过差异性特性确保与该分布不一致。输出结果为真或假。
第二个是对抗性图片风格鉴别器\mathbf{P}_v^c则接收分本内容\mu_c的平均值作为输入,并无特定风格特征可循。同样输出结果为真或假。
图片风格预测器
y_v^s=P_v^s(v_s;\theta_{P_v^s})
损失函数 \mathcal{L}_{vs}(\theta_{Ev_s}, \theta_{Pv_s})被定义为-\mathbb{E}_{y=1}[\log y_v^c] - \mathbb{E}_{y=0}\log(1 - y_v^c)的形式。
针对对抗训练中的参数调节问题,在优化过程中我们旨在找到使得目标函数达到最大值的最优解θ Ev c* 和 θ Pv c*。
③模态融合
基于文本风格识别模型P_x^s以及图片风格识别模型P_v^s的基础上构建了一个融合型网络架构;该架构作为最终分类判定模块;旨在对网络信息内容是否存在虚假性进行精准识别
y_z^s=P_z^s(z;\theta_{P_z^s})
z来自于文本风格特征\mu_s和图片特征v_s
损失函数
系统地定义为\mathcal{L}_z(\theta_{{E}x^b}, \theta_{E_x^{s}}, \theta_{E_v^{s}}, \theta_{P_d^{s}})等于负的期望值……
可能把字母错写成了d而非z
域鉴别
设计一个领域鉴别模块P_z^d,在接收多模态数据z作为输入时,能够识别其归属类别是否属于\mathcal{D}^S或\mathcal{D}^T。
d_z=P^d_z(z;\theta_{P_z^d})
损失函数
生成器网络中的多个参数构成了对抗损失函数 \mathcal{L}_d(\theta) 的定义式:其由两部分组成——首先,在数据集 \mathcal{D}^S 上计算 d_z 的对数概率;其次,在数据集 \mathcal{D}^T 上计算 1-d_z 的对数概率并取负值之和。该损失函数旨在衡量生成器网络中多个参数之间的关系
最小损失的参数
\theta_{P_z^d}^*=\arg{\min{\mathcal{L}_d(\theta_{E_x^b},\theta_{E_x^s},\theta_{E_v^s},\theta_{P_z^d})}}
论文读后的疑惑
①为什么要分别给文本和图片弄预测器和鉴别器?
该预测模型能够输出预测结果。
该鉴别系统通过对抗训练去除风格特征,并仅提取文本核心信息。
②怎么多损失函数,模型到底怎么训练的?
要想明白这个问题,要从代码实现来看

我们了解了所涉及的哪些损失函数,并对网络中的参数进行了参数优化。
旧帖子训练
- a 旨在实现预测文本句子路径。
- b 对应于预测图片路径。
- c 用于构建基于两种模态对谣言判定与预言路径模型,并由其损失函数结合形成。
- d 其中一个是处理文本内容以区分真假信息(鉴别器),另一个则处理图片内容以识别虚假视觉信息(鉴别器),两者通过应用于对抗训练任务来优化性能(损失)。
- e 总体计算总损失
新帖子训练
a和b
域适应
对抗训练,为其新帖子判定做准备,输入是风格
③在解纠缠的阶段中,为什么鉴别器对抗?
我认为,在对内容与风格进行区分的过程中,可能存在尚未完全实现的情况,在这种情况下可能导致内容中仍残留着 style 痕迹,并显得不够纯粹。因此有必要进一步确认是否存在残留的 style 元素。
