Advertisement

论文阅读【Multi-modal Knowledge-aware Event Memory Network for Social Media Rumor Detection】

阅读量:

摘要

谣言检测存在的问题,学习了旧事件,新事件表现不好。
提出新的多模态知识事件记忆网络(MKEMN),利用多模态知识感知网络(MKN)和事件记忆网络作为构建模块(EMN),用于社交媒体谣言检测。MKN学习社交媒体上帖子的多模态表示,从真实世界的知识图中检索外部知识来补充帖子短文本的语义表示,并将概念性知识作为额外证据来提高谣言检测。 EMN提取事件的事件不变特征并将其存储到全局存储器中。

总体框架图

MKEMN

两大模块

多模态知识感知网络(MKN)

文本编码

①词嵌入,s=[w1,w2,w3,⋯ ,wn]s=[w_1,w_2,w_3,\cdots,w_n],wi∈Rdww_i\in\mathbb{R}^{d_w}为第i个单词的向量
②捕获上下文,Bidirectional GRU
\overleftarrow{h_t}=GRU(w_t,\overleftarrow{h_{t+1}})

知识编码

原来文本语义不够强,所以需要外来补充。
知识蒸馏的三大步骤
知识蒸馏

第一,s=[w1,w2,w3,⋯ ,wn]s=[w_1,w_2,w_3,\cdots,w_n],解释每个词的意思,利用实体链接技术,关联知识图的预定义,去除原文歧义
第二,将意思缩略,获取主要信息描述,每一个实体e∈Ese\in E_s,实体的概念Ce=(ce1, ce2,⋯ ,cem)C_e=(c_e1,,c_e2,\cdots,c_e^m)
但是每一个概念描述中可能存在一些噪点,没有用的东西,所以需要这些东西的负面影响。提出概念注意来计算第i个概念ceic_e^i和单词表示hth_t间的表达。

αti=softmax(F(Wc[cei⊕ht]+bc))\alpha_ti=softmax(\mathcal{F}(W_c[c_ei\oplus h_t]+b_c))

F\mathcal{F}注意网络接受当前单词的嵌入和对应的概念作为输入,输出权值
WcW_c 是网络参数学习矩阵
αti\alpha_t^i是第i个概念到单词的注意权重
⊕\oplus是连接算子
bcb_c是偏移量

最后一个语义向量kt1k_t^1
kt=∑i=1mαticeik_t=\sum_{i=1}{m}\alpha_tic_e^i
第三,将语义向量嵌入

图片编码

调整大小224*224px
输入19层VGG网络,提取图像特征

池化层选择特征,维度512 7 7

一个图像可以被表示为
v={v∣v~∈Rdv,i=1,2,⋯ ,N}\tilde{v} = \left{\tilde{v}|\tilde{v}\in\mathbb{R}^{d_v},i=1,2,\cdots,N\right }
dvd_v=512维数
N=7*7图像区域的数量

过滤噪声,精确定位高度相关区域Rdv\mathbb{R}^{d_v}
βti=softmax(G(Wv[v⊕ht]+bv~))\beta_t^i=softmax(\mathcal{G(W_{\tilde{v}[{\tilde{v}\oplus h_t}]+b_{\tilde{v}}})})
G\mathcal{G}是注意网络
Wv~∈Rdh+dvW_{\tilde{v}}\in\mathbb{R}^{d_h+d_v}是网络训练参数
βti\beta_t^i是图像区域的注意概率
图像向量:
vt=∑iNβtiv~iv_t=\sum_iN\beta_ti\tilde{v}_i

多模态融合

W=[h1,h2,⋯ ,hn,k1,k2,⋯ ,kn,v1,n2,⋯ ,vn]W=[h_1,h_2,\cdots,h_n,k_1,k_2,\cdots,k_n,v_1,n_2,\cdots,v_n]
模态不同,不能放到一块表达

提出多通道、单词-知识-图片联合的CNN模型,来处理帖子ptp_t

每个文本句子,使用它自身的词嵌入
h1:n=[h1,h2,⋯ ,hn]h_{1:n}=[h_1,h_2,\cdots,h_n]
并且引入转变后的知识嵌入
Hk(k1:n)=[Hk(k1),Hk(k2),⋯ ,Hk(kn)]\mathcal{H}k(k{1:n})=[\mathcal{H}_k(k_1),\mathcal{H}_k(k_2),\cdots,\mathcal{H}_k(k_n)]
和变换后的图片嵌入
Hv(v1:n)=[Hv(v1),Hv(v2),⋯ ,Hv(vn)]\mathcal{H}v(v{1:n})=[\mathcal{H}_v(v_1),\mathcal{H}_v(v_2),\cdots,\mathcal{H}_v(v_n)]

Hk\mathcal{H}_k和Hv\mathcal{H}_v是转换函数,可以将知识嵌入和图片嵌入从原始空间映射到单词空间,同时保留原来的空间关系

\mathcal{H}_v(v_1)& \mathcal{H}_v(v_2) & \cdots & \mathcal{H}_v(v_n)

子矩阵Gi:i+l−1G_{i:i+l-1}相对于f被写作:
rif=I(f∗Gi:i+l+1+b)r_i^f=\mathcal{I}(f*G_{i:i+l+1}+b)
I\mathcal{I}是激活函数

使用超时间池化操作选择最大的特征
r~f=max⁡{r1f,r2f,⋯ ,rn−l+1f}\tilde{r}^f=\max \left {r_1f,r_2f,\cdots,r_{n-l+1}^f \right}

连接所有特征r~f\tilde{r}^f,作为文章的最终代表
pt=[rf1,rf2,⋯ ,r~fj]p_t=[\tilde{r}{f_1},\tilde{r}{f_2},\cdots,\tilde{r}^{f_j}],j是最终过滤器数量

问题:为什么已经投射到一个空间内,还需要激活、池化、连接?

激活
我认为是防止投射函数投射不标准,所以需要在投射完之后,将所有模态的信息统一激活一下,保证一致。
池化
池化是对于图片而言的网络操作,为什么能使用在这里?
我认为是将空间中的数据进行了切片,如果统一选择最大的数据,那么整个图片或者其他模态的数据只有一个,所以一定进行了切片,选择混合三模态中每列的最大值保留。

事件记忆网络(EMN)

主要组成:
①事件表示x
②内存M∈Rdm×KM\in\mathbb{R}^{dm \times K},是一个能够捕获训练过程中的事件主题信息的共享内存信息
dmd_m是每个潜在主题的向量维度,K是主题集群的数量。x是事件
qk=softmax(xTMk)QK=∑k=1KqkMkX=x⊕QKq_k=softmax(x^TM_k) \ Q_K=\sum_{k=1}^K q_k M_k \ X=x\oplus Q_K

首先计算事件x与每个潜在主题的相似性,softmax函数归一化,得到相似概率qkq_k
求和得到不变特征QKQ_K
得到数据增强后的X

深度神经网络

输入:记忆增强X
网络:D\mathcal{D}
输出:属于谣言的概率

z=D(X)z=\mathcal{D}(X)

损失函数:
一批事件X=[X1,X2,⋯ ,XJ]\mathcal{X}=[X_1,X_2,\cdots,X_J],对应的类别标签y=[y1,y2,⋯ ,yJ]y=[y_1,y_2,\cdots,y_J]
L=∑j=1J−[yj×log⁡(zj)+(1−yj)×log⁡(1−zj)]\mathcal{L}=\sum_{j=1}^J-[y_j \times \log(z_j)+(1-y_j)\times \log(1-z_j)]

全部评论 (0)

还没有任何评论哟~