Advertisement

IMF: Interactive Multimodal Fusion Model for Link Prediction(2023 WWW)

阅读量:
80ad3206c83846409170e1f9c3caf684.png

根据图结构 中与俄亥俄州阿克伦市共同出生的斯蒂芬·库里的相似性,得出勒布朗·詹姆斯为金州勇士队打球的错误预测。

根据视觉特征, 结论是詹姆斯是一个篮球运动员。 此外,由于文本描述 中第二句中的“played”(与playsFor比第三句中的“joined”更一致),它也可能会得出詹姆斯克利为夫兰骑士队打球的错误预测。

然而,通过整合这些知识 ,在互补信息的相互作用下,很容易得到正确答案洛杉矶湖人队
dd125d9f918d423da03767200f89f05a.png

Modality-Specifc Encoders(模态特定编码器)

1、结构编码器(具有TransE损失的GAT)

GAT编码器将邻居聚合表征的L1距离作为三元组的能量函数,
1d02a9ab88f44f05ad156a5d01ec56b4.png

训练过程中,最小化损失:
6194f3af5746472e8a08a3581b771073.png

2、视觉编码器

为了有效地提取视觉特征,利用在ImageNet上预训练的VGG16(一种深度卷积神经网络架构,13 层卷积层 + 3 层全连接层)来获得相应实体的图像嵌入。
具体来说,我们把softmax操作前最后一个隐藏层的输出作为视觉特征,即4096维的向量

3、文本编码器(BERT)

采用BERT作为文本编码器,它在获得相应实体的描述嵌入方面具有很强的表现力。文本特征是768维向量,即预训练的BERT-Base模型的集合输出

Multimodal Fusion(多模态融合阶段)

为此,我们提出采用双线性模型作为多模态信息融合的基石,该模型具有较强的实现全参数交互的能力。 具体来说,我们将Tucker分解扩展,将张量分解为一个矩阵随各模态变换的核心张量,分解为4模态因子,如式(3)所示:
cdc012c1a3d9473a94cfde450df200ed.png
524297e51aae4aab8f3ef08678d2ca4a.png多模态特征融合后构造的高阶张量 (嵌入模型转化为向量或矩阵表示后通过某种融合方法(如外积操作,论文中也没说是怎么融合的/(ㄒoㄒ)/)构造的一个高阶张量。)

Pc是核心张量,Ms、Mv、Mt是不同模态下的模态因子,Md是其他特定维度下的模态因子

然后将所有模态的表示合并到具有元素积的统一空间中
68dae544367e4bc8bdc807e9a4853a50.png
4726a9cb84c74917b33d798bfe0a0a7f.png5afdfdb84c614e3787fb75a2bfa01acf.png为原始嵌入,066866733dc14dfaa7cecd74db3192b5.png是不同模态下的模态因子1f92519eaafe4766846273f95d24ea91.pngf350efe66656420f9feed3d06caf7f53.png是每个模态的分解变换矩阵(这里其实没看懂是怎么得来的/(ㄒoㄒ)/)

优化嵌入的两个模块(对比学习、上下文关系模型)
8a9d770c27624ea4aa0d582af5e914b9.png

多模态对比学习的例子。 同一实体不同模态表示之间的距离被最小化,而不同实体表示之间的距离被最大化。

我们的目标是限制负样本的距离大于正样本的距离,以增强多模态融合
cf35b727df84494fb919fb9e64efc976.png

d(·,·)为距离测度(余弦相似度),f(·)为嵌入函数。 上标+,*分别代表阳性和阴性样本。

我们对每个实体有如下对比损失函数
e3e67555de42498cb37600df950d1a7f.png
27703fc20a1d4e358d4b81e78ff298c2.png

Contextual Relational Model(上下文关系模型)

使用实体和关系嵌入之间的双线性外积 来将上下文信息整合到实体表示中。

利用关系在实体嵌入的转换矩阵中提供上下文。 然后,使用上下文变换矩阵对实体嵌入进行投影,得到上下文嵌入,用于计算与所有候选实体的相似度(余弦相似度)。 学习目标是最小化二元交叉熵损失。
48ea220a97da4a749d237e49ad473b72.png

Decision Fusion(决策融合)

在多模态设置下,我们为每个模态分配不同的上下文关系模型,并利用它们自己的结果在不同的视图下进行训练。总的训练目标是最小化联合损失
b8d0b11e7fb5409a94780084ea365dec.png
f68d080a250a42eeb96a5936bb2b1357.png是一个可学习到的权重参数。

全部评论 (0)

还没有任何评论哟~