IMF: Interactive Multimodal Fusion Model for Link Prediction(2023 WWW)

根据图结构 中与俄亥俄州阿克伦市共同出生的斯蒂芬·库里的相似性,得出勒布朗·詹姆斯为金州勇士队打球的错误预测。
根据视觉特征, 结论是詹姆斯是一个篮球运动员。 此外,由于文本描述 中第二句中的“played”(与playsFor比第三句中的“joined”更一致),它也可能会得出詹姆斯克利为夫兰骑士队打球的错误预测。
然而,通过整合这些知识 ,在互补信息的相互作用下,很容易得到正确答案洛杉矶湖人队

Modality-Specifc Encoders(模态特定编码器)
1、结构编码器(具有TransE损失的GAT)
GAT编码器将邻居聚合表征的L1距离作为三元组的能量函数,

训练过程中,最小化损失:

2、视觉编码器
为了有效地提取视觉特征,利用在ImageNet上预训练的VGG16(一种深度卷积神经网络架构,13 层卷积层 + 3 层全连接层)来获得相应实体的图像嵌入。
具体来说,我们把softmax操作前最后一个隐藏层的输出作为视觉特征,即4096维的向量
3、文本编码器(BERT)
采用BERT作为文本编码器,它在获得相应实体的描述嵌入方面具有很强的表现力。文本特征是768维向量,即预训练的BERT-Base模型的集合输出
Multimodal Fusion(多模态融合阶段)
为此,我们提出采用双线性模型作为多模态信息融合的基石,该模型具有较强的实现全参数交互的能力。 具体来说,我们将Tucker分解扩展,将张量分解为一个矩阵随各模态变换的核心张量,分解为4模态因子,如式(3)所示:

是多模态特征融合后构造的高阶张量 (嵌入模型转化为向量或矩阵表示后通过某种融合方法(如外积操作,论文中也没说是怎么融合的/(ㄒoㄒ)/)构造的一个高阶张量。)
Pc是核心张量,Ms、Mv、Mt是不同模态下的模态因子,Md是其他特定维度下的模态因子
然后将所有模态的表示合并到具有元素积的统一空间中

,
为原始嵌入,
是不同模态下的模态因子
,
是每个模态的分解变换矩阵(这里其实没看懂是怎么得来的/(ㄒoㄒ)/)
优化嵌入的两个模块(对比学习、上下文关系模型)

多模态对比学习的例子。 同一实体不同模态表示之间的距离被最小化,而不同实体表示之间的距离被最大化。
我们的目标是限制负样本的距离大于正样本的距离,以增强多模态融合

d(·,·)为距离测度(余弦相似度),f(·)为嵌入函数。 上标+,*分别代表阳性和阴性样本。
我们对每个实体有如下对比损失函数


Contextual Relational Model(上下文关系模型)
使用实体和关系嵌入之间的双线性外积 来将上下文信息整合到实体表示中。
利用关系在实体嵌入的转换矩阵中提供上下文。 然后,使用上下文变换矩阵对实体嵌入进行投影,得到上下文嵌入,用于计算与所有候选实体的相似度(余弦相似度)。 学习目标是最小化二元交叉熵损失。

Decision Fusion(决策融合)
在多模态设置下,我们为每个模态分配不同的上下文关系模型,并利用它们自己的结果在不同的视图下进行训练。总的训练目标是最小化联合损失

是一个可学习到的权重参数。
