Knowledge Graphs Meet Multi-Modal Learning:A Comprehensive Survey部分笔记
Multi-modal Knowledge Graph Completion:
实体预测确定查询(h, r, ?)或 (?, r, t) 中缺少的头/尾实体。; 关系预测识别(h, ?, t)中缺失的关系; 三元组分类评估给定三元组(h, r, t)的有效性为真或假。
方法:值得注意的是,目前大多数MKGC任务集中在实体预测,通常被称为链接预测。 主流的MKGC方法主要遵循两条路径:基于嵌入 和基于微调 的方法。
基于嵌入的方法 是从传统的KGE技术发展而来的,使其适应多模态数据,从而形成多模态实体嵌入。 它们分为模态融合 、模态集合 和负采样方法 :
(1)模态融合方法将实体的多模态嵌入与其结构嵌入相结合,用于三重似然估计。 早期的成果,如IKRL ,使用多个基于 TransE 的评分函数进行模态交互。 随后的发展,如TBKGC 、TransAE 和MKBE 进一步纳入了文本数字属性等模式。 RSME 引入了自适应模态信息选择的门。 OTKGE 为多模态融合应用了最优传输,而CMGNN 实现了具有跨模态对比学习的多模态GNN。 HRGAT 构建了一个用于多模态实体表示的超节点关系图。 CamE 为生物KGs引入了三重共同关注模块,VISITA 开发了一个基于转换器的框架,该框架利用MKGC的关系和三级多模态信息。
(2)模态集成方法使用不同的模态训练单独的模型,结合它们的输出进行最终预测。 例如,MoSE 利用结构、文本和视觉数据来训练三个 KGC 模型,并使用集成策略进行联合预测。 类似地,IMF 提出了一种交互式模型来实现模态解纠缠和纠缠以做出稳健的预测。
(3)模态感知负采样涉及生成错误三元组,以增强模型区分准确和可能错误的 KG 三元组的能力。 在 KG Embedding 训练过程中,模型在正样本和负样本的指导下将实体和关系映射到向量,其有效性依赖于负样本的策略选择和质量来平衡正负实例之间的评分。 KG 中的多模态数据通过为选择更高质量的负样本提供额外的上下文来增强传统的负三重采样,从而解决 KGC 模型训练中的关键性能瓶颈。 具体来说,MMKRL 将对抗性训练引入 MKGC,为模态嵌入添加扰动。 这开创了使用对抗性方法来增强 MKGC 模型的先河。 随后,VBKGC 和 MANS 开发了细粒度的视觉负采样,以更好地将视觉与结构嵌入对齐,以进行更细致的比较训练。 MMRNS 引入了一种关系增强负采样方法,利用可微分策略自适应地选择高质量负样本。
基于 FT 的方法 利用预先训练的 Transformer 模型,例如 BERT 和 VisualBERT ,利用它们对 MKGC 的深刻的多模态理解。 这些方法将 MMKG 三元组转换为令牌序列,并将其输入到 PLM 中。
(1)判别策略将 KGC 任务建模为分类问题,并使用 PLM 编码文本信息。KG-BERT 是该领域的先驱,它针对三重分类对 BERT 进行了微调,根据模型的正概率评估三元组的合理性。 后续方法引入了额外的任务,例如关系分类和三元组排序,或探索KGC 中的提示调整。 基于 FT 的 MKGC 方法比传统的 KGC 更强调模态融合。 其中,MKGformer 采用混合 Transformer 进行多级多模态融合,将 MKGC 视为 MLM 任务,并通过结合实体描述、关系和图像来预测屏蔽实体。SGMPT 通过添加结构数据扩展了 MKGformer 的功能 通过图结构编码器和双策略融合模块进行集成。
(2)生成模型将 KGC 框架为序列到序列任务,采用 PLM 进行文本生成。 KGLLaMA 和 KoPA 探索了 LLM 与生成式 KGC 指令调整的应用,这是 MKGC 中相对未经探索的方法,为进一步探索提供了广阔的领域。

