《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》论文整理
论文链接https://arxiv.org/pdf/2402.05391.pdf
目录
目录
一.摘要部分
二.介绍部分
A.动机和贡献
B.相关文献综述
C.文章架构
三.前置工作部分
A.知识图谱
B.多模态学习
C.知识图谱增强的多模态设置
D.多模态知识图谱设置
一.摘要部分
文章主要聚焦于两个主要方面的知识图谱感知研究:
- 知识图谱驱动的多模态学习
- 多模态知识图谱
首先,文章将分别提供知识图谱和多模态知识图谱的形式化定义,并探讨它们的构建过程。接着,文中详细讨论了知识图谱驱动的多模态学习在图像分类和视觉问答等任务中的应用。此外,也对多模态知识图谱的相关任务进行了阐述,如多模态知识图谱的构建和实体对齐等。最后,文章提供了这些研究任务的定义和评估基准,并概述了进行这些研究的基本见解。
二.介绍部分
文章首先提出文献[A path towards autonomous machine intelligence version]说明将知识推理和多模态感知分开考虑不是最合适的,以人类的认知记忆过程举例提供论证依据,随后将记忆分为两类:
- 第一类类似于条件反射 :这涉及到通过反复练习增强的类比推理能力,并与视觉、听觉和触觉等多模态信息相结合,从而有效地执行如视觉问答和图像描述生成等基本任务。
- 第二类被称为从主体到尾部的知识 :这类知识较为罕见,通常不会直接引发条件反射,而是需要深层次的思考。在当前的预训练模型中,获取信息时可能会遇到幻觉或不寻常知识的问题。鉴于知识图谱在长尾实体表示方面的效用,将其与多模态学习结合成为一种有价值的解决方案。
A.动机和贡献
文章动机:知识和多模态本质来说是互补的但是以往的工作要么关注于知识图谱增强的多模态工作要么关注于多模态知识图谱本身。
文章贡献:
- 梳理传统知识图谱到多模态知识图谱的推演过程
- 梳理知识图谱增强的多模态任务并进行分类
- 探讨了多模态技术对知识图谱的影响
- 探讨了大模型与多模态任务相互作用的进展
B.相关文献综述
分析了本文与之前相关领域综述的区别
- Zhu等人的文章从CV的角度探讨了多模态知识图谱及其构造的各种特征;Peng等人从语义网的角度对多模态知识图谱进行了详细的分析。文章认为这两项工作对多模态知识图谱的内外任务阐述不够全面且见解有限。
- Monka等人综述了知识图谱嵌入方法及其与高维视觉嵌入的集成,强调了知识图谱在视觉信息传递中的重要性。Lymperaiou等人的工作讨论了用知识增强多模态学习,渴望将视觉语言表征和KG领域融合在一起。然而,这些研究主要关注KG对多模态任务的单边支持,忽视了KG和多模态方法之间的双向反馈和协同进化。
- 前面四项工作最晚延伸到2022年,为了应对2022年至2023年AGI的快速发展,我们的调查探讨了MM4KG和KG4MM之间的复杂关系。
C.文章架构
- 前置工作部分 :介绍了知识图谱(KG)和多模态(MM)学习中的关键概念,并概述了KG4MM和MM4KG的设置。
- 知识图谱构建部分 :讨论了知识图谱的范围和结构,过渡到多模态知识图谱(MMKG)的演变。
- 知识图谱驱动的多模态学习部分 :深入研究各种KG4MM任务,详细说明每个任务的资源和基准在过去三年中开发的先进方法,将它们分为五个范式:理解和推理;分类;内容生成;检索;多模态预训练。(文中写了五个范式但是说分成四个范式)
- 多模态知识图谱任务部分:整理MM4KG领域内的任务,将关键任务分为四个领域:MMKG获取、融合、推理和MMKG驱动任务。还分析了KG4MM和MM4KG的当前趋势和工业应用,提供了它们对各个行业的影响的见解。
三.前置工作部分
A.知识图谱
自2007年以来,知识图谱已经成为了各个领域的关键,主要以YAGO,DBPedia和Freebase等项目为标志。2012年谷歌将知识图谱纳入搜索领域,随后各大公司也将知识图谱纳入各种领域。反映了它们在商业领域的广泛重要性和日益普及。
结构组成: 知识图谱使用图结构表示现实世界的实体和关系,其中节点表示现实世界的实体或原子值(属性),节点间的连线表示关系。知识图谱中的知识表示主要使用三元组,例如(Hangzhou, locatedAt, China)。实体类和关系类主要使用本小节后面的基于本体的模式来构建,这种半结构化的特性将结构化数据的清晰语义(来自本体论)与非结构化数据的灵活性结合在一起,允许通过新的类和关系轻松扩展。
可访问性和优势: 知识图谱主要通过查找和查询方法等操作来支持广泛的下游任务。 知识图谱检索 基于输入字符串识别相关实体或属性,利用实体和关系标签中的词法索引(表面)。例如,DBpedia在线查找服务。查询通常使用SPARQL2这种RDF查询语言来返回结果,这些查询涉及带有变量的子图模式,可生成匹配的实体、属性、文本或完整子图。知识图谱(KGs),尤其是包含OWL本体的KGs,支持符号推理,如一致性检查和描述逻辑推断,这有助于揭示隐藏的知识。KGs还通过链接不同领域的共同实体来增强域间的互联性,这不仅增强了机器的理解能力,也提高了人类的理解能力,对搜索、问答和推荐系统等应用非常有利。此外,最新研究还突出了KGs在管理长尾知识方面的关键作用[2][3][4][5]。
- 表述 :下面首先介绍被广泛接受的知识图谱及基本操作,然后从语义网的角度丰富了本体的知识图谱,最后从语义网范围外的知识图谱的解释和使用进行扩展。知识图谱的形式化定义为:G = {E, R, T },由一个实体集E、一个关系集R和一个语句集T组成。一个语句要么是关系事实三元组(h,r,t),要么是属性三元组(e, A,v)。知识图谱是由实体和关系构成的多关系图,实体通过节点表示,关系通过边连接。实体可以拥有属性,这些属性通过三元组的形式表达,指出实体具有特定的值。这些值包括字符串、日期等字面量,并且可以包含元数据,如标签和定义,这些通常通过注释属性来表示。
- 本体: 在语义网中,本体作为知识图谱模式,利用RDFS3和OWL4等语言来确保更丰富的语义和更高质量[14]。本体的主要特征包括:
* _层次类,通常称为概念_ * _指定关系中使用术语的属性_ * _包含概念和关系的层次结构_ * _约束,包括关系的领域和范围,以及阶级脱节_ * _包含关系组合的逻辑表达式_ 语言如 RDF、RDFS 和 OWL 引入了内置词汇来捕获这些知识元素,其中的谓词如 rdfs:subClassOf 表示概念的包含关系,rdf:type 表示实例与概念之间的关联。此外,RDFS 提供了注释属性如 rdfs:label 和 rdfs:comment,用于提供有关资源的元信息。
- 知识图谱范围扩展: 被广泛接受的知识图谱包括WordNet和ConceptNet,前者用于定义词汇间的相互关系,后者用于存储由不同术语连接起来的常识知识。文章中扩展了传统的知识图谱观点,超越了标准格式的实体和关系。此外,本体也被认为是知识图谱的一种形式,通常用来定义领域知识,包括概念化和词汇。Chen等人的工作进一步阐述了这一扩展的视角,本文的范围包括更简单的图结构,如具有层次类的基本分类法和具有表示实体之间相似性和距离等数量关系的加权边的图。此外,我们将任何以图形格式组织的结构化数据,并且节点具有明确的语义解释,都归类为这个更广泛的知识图谱定义的一部分。一个突出的例子是语义网络,它通过带标签的边连接各种概念,以表示不同的关系。
B.多模态学习
我们的世界是通过各种形式感知的,包括视觉、声音、运动、触觉和嗅觉[18],从这篇文章可以看出集成了多种模态数据的模型通常会积累更多的信息,从而超过单模态模型。“ 模态 ”通常是指一种特定类型的数据或信息通道,以感觉输入或表示格式为特征。多模态学习旨在通过结合来自不同感官源或数据获取方法的独特特征,如视觉、听觉和文本输入,来建立一个统一的表示或映射到输出空间。这种方法通过利用各模态间的互补性和冗余性来增强预测能力。主要挑战是有效地对齐、融合和整合这些不同模态的信息,以最大化它们的集体效益。
1)多视角学习的差异 :多视角学习与多模态学习有明显区别。多视角学习侧重于从同一数据类型的不同视角都可以独立产生准确的预测[19][20]。多模态学习涉及结合来自不同来源的多种数据类型(如文本和图像),以应对缺少任何一种模态可能会阻碍任务完成的场景[21]。因此,本文在探索多模态任务和将多模态学习应用于知识图谱时,采用了对多模态学习的这种更广泛的理解。
形式化定义2:多模态学习
假设给定的数据 \hat{x} = (x^{(1)}, \ldots, x^{(K)}) 由 K 种模态组成,每个 x^{(k)} \in X^{(k)} 代表第 k 种模态的域集合,输入空间 X = X^{(1)} \times \cdots \times X^{(K)}。让 Y 表示目标域,Z 表示潜在空间。从输入空间到潜在空间的真实映射表示为 g : X \rightarrow Z,真实任务映射表示为 q : Z \rightarrow Y。例如,在基于聚合的多模态融合中,g 作为建立在 K 个独立子网络之上的聚合函数,而 q 是一个多层神经网络。在学习任务中,数据对 (\hat{x}, y) \in X \times Y 是从未知分布 D 生成的,使得
P_D(\hat{x}, y) = P_{y|\hat{x}}(y | q \circ g(\hat{x})) P_{\hat{x}}(\hat{x})
其中 q \circ g(\hat{x}) = q(g(\hat{x})) 表示 q 和 g 的复合函数。
2)多模态设置的范围: 这篇论文主要研究涉及文本和图像数据的视觉语言任务,强调在此类研究中保持连续性和深入分析。文中专注于语言和视觉两种模态,简化输入域为语言和视觉数据的组合。
其中xl∈xl和xv∈xv分别表示来自语言和视觉域的输入数据。对于视频或生物化学等特殊模态的讨论较少,相关任务将在文中特定章节详细说明。


