Advertisement

《A Survey on Knowledge Graphs: Representation, Acquisition, and Applications》

阅读量:

初步浏览

1.1 标题与摘要

标题: A Survey on Knowledge Graphs: Representation, Acquisition, and Applications

  • 研究问题

    • 这篇论文综述了知识图谱(Knowledge Graph,KG)的研究进展,涵盖了知识图谱的表示学习、知识获取与补全、时间知识图谱,以及知识驱动的应用。
    • 目标是提供一个全面的视角,帮助研究者理解该领域的现状和未来方向。
  • 主要贡献:

    • 提出了知识图谱研究的全景分类和新的细化分类方法。
    • 综述了主要方法,包括知识图谱嵌入、路径推理、逻辑规则推理等。
    • 提供了数据集和开源工具的整理,并展望了未来研究方向。

作者

  • Shaoxiong Ji(Aalto University, Finland)
  • Shirui Pan(Monash University, Australia)
  • Erik Cambria(Nanyang Technological University, Singapore)
  • Pekka Marttinen(Aalto University, Finland)
  • Philip S. Yu(University of Illinois at Chicago, USA)

机构: 作者分别来自知名大学,尤其是Philip S. Yu是知识图谱领域的权威专家。

发表信息

  • 期刊: IEEE Transactions on Neural Networks and Learning Systems(TNNLS)。

结构化阅读

引言

  • 研究背景

    • 知识图谱是一种结构化的人类知识表示方式,广泛应用于认知和人工智能系统中。
    • 它通过实体和关系的结构化表示,支持复杂任务的推理和语义理解。
  • 研究目标

    • 提供对知识图谱研究的全面综述,涵盖表示学习、知识获取、时间知识图谱和知识驱动应用。
  • 研究空白

    • 现有综述多集中于单一方面(如嵌入或推理),缺乏全景式的分类和整合。
    • 新兴方向(如时间知识图谱和元关系学习)尚未被系统总结。

文献综述

  • 关键研究:统计关系学习(Statistical Relational Learning)[4]、知识图谱嵌入综述[5] 等。
  • 与本文的区别:
    • 本文不仅提供了更细化的分类,还涵盖了时间知识图谱和知识驱动应用等新兴领域。
    • 提出了新的分类框架,将研究分为四个主要领域。

方法

  • 研究方法

    • 采用综述方法,系统整理了知识图谱的相关研究,提出了新的分类方法。
    • 将知识图谱表示学习分为四个维度:表示空间、评分函数、编码模型和辅助信息。
  • 技术细节

    • 表示空间包括欧几里得空间、复数空间、高斯分布等。
    • 评分函数分为基于距离的翻译模型(如TransE)和基于语义匹配的模型(如ComplEx)。
    • 编码模型涵盖线性/双线性模型、因式分解模型和神经网络模型。

结果 (Results)

  • 主要发现:

    • 知识图谱嵌入方法在表示学习和推理任务中表现出色,但在复杂推理(如逻辑规则和多跳推理)上仍有局限。
    • 时间知识图谱和元关系学习是未来的重要研究方向。
  • 数据支持:提供了大量数据集和开源工具的整理,包括知识图谱嵌入的开源实现和基准数据集。

讨论与结论 (Discussion & Conclusion)

  • 结果解释:知识图谱研究的核心在于如何构建高效、可扩展的表示模型,并结合符号推理和深度学习方法。
  • 局限性:当前方法在大规模知识图谱上的可扩展性和实时性较差。
  • 未来方向:复杂推理、统一框架、可解释性、动态知识图谱等。

深入分析与批判性思考

创新性与贡献

  • 创新点

    • 提出了知识图谱研究的全景分类框架。
    • 系统总结了时间知识图谱和元关系学习等新兴方向。
  • 学术与实际影响

    • 为研究者提供了全面的参考,指导未来研究。
    • 对实际应用(如推荐系统和问答系统)有直接推动作用。

批判性评价

  • 合理性

    • 方法分类清晰,覆盖全面。
    • 但部分新兴领域(如元关系学习)讨论较浅。
  • 普适性:结果适用于大多数知识图谱研究,但对特定领域(如医学知识图谱)可能需要进一步验证。

  • 结论支持性:数据和文献支持充分,但对某些未来方向的预测缺乏实证依据。

论文阅读

摘要

人类知识提供了对世界的形式化理解。知识图谱通过表示实体之间的结构关系,已成为朝向认知和人类级智能的重要研究方向。在本综述中,我们对知识图谱的研究进行了全面回顾,涵盖以下主要研究主题:

复制代码
1. 知识图谱表示学习;

2. 知识获取与补全;

3. 时间知识图谱;

4. 知识感知应用

总结了近期的研究突破和未来研究的前景方向,以促进后续研究的发展。我们提出了一个全景式的分类方法和针对这些主题的新分类体系。知识图谱嵌入从表示空间、评分函数、编码模型和辅助信息四个方面进行了梳理。在知识获取领域,特别是知识图谱补全方面,我们回顾了嵌入方法、路径推理和逻辑规则推理。此外,我们还探讨了几个新兴主题,包括元关系学习、常识推理和时间知识图谱。为了促进知识图谱领域的未来研究,我们还提供了针对不同任务的精选数据集和开源库。在最后,我们对几个有前景的研究方向进行了深入展望。

NOMENCLATURE(术语表)
G表示知识图谱(Knowledge graph)

  • 知识图谱是由实体和实体之间的关系构成的结构化图。

F: 表示事实集合(Set of facts)

  • 事实集合通常包含知识图谱中的所有三元组(head, relation, tail)。

(h ,r, t)表示三元组(Triple of head, relation, and tail)

  • 这是知识图谱的基本单元,表示一个实体 ,其中实体h(头实体)通过关系r与另一个实体(尾实体)相连。

**(h ,r, t)**表示三元组的嵌入(Embedding of head, relation, and tail)

  • 这是知识图谱中对实体和关系进行向量化表示的结果,通常用于深度学习模型中。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

介绍

将人类知识融入人工智能(AI)是其研究方向之一。知识表示与推理受人类问题解决方式的启发,旨在为智能系统表示知识,从而使其具备解决复杂任务的能力 [1], [2]。近年来,作为一种结构化人类知识形式的知识图谱(Knowledge Graph)吸引了学术界和工业界的广泛关注 [3]-[6]。知识图谱是一种由事实组成的结构化表示,包括实体、关系和语义描述。实体可以是现实世界的对象或抽象概念,关系表示实体之间的关联,而实体及其关系的语义描述则包含类型和属性,并具有明确的意义。属性图或带属性的图被广泛应用,其中节点和关系具有属性或特性。

“知识图谱”这一术语与“知识库”基本同义,但存在一些细微差别。从图的结构来看,知识图谱可以被视为一种图 [7];而当涉及形式语义时,它可以被看作一种知识库,用于对事实进行解释和推理 [8]。知识库和知识图谱的示例如图1所示。知识可以通过形式为三元组的事实表达,例如 (头实体,关系,尾实体) 或 (主语,谓语,宾语),在资源描述框架(RDF)中,例如 (Albert Einstein, WinnerOf, Nobel Prize)。它也可以表示为一个有向图,节点为实体,边为关系。为了简化起见,并遵循研究界的趋势,本文将“知识图谱”和“知识库”两个术语互换使用。

近年来,基于知识图谱的研究重点是知识表示学习(KRL)或知识图谱嵌入(KGE),其通过将实体和关系映射到低维向量中,同时捕获它们的语义含义 [5], [9]。具体的知识获取任务包括知识图谱补全(KGC)、三元组分类、实体识别和关系抽取。知识感知模型通过整合异构信息、丰富的本体和语义来实现知识表示,并支持多语言知识。因此,许多现实世界的应用(如推荐系统和问答系统)因具备常识理解和推理能力而蓬勃发展。一些现实中的产品(如微软的 Satori 和谷歌的知识图谱 [3])已经展现出提供更高效服务的强大能力。
在这里插入图片描述

本文对当前关于知识图谱的文献进行了全面综述,重点探讨了在知识获取和知识感知应用中为图赋予更多上下文、智能和语义的研究进展。我们的主要贡献总结如下:

  • 1、全面综述:
    我们对知识图谱的起源以及现代知识图谱关系学习技术进行了全面回顾。介绍并比较了知识图谱表示学习和推理的主要神经网络架构。此外,我们还完整概述了知识图谱在不同领域的众多应用。

  • 2、全景分类与全新分类体系:
    我们对知识图谱研究进行了全景分类,并提出了细粒度的新分类体系。具体而言,在高层次上,我们从四个方面回顾了知识图谱的研究:知识表示学习(KRL)、知识获取、时间知识图谱以及知识感知应用。在知识表示学习方面,我们进一步从四个视角提出了细粒度分类,包括表示空间、评分函数、编码模型和辅助信息。在知识获取方面,我们从嵌入式排序、关系路径推理、逻辑规则推理和元关系学习等角度回顾了知识图谱补全(KGC);实体获取任务被划分为实体识别、实体类型化、实体消歧和实体对齐;关系抽取则根据神经网络范式进行了讨论。

  • 3、广泛覆盖新兴进展:
    我们广泛覆盖了新兴研究主题,包括基于Transformer的知识编码、基于图神经网络(GNN)的知识传播、基于强化学习(RL)的路径推理以及元关系学习等。

  • 4、总结与未来方向展望:本综述对每个类别的研究进行了总结,并突出了未来研究的潜在方向。

概述

A、知识库简史…

B、定义和符号…

C、知识图谱研究的分类

这项综述对知识图谱的研究进行了全面的文献回顾,包括知识表示学习(KRL)、知识获取以及广泛的下游知识感知应用,其中整合了许多近期先进的深度学习技术。研究的总体分类如图2所示。

Knowledge Representation Learning(知识表示学习),知识图谱的关键研究问题,为许多知识获取任务和下游应用铺平了道路。我们将知识关系学习(KRL)分为表示空间、评分函数、编码模型和辅助信息四个方面,为开发KRL模型提供了清晰的工作流程。具体成分包括以下内容:
1)用于表示关系和实体的表示空间;
2)用于衡量事实三元组合理性的评分函数;
3)用于表示和学习关系交互的编码模型;
4)嵌入方法中需要整合的辅助信息。
Knowledge Acquisition 知识获取任务分为三类,即知识图谱补全(KGC)、关系抽取和实体发现。第一类用于扩展现有的知识图谱,而后两类则从文本中发现新的知识(即关系和实体)。
知识图谱补全(KGC)包括以下几种方法:基于嵌入的排序、关系路径推理、基于规则的推理以及元关系学习。
实体发现包括实体识别、实体消歧、实体类型化以及实体对齐。
关系抽取模型则利用注意力机制、图卷积网络(GCNs)、对抗训练(AT)、强化学习(RL)、深度残差学习以及迁移学习等技术。
Temporal Knowledge Graphs, TKGs 时序知识图谱将时间信息融入到表示学习中。本综述将相关研究分为四个领域,包括:
1、时序嵌入(Temporal Embedding);
2、实体动态(Entity Dynamics);
3、时序关系依赖(Temporal Relational Dependence);
4、时序逻辑推理(Temporal Logical Reasoning)。
Knowledge-Aware Applications 知识感知型应用程序包括自然语言理解(Natural Language Understanding, NLU)、问答系统(Question Answering)、推荐系统(Recommendation Systems)以及其他各种实际任务。这些应用通过注入知识来提升表示学习的效果。

D.相关调查

之前关于知识图谱的综述论文主要聚焦于统计关系学习 [4]、知识图谱优化 [11]、中文知识图谱构建 [13]、知识推理 [14]、知识图谱嵌入(KGE)[5] 或知识表示学习(KRL)[9]。其中,后两篇综述与我们的工作关系更为密切
Lin 等人 [9] 以线性方式介绍了 KRL,重点放在定量分析上。Wang 等人 [5] 根据评分函数对 KRL 进行了分类,并特别关注 KRL 中所使用的信息类型。这篇文章仅从评分指标的角度提供了当前研究的概览。
我们的综述则深入探讨了 KRL 的流程,并从四个方面提供了全面的视角,包括表示空间、评分函数、编码模型和辅助信息。此外,我们的论文还对知识获取和知识感知应用进行了全面回顾,同时探讨了一些新兴话题,如基于知识图谱的推理和小样本学习等内容。

知识表示学习(KRL)

知识表示学习(Knowledge Representation Learning, KRL)在文献中也被称为知识图谱嵌入(Knowledge Graph Embedding, KGE)、多关系学习(Multirelation Learning)以及统计关系学习(Statistical Relational Learning)。本节从四个方面回顾了在实体和关系的丰富语义信息下分布式表示学习的最新进展,包括:
1)用于表示关系和实体的表示空间;
2)用于衡量事实三元组合理性的评分函数;
3)用于表示和学习关系交互的编码模型;
4)嵌入方法中需要整合的辅助信息。
在这里插入图片描述

A.表示空间

表示学习的关键问题在于学习实体和关系的低维分布式嵌入。当前的文献主要使用实值点空间(如图3(a)所示),包括向量、矩阵和张量空间,同时也有其他类型的空间被使用,例如复数向量空间(如图3(b)所示)、高斯空间(如图3©所示)和流形空间(如图3(d)所示)。嵌入空间应满足三个条件:可微性、可计算性以及评分函数的可定义性 [15]。

1) 点空间(Pointwise Space)…

点空间中的欧几里得空间被广泛应用于表示实体和关系,通过在向量或矩阵空间中投影关系嵌入,或捕获关系交互。

2)复数向量空间 …

3) 高斯分布

4))流形与群

本节回顾了流形空间、李群和二面体群中的知识表示。流形是一种拓扑空间,可以通过集合论定义为带有邻域的点集。群则是抽象代数中定义的一种代数结构。先前的逐点建模是一种不适定的代数系统,其中打分方程的数量远远多于实体和关系的数量。此外,即使在一些带有子空间投影的方法中,嵌入也被限制在过于严格的几何形式中。

B. 打分函数

打分函数用于衡量事实的可信度,也被称为能量学习框架中的能量函数。能量学习旨在学习能量函数 (\mathcal{E}_\theta(x))(由参数 (\theta) 表示,输入为 (x)),并确保正样本的得分高于负样本。在本文中,为了统一描述,采用了打分函数的术语。

打分函数主要有两种典型类型:

  1. 基于距离的打分函数(见图 4(a))
  2. 基于相似度的打分函数(见图 4(b))

这些函数用于衡量事实的可信度。

1. 基于距离的打分函数

基于距离的打分函数通过计算实体之间的距离来衡量事实的可信度,其中常用的加性平移关系为 (h + r \approx t)。

2. 基于语义相似度的打分函数

基于语义相似度的打分函数通过语义匹配来衡量事实的可信度。通常采用乘法形式,例如 (h^\top M \approx t^\top),将头实体转换到表示空间中靠近尾实体的位置。


在这里插入图片描述
1) 基于距离的打分函数

一种直观的基于距离的方法是计算实体关系投影之间的欧几里得距离。结构嵌入(Structural Embedding, SE)[8] 使用两个投影矩阵和 (L_1) 距离来学习 SE,其公式为:

[ f_r(h, t) = |M_{r,1}h - M_{r,2}t|_{L_1}. ]

全部评论 (0)

还没有任何评论哟~