Advertisement

知识图谱综述

阅读量:

目录

1 知识图谱的定义与架构

1.1 知识图谱的定义

1.2 知识图谱的架构

2 大规模知识库

2.1 开放链接知识图谱

2.2 垂直行业知识库

3 知识图谱关键技术

3.1 知识抽取

3.2 知识表示

3.3 知识融合

3.4 知识推理

4 知识图谱的典型应用

4.1 智能搜索

4.2 深度问答

4.3 社交网络

4.4 垂直行业应用

5 知识图谱的挑战

5.1 知识获取

5.2 知识表示

5.3 知识融合

5.4 知识应用


1 知识图谱的定义与架构

1.1 知识图谱的定义

核心:知识图谱是一种构建实体间关系的知识结构,能够系统性地表征现实世界的对象及其相互关联。如今知识图谱广泛运用在大规模的知识库建设中。

表示方式 :三元组。G = (E,R, S)

分类: 就涵盖范围而言, 知识图谱也可划分为通用知识图谱行业知识图谱. 通用知识图谱侧重于广度, 强调整合了更多实体, 相比之下其准确性相对较低, 并受概念域的影响较大, 因此难以借助本体库来规范实体、属性及其间的关系等. 在实际应用中, 通用知识图谱主要集中在智能搜索等领域. 行业知识图谱通常依赖特定行业领域的数据进行构建, 具有较强的行业针对性. 在这一类型中, 实体的属性与数据模式均较为丰富.

1.2 知识图谱的架构

知识图谱的架构主要包括自身的逻辑结构 以及体系架构

逻辑结构: 知识图谱在逻辑上可分为模式层数据层 两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源Neo4j、Twitter的FlockDB、sones的GraphDB等。模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。

体系架构: 知识图谱的体系架构是其指构建模式结构,如图1所示。

构建方式: 知识图谱主要有top-down与bottom-up两种构建方式。

自顶向下方法是以现有的结构化知识库为基础进行操作的方式。

其基础依赖于一些现有的结构化知识库作为其基础知识库。

例如Freebase项目是通过这种方式实现的,

其大部分数据来源于维基百科。

自底向上方法则是从开放链接数据中提取出实体,

并筛选并纳入到知识库后,

在构建顶层本体模式的过程中进行处理。

目前大多数采用的是基于开放链接数据的知识图谱构建方法,

其中最典型的就是Google Knowledge Vault项目的实践应用。

2 大规模知识库

2.1 开放链接知识图谱

在LOD项目的云架构中, Freebase,Wikidata,DBpedia以及YAGO这四个大型知识库占据核心位置,它们不仅存储了海量的半结构化与非结构化数据,是知识图谱的重要数据来源.此外,这些知识库还具有广泛的领域覆盖范围,并与其领域的专门知识库之间形成了密集的链接关系.

1) Freebase
Freebase知识库早期由Metaweb公司创建,后来被Google收购,成为Google知识图谱的重要组成部分。Freebase中的数据主要是由人工构建,另外一部分数据则主要来源于维基百科、IMDB、Flickr等网站或语料库。截止到2014年年底,Freebase已经包
含了6 800万个实体,10亿条关系信息,超过24亿条事实三元组信息,在2015年6月,Freebase整体移入至WikiData。

2) Wikidata
Wikidata是维基媒体基金会主持的一个自由的协作式多语言辅助知识库,旨在为维基百科、维基共享资源以及其他的维基媒体项目提供支持。它是Wikipedia、Wikivoyage、Wikisource中结构化数据的中央存储器,并支持免费使用。Wikidata中的数据主要以文档的形式进行存储,目前已包含了超过1700万个文档。其中的每个文档都有一个主题或一个管理页面,且被唯一的数字标识。

3) DBpedia
DBpedia是由德国莱比锡大学和曼海姆大学的科研人员创建的多语言综合型知识库,在LOD项目中处于最核心的地位。DBpedia是从多种语言的维基百科中抽取结构化信息,并且将其以关联数据的形式发布到互联网上,提供给在线网络应用、社交网站以及其他在线知识库。由于DBpedia的直接数据来源覆盖范围广阔,所以它包含了众多领域的实体信息。截止至2014年年底,DBpedia中的事实三元组数量已经超过了30亿条。除上述优点外,DBpedia还能够自动与维基百科保持同步,覆盖多种语言。

4) YAGO
YAGO是由德国马普所(max planck institute,MPI)的科研人员构建的综合型知识库。YAGO整合了维基百科、WordNet以及GeoNames等数据源,特别是将维基百科中的分类体系与WordNet的分类体系进行了融合,构建了一个复杂的类别层次结构体系。第一个版本包含了超过100万的实体以及超过500万的事实。2012年,发布了它的第二个版本,在YAGO的基础上进行了大规模的扩展,引入了一个新的数据源GeoNames,被称为YAG02s。包含了超过1 000万的实体以及超过1.2亿的事实。

2.2 垂直行业知识库

行业知识库也可称之为垂直型知识库,在这种类型的知识库中,其主要目标是专门覆盖某一特定行业领域,并非面向所有行业。要构建这样的知识库通常需要该行业的独特数据支持,并因此其适用范围非常局限。

1) IMDB
IMDB(internet movie database)是一个关于电影演员、电影、电视节目、电视明星以及电影制作的资料库。截止到2012年2月,IMDB共收集了2132383部作品资料和4530159名人物资料。IMDB中的资料是按类型进行组织的。对于一个具体的条目,又包含了详细的元信息。

2) MusicBrainz
MusicBrainz是一个结构化的音乐维基百科,致力于收藏所有的音乐元数据,并向大众用户开放。任何注册用户都可以向网站中添加信息或投稿。由于Last.fm、GrooveShark、Pandora、Echonest等音乐服务网站的数据均来自于MusicBrainz , 故MusicBrainz可通过数据库或Web服务两种方式将数据提供给社区。对于商业用户而言,MusicBrainz提供的在线服务可为用户提供本地化的数据库与复制包。

3) ConceptNet
ConceptNet是一个语义知识网络,主要由一系列的代表概念的结点构成,这些概念将主要采用自然语言单词或短语的表达形式,通过相互连接建立语义联系。ConceptNet包含了大量计算机可了解的世界的信息,这些信息将有助于计算机更好地实现搜索、问答以及理解人类的意图。ConceptNet 5是基于ConceptNet的一个开源项目,主要通过GPLv3协议进行开源。

3 知识图谱关键技术

利用基于现有技术的知识抽取方法(...),从公开获取的各种类型的数据中系统地提取出丰富的实体信息以及关联关系数据等关键知识点要素。借助于或利用整合机制实现对实体信息与实际对象之间的明确对应关系建立过程中的有效消除工作实现,在此基础上成功构建起高质量的知识体系数据库。随后通过持续深入挖掘潜在的知识信息并不断优化和完善现有的知识点数据库内容质量及应用效能水平的过程实现,在理论研究与实践应用层面均发挥着关键作用的作用机制。

3.1 知识抽取

知识抽取主要针对开放链接数据这一技术基础,并通过自动化方法提取出可利用的知识单元。这些知识单元包含实体(概念的具体实例)、关系类型以及属性三个核心要素,并在此基础上构建一系列高质量的事实表述模型,并为其上一层级模式体系打下坚实的基础。

知识抽取可分为:实体抽取、关系抽取、属性抽取。

3.1.1 实体抽取

概念: 早期开展的实体抽取过程主要涉及被称为'命名实体学习'或'命名实体识别'的任务。该任务的核心在于从原始语料中通过自动化手段识别出具有特定意义的名字或短语。由于这些名字或短语通常代表具体事物的基本元素——即' entities'——它们在构建高质量的知识库中扮演着基础角色。由此可见,在知识抽取过程中进行 entities extraction 是一项至关重要的基础工作。

实体抽取方法主要包含三种类型基于规则与词典的类型、基于统计机器学习的类型以及面向开放领域的方法。具体来说,在这种方法中,针对特定实体构建模板是基础步骤;对于第二种方法而言,则是通过建立模型并进行训练来完成任务;而第三种技术则主要应用于海量Web数据的处理。

1) 基于规则与词典的实体抽取方法
传统实体抽取技术主要局限于特定领域和语义单元类型,在这种环境下主要采用基于规则与词典的传统方法进行操作。具体而言,在这一过程中通常会利用预先定义好的规则框架以及相关的词汇资源来识别并提取文本中的关键信息如人名、地名、组织机构名称以及特定的时间标记等核心要素。然而,在这种基于模板化的方式下不仅依赖大量专家人工编写规则或模板而且其适用场景也较为局限难以有效应对数据环境的变化需求。

2) 基于统计机器学习的实体抽取方法
统计机器学习方法可应用于命名实体识别任务并且研究者们也探索了将监督学习算法与其自身相结合的有效途径。

3) 面向开放域的entity抽取方法
在开放域 entity 抽取方面针对的是如何从有限实例中提取具有鉴别能力的知识并将其拓展至海量文本资料以便实现对新出现 entity 的识别工作这一挑战性问题已有相关研究者提出了相应的解决方案基本思路是通过分析现有实例构建特征表示模型然后将其应用于新的文本数据以识别新增命名 entity的过程在此基础上进一步发展出了一些基于无监督学习机制的具体算法其核心思想在于利用已知 entity 的语义特征来进行潜在模式挖掘最终实现对未知 entity 的分类与聚类。

3.1.2关系抽取

概念:关系抽取旨在建立实体间的语义关联,在传统时代主要依赖人工构建的语义规则和模板来进行实体关联识别;随后发展出基于关系模型的方法取代了传统的语法和规则;然而,在进行分析前仍需明确各实体间的关联类型;有研究者提出了一种面向开放域的信息抽取框架(open information extraction, OIE),这标志着模式构建的重大突破;但该框架在发现潜在或隐含联系方面存在不足,并未显著提升性能;因此部分研究者进一步开发了基于马尔科夫逻辑网络和本体推理技术的新方法以弥补这一缺陷。

1) 开放式实体关系抽取

开放式实体关系抽取主要可分为两类:二元开放关系抽取与n元开放关系抽取。在二元开放关系抽取领域中,在性能指标上表现较为一般的有知它.all系统与TextRunner系统。

2) 基于联合推理的实体关系抽取

在OIE(-open information extraction)框架中融入推理的相关技术通常采用联合推理的方法进行实体关系抽取。其中具有代表性的模型为马尔可夫逻辑网络(Markov Logic Networks)MLN体系,在统计关联学习方面具有显著优势。

3.1.3属性抽取

属性提取主要针对的是特定的实体进行。通过这些属性能够全面勾勒出实体的基本特征。由于实体的每一个属性都可以被视为实体与其对应属性值之间的一种名称性关联关系。因此我们可以将这一过程视为一种关系型问题来进行建模与求解。大量的实际应用场景中存在大量类型的attribute数据分布于半结构化、非结构化的大规模开放域数据库中。对于这类attribute数据的采集与处理工作主要采用以下两种策略:第一种策略是利用从公开百科全书网站上获取到的一批结构化的训练样本数据集来建立相关的attribute提取模型;然后将此模型应用于开放域环境下的attribute Extraction任务中去实现对未知实体attribute信息的学习与预测;第二种策略则是基于对attribute与attribute value之间的内在关联性关系建立专门的关系型模型进而直接从开放域数据库中进行attribute Extraction工作以提高效率和准确性。然而由于在实际应用过程中往往难以完全消除attribute名周围存在的各种限制性含义因素因此这种基于规则的关系型模型在实际应用中的准确率往往无法达到预期效果。

3.2 知识表示

尽管三元组的知识表示形式得到了普遍认可但它仍面临计算效率与数据稀疏性等方面的挑战近年来深度学习等代表性的表示学习技术取得了重要进展这种技术能够将实体的信息用低维向量来表达并且在这一过程中实现了对实体及其关系之间的复杂关联的有效捕捉这种方法不仅简化了知识库中的数据存储需求还提升了推理的速度与准确性从而在多个领域中展现出广泛的应用前景

3.2.1 应用场景

分布式表示主要通过一个低维实值向量来模拟人脑机制地表征实体对象的语义信息,在知识图谱的计算、补全与推理等方面发挥着关键作用。
在语义相似度计算方面,可以通过熵权系数法、余弦相似性等方法评估实体间的语义关联程度。
在链接预测方面,则是通过分布式表示模型推断图谱中任意两个实体之间可能存在的关系,并对已存在的关系进行有效性判断。
特别是在大规模知识图谱中需要不断补充与完善实体间的关系时,“链接预测”这一技术就显得尤为重要。

3.2.2 代表模型

知识表示学习的代表模型主要包括距离模型、双线性模型、神经张量模型、矩阵分解模型、翻译模型等。

1) 距离模型
文献提出了知识库中实体以及关系的结构化表示方法(structured embedding,SE),其基本思想是:首先将实体用向量进行表示,然后通过关系矩阵将实体投影到与实体向量同一维度的向量空间中,最后通过计算投影向量之间的距离来判断实体
间已存在的关系的置信度。由于距离模型中的关系矩阵是两个不同的矩阵,故实体间的协同性较差,这也是该模型本身的主要缺陷。

2) 单层神经网络模型
针对上述提到的距离模型中的缺陷,提出了采用单层神经网络的非线性模型(single layermodel,SLM),单层神经网络模型的非线性操作虽然能够进一步刻画实体在关系下的语义相关性,但在计算开销上却大大增加。

3) 双线性模型
双线性模型又叫隐变量模型(latent factormodel,LFM),双线性模型主要是通过基于实体间关系的双线性变换来刻画实体在关系下的语义相关性。模型不仅形式简单、易于计算,而且还能够有效刻画实体间的协同性。

4) 神经张量模型
提出的神经张量模型,其基本思想是:在不同的维度下,将实体联系起来,表示实体间复杂的语义联系。神经张量模型在构建实体的向量表示时,是将该实体中的所有单词的向量取平均值,这样一方面可以重复使用单词向量构建实体,另一方面将有利于增强低维向量的稠密程度以及实体与关系的语义计算。

5) 矩阵分解模型
通过矩阵分解的方式可得到低维的向量表示,故不少研究者提出可采用该方式进行知识表示学习,其中的典型代表是RESACL模型。

6) 翻译模型
受到平移不变现象的启发,提出了TransE模型,即将知识库中实体之间的关系看成是从实体间的某种平移,并用向量表示。该模型的参数较少,计算的复杂度显著降低。与此同时,TransE模型在大规模稀疏知识库上也同样具有较好的性能与可扩展性。

3.2.3 复杂关系模型

知识库中的实体关系类型也可分为1-to-1、1-to-N、N-to-1、N-to-N4种类型[63],而复杂关系主要指的是1-to-N、N-to-1、N-to-N的3种关系类型。由于TransE模型不能用在处理复杂关系上,一系列基于它的扩展模型纷纷被提出。

1) TransH模型
文献[64]提出的TransH模型尝试通过不同的形式表示不同关系中的实体结构,对于同一个实体而言,它在不同的关系下也扮演着不同的角色。模型首先通过关系向量

l_r

与其正交的法向量

w_r

选取某一个超平面

F

,然后将头实体向量

l_h

和尾实体向量

t

l_t

沿法向量

w_r

的方向投影到

F

,最后计算损失函数。TransH使不同的实体在不同的关系下拥有了不同的表示形式,但由于实体向量被投影到了关系的语义空间中,故它们具有相同的维度。

2) TransR模型
由于实体、关系是不同的对象,不同的关系所关注的实体的属性也不尽相同,将它们映射到同一个语义空间,在一定程度上就限制了模型的表达能力。所以,提出了TransR模型。模型首先将知识库中的每个三元组(h, r,t)的头实体与尾实体向关系空间中投影,然后希望满足

l_h_r
l_r
pprox
l_t_r

的关系,最后计算损失函数。

3) TransD模型
考虑到在知识库的三元组中,头实体和尾实体表示的含义、类型以及属性可能有较大差异,之前的TransR模型使它们被同一个投影矩阵进行映射,在一定程度上就限制了模型的表达能力。除此之外,将实体映射到关系空间体现的是从实体到关系的语义联系,而TransR模型中提出的投影矩阵仅考虑了不同的关系类型,而忽视了实体与关系之间的交互。因此,文献提出了TransD模型,模型分别定义了头实体与尾实体在关系空间上的投影矩阵。

4) TransG模型
TransG模型认为一种关系可能会对应多种语义,而每一种语义都可以用一个高斯分布表示。TransG模型考虑到了关系r 的不同语义,使用高斯混合模型来描述知识库中每个三元组(h, r,t)的头实体与尾实体之间的关系,具有较高的实体区分度。

5) KG2E模型
考虑到知识库中的实体以及关系的不确定性,文献提出了KG2E模型,其中同样是用高斯分布来刻画实体与关系。模型使用高斯分布的均值表示实体或关系在语义空间中的中心位置,协方差则表示实体或关系的不确定度。由此,可以通过

P_e

P_r

两个概率分布间的差异程度通过两种不同的方法进行评估:一种是基于KL散度的计算方法;另一种则是基于期望概率的比较方法。

3.2.4 多源信息融合

三元组作为一种普遍的知识库表示形式,在实现知识抽取与语义理解方面展现出显著优势。
通过一种基于三元组的知识抽取与语义理解方法,在实现语义关联建模的同时实现了对复杂语义结构的有效捕捉。

DKRL(description-embedded knowledge representation learning),作为一种新兴的知识表示方法,在描述性嵌入视角下构建了一套完整的知识表达体系。
该方法以Freebase知识库中的实体描述文本数据为主要数据来源,在实现语义关联建模的同时实现了对复杂语义结构的有效捕捉。

其中,CBOW模型通过将文本中多个词对应的词向量相加来表征整个文本内容,而CNN模型则进一步利用模型中间层之间的联系以及空间域内的信息紧密性来进行文本处理和特征提取工作。

DKRL模型在新实体的表现能力方面具有较强的潜力,它能够从新实体的简短描述中生成相应的表征形式,这种特性对于提升现有知识图谱的质量以及实现跨领域知识融合具有重要的理论意义和应用价值。

3.3 知识融合

由于知识图谱中的知识来源多样且丰富,在质量参差不齐的情况下容易导致来自不同数据源的知识存在重复现象以及难以实现各知识点之间的紧密关联性不足等问题的基础上必须对多源知识进行融合处理以构建多层次的知识体系从而实现异构数据的有效整合消除歧义并完成去重规范化以及方法经验的有效结合最终形成高质量的知识库。

3.4 知识推理

4 知识图谱的典型应用

4.1 智能搜索

4.2 深度问答

4.3 社交网络

4.4 垂直行业应用

5 知识图谱的挑战

5.1 知识获取

5.2 知识表示

5.3 知识融合

5.4 知识应用


全部评论 (0)

还没有任何评论哟~