Advertisement

知识图谱(Knowledge Graph)

阅读量:

认识知识图谱

随着2007年W3C发起的开放互联网数据项目(Linked Open Data)如火如荼的发展,在此背景下,在2012年5月时Google首次提出‘知识图谱’这一概念,并旨在将用户的搜索结果系统化地组织起来。这种组织方式的目标是让每一个关键字都能拥有一个完整的知识体系,并通过语义层面的理解提升搜索质量。为此构建的知识架构模式下,在线搜索引擎逐步被带有智能问答功能的知识图谱所替代。与传统的基于关键词搜索不同的是,在这种架构下用户不仅可以获得相关网页链接还能通过更智能化的方式获得与查询主题直接相关的答案,并且这种答案往往更具针对性和准确性。目前百度等国内主要搜索引擎也纷纷推出了各自的‘知识图谱’产品如百度的‘知心’及搜狗的‘知立方’等商业解决方案。这种基于语义理解的知识图谱技术被认为是下一代搜索引擎的核心技术之一并正在深刻影响着搜索引擎的发展方向以及相关领域研究的方向

百度、谷歌搜索引擎的知识图谱

知识图谱的表示

在知识图谱构建的过程中,其数据来源主要由三种类型构成:即结构化数据、半结构化数据以及非结构性别据。其中前两者多源自维基百科、百度百科等大规模的知识库资源;这些资源中含有大量的半结构性别据与结构性别据,并能够高效地被转化为适合的知识图谱形式。而非性别据则主要来源于网页中的文本信息,在经过实体识别与实体间关系抽取之后,则会被存储于关系型数据库中。在知识图谱的数据存储形式上,则有两种主要方式:一种是以RDF三元组的形式(即包含具体的实体名称及关联关系)呈现;另一种则是借助Neo4j等图数据库技术进行可视化展示。从本质上讲,这种基于节点与有向边的组织形式构成了语义网络的基础架构

Neo4j图数据​​​​结构

Neo4j建立的知识图谱

注:在本质上,RDF与Neo4j被视为一种数据模型,专门用于存储结构化的数据信息.RDF中的元数据代表了关于其他实体的信息,其主要目标在于提供给计算机系统以供其理解,并非旨在直接向用户展示信息.通过将RDF三元组转换为图结构的数据模式,Neo4j能够有效地表示这种关系网络.在这一过程中,RDF三元组与SPARQL查询之间的对应关系也得到了相应的体现,而Neo4j则利用Cyper这种高效的图数据库查询语言实现了对复杂关系网络的高效管理

知识图谱构建涉及的主要技术

1、实体链指(Entity Linking)

互联网网页数据包含了大量的实体信息,在多数情况下这些网页内容并未对相关的实体做出详细的说明或背景介绍。为了使读者能够更加深入地理解网页内容,并方便查询获取与之相关的知识库词条信息,在互联网网页出现的实体均被连接至对应的知识库词条上。这种通过建立互联网网页与实体之间的关联关系的方法被称为实体链指。

实体关联涵盖实体识别技术和实体消融技术(Entity Dissimilation Technology),其中一项称为知识融合技术和对齐技术等。

实体识别的目标是从文本中识别出命名实体,并包括人名、地名以及机构名称等类型。知识图谱不仅涵盖了这些实体信息,还包含大量概念(Concept),由此可知,在进行实体识别时也会涉及到对这些概念的识别工作。

同一实体名称在不同语境下可能指向不同的实体,例如"苹果"这一名称既可以指代水果类别的具体产品,也可以代表某个科技公司的品牌,甚至可能涉及影视作品的同名角色.这种同词多义或歧义现象在自然语言处理领域十分常见,而如何将文档中的名字与特定的实体关联起来,则是消除这种模糊性的关键过程.其基本思路在于:通过分析名称周围的语境信息,评估不同实体出现在此处的可能性.例如,在文本提及iPhone时,我们有更高的概率认为"苹果"这一名字将指向知识图谱中标称为"苹果"的那一家科技公司.

实体消歧

2、关系抽取(Relation Extraction)

关系抽取(信息抽取)指从文本中抽取实体之间的关系。

典型的信息抽取方法采用bootstrapping思想,即按照“模板生成

ightarrow

数据抽取机制反复进行直至达到稳定状态。例如,在"X是Y的首都"模式识别中提取(中国,首都,北京)这一实例。

基于能够体现实体间语义关联的短语(通常是由动词为中心的核心短语构成),例如(华为总部位于深圳)、(华为总部设置于深圳)。

除了前面提到的方法之外, 还可以认为关系抽取是一个将这一过程转化为 entity- entity 对与它们之间关系的分类问题。 将知识图谱中的每一个 entity- entity 对作为待分类的对象, 其对应的关系类型则作为分类的目标类别。 通过从包含这些 entity- entity 对的所有句子中提取相关特征, 并采用机器学习技术构建起一个基于这些特征的信息抽取系统。

3、知识推理(Knowledge Reasoning)

推理能力是人类大脑智能的重要特征,即从已有知识中发现隐含知识。推理往往需要相关规则的支持,如从“配偶”+“男性”推理出“丈夫”。这些规则可以手工构建,但费时费力,人们也难以穷举所有的推理规则。目前主要利用关系之间的同现情况,利用关联挖掘技术自动发现推理规则。实体对之间存在丰富的同现信息,如(康熙,父亲,雍正)、(雍正,父亲,乾隆)、(康熙,祖父,乾隆)三个实例,根据大量类似的实体X、Y、Z之间出现的(X,父亲,Y)、(Y,父亲,Z)、(X,祖父,Z)实例,可以统计出“父亲+父亲

ightarrow

祖父”的推理规则。

实体样例

4、知识表示(Knowledge Repreesentation)

探讨在计算机系统中对知识图谱进行表示与存储的方法及其核心问题。如前所述,在人工智能领域中, 知识图谱本质上构成了一张规模庞大的语义网络, 并基于有向
****模型构建. 以下展示了一个电影领域中的典型知识
****实例.

电影知识图谱示范

具有独特价值的知识体系(...)在传统信息检索手段主要基于实体视角的基础上

国内外开放的知识图谱

伴随着知识图谱概念的兴起

国内外开放领域知识图谱

知识图谱和本体的关系

基于本体的知识图谱实现了拓展与深化,在具体实现上更加注重细节信息的全面捕捉。
其主要拓展方向集中在实体(Entity)这一层面。
本体中聚焦于领域内的核心概念体系及其内在联系结构。
它旨在构建一个涵盖领域知识整体性的通用模型框架。
而作为在此基础上发展起来的知识表示形式,在具体实现上更加注重细节信息的全面捕捉。

知识图谱与本体之间的关联(源自知识图谱与本体 | UML图 | ProcessOn

本体为知识图谱构建了基础架构,在这一框架下具体领域中的实体作为核心内容填充到知识图谱中。从概念层次出发进行符号化表达的同时,在这一框架下则更注重具体领域中的实例化应用与语义嵌入能力的提升。相比之下,在这一框架下则更关注具体领域中的实例化应用与语义嵌入能力的提升;从概念层次出发进行符号化表达的同时,则特别关注不同节点间的逻辑关联与传播机制。

知识图谱的应用

1、查询理解

在搜索引擎领域中,在线索匹配技术未能解析查询词中所蕴含的意义信息而导致检索效果欠佳。借助知识图谱技术可将搜索引擎从基于字符串匹配向实体层次延伸,在这一过程中基于知识图谱的技术能够识别出查询词中的实体及其属性特征。因此其在解析用户的搜索意图方面具有更强的能力,并且还能够实现一定程度上的推理功能进而帮助用户获取更为准确且相关的搜索结果。

2、自动问答

问答系统作为知识检索的一种高级形式,在处理信息时能够有效满足用户的深层需求;其核心功能在于接收并分析用户的自然语言提问(即问题陈述),并基于预设的知识库提供对应的问题解答(即回答内容)。将知识图谱构建为问答系统的知识库基础,并通过语义解析与表达建模技术实现对用户的查询理解;并通过语义匹配技术完成查询与推理过程,并最终实现了“问什么答什么”的人工智能对话系统;利用 knowledge 图谱 这一数据组织方法有效降低了 machine 理解自然语言与抽象概念的技术难度;使对话系统的智能化水平显著提升;提升了回答结果的完整性和准确性水平。

全部评论 (0)

还没有任何评论哟~