Advertisement

知识图谱(Knowledge Graph)

阅读量:

认识知识图谱

伴随着2007年W3C发起的开放互联网数据项目(Linked Open Data)如火如荼的发展,在这个过程中

百度、谷歌搜索引擎的知识图谱

知识图谱的表示

知识图谱中的数据来源涵盖结构化数据、半规范化的非结构化及非规范化的非结构性数据等类型。其中前两种类型主要由维基百科、百度百科等大型公开平台提供,并包含了大量的半规范化的知识内容;这些内容能够高效地转换为知识图谱中的形式。而后一种类型主要是网页文本信息经过提取实体信息并建立语义关联后存放在传统关系型数据库中。在知识图谱中数据的存储形式多样可采用RDF三元组的形式表示也能够借助Neo4j图形数据库进行可视化展示。由此可见这种基于有向图的知识组织形式本质上就是一种语义网络其核心要素包括节点(Nodes)与关系(Relationships)。其中节点用于标识实体或概念而关系则将这些节点连接起来同时节点与关系都可能具有相应的属性描述来丰富信息表达能力。

Neo4j图数据​​​​结构

Neo4j建立的知识图谱

在本质上,RDF与Neo4j构成了一种数据模型,主要用于存储结构化信息;这一类信息旨在供计算机理解而不面向用户展示.通过Neo4j,RDF三元组可以被转换为图结构;此外,RDF的数据查询语言是SPARQL,而Neo4j的支持的语言是Cyper.

知识图谱构建涉及的主要技术

1、实体链指(Entity Linking)

互联网上的页面数据包含了丰富的 entity 信息。尽管大多数页面缺乏对其中所提及 entity 的具体解释或背景信息。为了帮助人们更好地理解网络内容, 我们希望每个网络上的 entity 都能指向其对应的专门知识库条目, 以便读者能够获取更全面的信息。这种方法被称为‘基于知识图谱的 entity 链接技术’。

实体链涵盖包含 entity recognition 和 entity disambiguation 两大核心环节;具体而言,在这一过程中, entity disambiguation 也可称为 knowledge fusion 和 entity alignment 等相关技术。

命名实体识别的任务是从给定的文本中提取出特定名称,并且包括但不限于人名、地名以及机构名称等信息。知识图谱不仅包含了众多实体信息,并且涵盖了大量概念(Concept)的内容。其中 entity recognition 也涉及对 concept 的识别工作。

在不同的语境下,“苹果”这一名称可能会指向不同的对象:它可以是日常生活中的水果之一,也可以是一家IT领域的公司名称;甚至有可能代表一部电影的标题。这些多义性或歧义现象普遍存在于自然语言处理的文档中。为了实现准确的理解与应用,在命名实体识别的过程中需要将命名实体与具体的 entities 连接起来。实体消歧的核心思想在于:通过分析名字出现的上下文信息来评估不同 entities 出现在此处的可能性大小。例如,在文本中出现“iPhone”时,“苹果”这个名字有更高的概率指向知识图谱中的“苹果公司”实体

实体消歧

2、关系抽取(Relation Extraction)

关系抽取(信息抽取)指从文本中抽取实体之间的关系。

典型的信息抽取方法采用bootstrapping思想,即按照“模板生成

ightarrow

具体实施过程中,"X是Y的首都"这一模板的具体抽取操作包括(中国、首都、北京)三个元素组成的三元组实例

基于能够反映实体间语义关联关系的关键术语(通常是由具有指向性的动词中心的短语组成)来提取实体间的关联信息;例如:[公司名称, 地址, 城市), (公司名称, 管理机构设置于, 城市)]

除了上述方法之外,还可以将关系抽取视为一种分类任务,并将其转化为分析实体间关系的问题。在知识图谱构建过程中,默认假设每个三元组都是一个待分类的对象,并以实体间的关系作为其对应的类别标签。为了实现这一目标,在处理包含该特定实体对的所有语句时需要提取其特征信息,并利用机器学习模型来构建信息抽取系统

3、知识推理(Knowledge Reasoning)

推理能力体现了人类大脑在认知过程中的核心功能。它不仅能够从已有知识中发现隐含的知识点,并且能够通过逻辑运算建立新的知识网络。进行推理运算时通常需要依赖特定的规则支持,并举一个例子,“配偶”与“男性”之间的关系推导出“丈夫”。手动构建这样的推理规则确实耗时耗力,并且难以穷尽所有可能的组合。目前主要利用关系间的共现模式结合关联挖掘算法来进行自动化的规则提取。通过分析这些实体间的关联实例可以看出:如康熙与雍正父子、雍正与乾隆父子、康熙与乾隆祖系等实例。当大量满足X具有父系联系于Y、Y具有父系联系于Z以及X具有祖系联系于Z的关系模式出现时,“父系关系传递”这一基本规律便能够被归纳总结出来。

ightarrow

祖父”的推理规则。

实体样例

4、知识表示(Knowledge Repreesentation)

在计算机领域中对知识图谱进行表示与存储的技术研究是构建与应用的关键课题之一。从前面的讨论可知,在这一领域中对知识图谱进行表示与存储的核心技术研究至关重要。知识表征本质上构成了一张庞大的语义网络,在这一数据模型中采用有向图的形式进行组织安排。其中每个节点都标注实体信息而每条边则标注关系信息以体现对象间的关联性特征。以下展示的是一个电影领域的知识架构示例

电影知识图谱示范

知识网络是一种独特的知识体系。
过去, 传统的信息检索主要基于"实体"分析。
如今随着知识图谱的兴起, 计算机能够通过"关系"视角进行分析与思考。
其应用赋予了计算机一定的推理能力。
使得搜索引擎的功能更加完善。

国内外开放的知识图谱

伴随着知识图谱概念的兴起

国内外开放领域知识图谱

知识图谱和本体的关系

基于本体的知识图谱实现了内容的拓展与深化,在实体层面进行了全方位的扩展。同时,在本体中强调的是领域内概念以及概念之间的关联关系,并构建了一个涵盖领域知识的基础模型。相比之下,在本体基础上的知识图谱进一步丰富了实体信息。

知识图谱与本体之间的关系来源于knowledge graph and ontology | UML diagram | ProcessOn

本体为知识图谱构建了框架基础,并通过实例化具体领域概念进行填充。
从概念层面上进行符号化表达的本体与基于实体为中心的语义模型相比,在利用节点间的关联性构建数据模型时,则特别关注不同节点间的关系推导。

知识图谱的应用

1、查询理解

在搜索引擎领域中,默认情况下采用的关键字匹配技术仅局限于表面的文字匹配,在无法深入解析用户查询语义信息的情况下导致检索效果欠佳。而基于知识图谱的技术则实现了对搜索引擎功能的重大突破,在将搜索引擎提升到了实体层面的同时能够精准识别出查询中的具体实体及其相关属性,并非如此。这种技术不仅有助于更准确地解析用户的搜索意图,在此基础之上还具备了一定的推理能力,并非如此;从而为用户提供了一份更为智能化和精准化的检索服务而非后者所述之情况

2、自动问答

问答系统属于知识检索的更高层次形式。
它能够接受以自然语言提出的查询问题。
该系统能够生成关于问句的一段文本。
其中,
知识图谱可被用作构建问答系统的知识库。
在经过用户输入问句的语义解析、语义表示以及最后进行语义匹配查询得到推理的过程后,
最终实现问什么答什么的智能问答系统。
利用知识图谱这种数据管理手段,
可以帮助机器弥补在语言理解和概念认知方面的不足,
从而使得问答系统的智能化水平进一步提升,
并显著提高其查全率和查准率。

全部评论 (0)

还没有任何评论哟~