Advertisement

【知识图谱学习笔记】02 知识图谱基础

阅读量:

该部分内容将阐述有关知识图谱的核心概念及基本要素。涵盖本体关系,在本体中定义的一系列常用术语,并探讨如何将其他数据格式转化为知识图谱的标准方法。

2.1 知识表示和查询语言

知识表示与推理术语在AI领域中被定义为一种系统化的方式去描述世界的各项知识,并赋予计算机根据相关信息进行自动推理的能力,从而实现辅助决策参考的目的。如01简介所述,在现代语义网络框架下,知识图谱被认为是一种具有创新性的知识推理变形形式。

知识图谱由一系列不同的实体类型构成,并且每个实体都具有独特的属性描述,并与其它类型的实体通过预定义的关系建立联系。在本体构建过程中, 实体类型与关系间的关联采用词典形式进行规范, 这种规范化的术语体系有助于明确概念间的层次关系和相互关联性。我们将在接下来的部分详细讲解用于表示知识图谱的RDF语义模型; 同时也会介绍用于构建本体的RDFS语言以及基于OWL的知识表示方法, 并涵盖一些常用的用于进行知识图谱查询的标准和工具。

2.1.1 RDF和RDFS

RDF
RDF用于表示实体,在W3C规范中被定义为一种资源表示方法。它不仅可以表示各种不同的事物类型,例如个人、网页或巨大无当量(T Rex)等生物体。每个知识图谱都包含一组三元组,并且这些三元组构成一个有向图结构,在RDF中存在三种类型的节点:国际资源定位符(Internationalised Resource Identifiers, IRI),字面量或者空节点。如图所示

在这里插入图片描述

在一个三元组中:

  • 主项既可以表示为一个URI也可以表示为空节点。
    • 谓项必须指定为URI类型。
    • 宾项既可以指定为URI类型、字面量或空节点。

在RDF图中使用IRI可以唯一标识一个资源,并且这种表示法作为更普遍的URL形式允许使用更多字符。其值可能包括字符串、数字和日期类型;其中,在RDF中定义的字面量通常包含两种或三种基本类型:

  • 一种词汇形式
  • IRI数据类型
  • 一个非空的语言标签

空节点是从IRIs和literals中分离出来的也可以认为是一个任意的量在RDF模型中空节点被用来表示那些无法通过IRIs或literals直接描述的特定值例如

  • 描述由多个组件组成的系统架构
  • 提供具体的实例信息
  • 隐含标识节点名称
  • 防止数据泄露

IRIs通常以一个命名空间作为开头,一些命名空间为了方便表示会和一些更短的前缀关联,这种前缀如下表示:
————————————————————————————
prefix dbpedia : http://dbpedia.org/resource/
prefix dbpedia-owl : http://dbpedia.org/ontology/
prefix xsd : http://www.w3.org/2001/XMLSchema#
————————————————————————————
和典型的语义网络不一样的地方在于,RDF有一些语言级别预定义的属性,比如rdf:type,它是用来对资源进行分类的,和语义网络中的is-a关系所对应。

序列化 RDF
RDF 为知识图谱提供了统一的数据模型,并采用编码方案以实现数据的存储与交换功能;在实际应用中存在多种不同的序列化方法包括例如 Turtle、RDF/XML、RDFa、B-Triples、NQUADS 以及 JSON-LD 等等。

子类

  1. RDF不具备否定能力;比如在RDF中我们可以表示"ESI是一个SME"但无法表示"ESI不是一个个体"
  2. RDFS无法定义一个类;比如在RDF中我们无法明确界定SME的内涵
  3. 尽管RDFS包含了关系层面的对齐方式如rdfs:subClassOf或rdfs:subPropertyOf但并未提供实例层面的对齐机制例如无法表达"数据中的ESI与数据库中的ESI是同一个实体"

以上这些缺陷都可以被更加全面的模式语言OWL解决。

2.1.2 OWL

OWL可以被视为是RDFS的扩展,它有更加全面的词汇表,由OWL关系预定义,为人们构建本体或是标注数据提供了更强有力的工具。下面的例子是OWL2中关于属性的一个片段:
————————————————————————————
:borders rdf:type owl:ObjectProperty,
owl:SymmetricProperty;
rdfs:domain :AdministrativeDivision;
rdfs:range :AdministrativeDivision;
owl:propertyChainAxion (:hasBoundary
:boundaryOf
)
————————————————————————————
在travel本体中一个名为boarders的对象属性有两个名为AdministrativeDivision的实例。关于这个属性对象下面的一些特点是在RDFS中没有的:

  1. 一个属性如果是owl:SymmetricProperty,则表示为如果存在实体a与实体b相关联,并且实体b同样与实体a相关联。
  2. 该属性如果是owl:propertyChainAxiom,则表示为该关系由两个属性组成:hasBoundary和boundaryOf。具体而言,在这种情况下,存在一个对象a拥有边界b(即有hasBoundary关系),而边界b属于另一个对象c(即具有boundaryOf关系),因此可以推断出对象a包含于对象c之内。

通过这些实例可以看出,在某些情况下 OWL 注释可用于隐藏某些隐含信息。例如,在基于 hasBoundary 和 boundaryOf 这两个关系中进行分析时,则可以使得 border 关系得以隐藏。然而需要指出的是尽管 OWL 2 以其纯粹的表达能力著称 不管是复杂推理还是概念层次结构构建 都无法总是保证在有限时间内完成推理过程 而这一限制可以通过组合 OWL 2 文件来实现 这些文件所遵循的语法规范实际上对应着一种可计算决定性的逻辑系统

为此引入了基于描述逻辑的OWA2 DL语法体系。其中DL代表描述逻辑(Description Logic),它是一种形式化的知识表示方法,并通过一些概念(一元谓词)和角色(二元谓词)来刻画所讨论的主题领域。不同的DL方言在谓词构造和使用方面各有特点:例如SROIQ等具有高度表达能力和决策能力的方言。在一个实体中,默认的推理服务流程如表所示:

推理服务 解释
实体一致性检查 检查实体是否有矛盾
分类 计算两个类之间的OWL:subClassOf关系
实现方式 计算两个类之间的RDF:type关系
检查类的适应性 检查一个类是否能拥有实例
隐含的公理检查 确定从一个实体中是否能推断出一个公理
结合序列回答 回答对本体的查询

2.1.2 SPARQL

SPARQL属于RDF与OWL这一类查询工具,在不涉及推理的情况下主要以显式方式提取现有数据。尽管具备这些特点,但通过与RDF schema以及OWL协同工作能够实现更为广泛的功能

SPARQL Update功能模块
SPARQL的Update语言包含创建、更新和删除功能。
该功能可通过关键词WITH指定目标RDF语料库进行操作。
CREATE用于生成新的RDF语料库,
DROP可用于移除特定存在的RDF语料库,
CLEAR则可清除当前RDF语料库中的三元组,
COPY则能将源RDF语料库的数据复制至目标RDF语料库,
MOVE则用于将源RDF语料库的数据重新组织至目标RDF语料库,
LOAD则根据给定IRI读取外部资源并将其三元组注入指定的RDF存储空间中。

2.2 本体和词汇

一些标准的词汇

为了加快知识图谱的发展速度并有效保留相关资源

  • 组织的定义:涵盖范围广的群体集合。
  • 组织划分为若干子组织或单元部分:根据功能划分不同功能区块。
  • 功能定位及分类依据:明确各组成部分的功能属性。
  • 报告架构包含:完整的人事配置体系。
  • 机构内部人员构成及其架构:详细描述岗位设置及职责划分。
  • 各岗位职责及人员与机构间的关联关系:清晰体现人员职责权限分配。
  • 涉及地点、建筑设施或自然景观等:地理位置要素全面覆盖。
  • 组织历史沿革及变更历程:完整记录发展变迁脉络

GoodRelations
GoodRelations作为电子商务领域的一个本体,在该系统中列举了相关的术语,并详细描述了产品信息、价格设置以及公司数据。该系统还并构建了一个统一的数据架构来支持各方面的信息管理与共享。

  • 跨行业通用:该方法覆盖包括消费电子产品、汽车、门票、房地产、劳动力、服务以及其他类型的产品。
  • 适用范围广:该方法适用于价值链各环节的服务保障措施设计。
  • 语义通用:该方法支持RDFa、Turtle、JSON等多种表示语言的应用场景处理。

表示电子商务领域的主要的组成本体为:

  • 主体包括个人或组织。
  • 对象涵盖录像设备、房屋及汽车等;或是理发这样的服务。
  • 一份承诺或报价可使某些权利转化为相应的服务项目。
  • 这个报价的有效范围是什么?

这个GoodRelations模型为人们提供了丰富的商品信息,并且同时为人们提供了相应的补偿和必要的条件。
Data Cube Vocabulary
Friend-of-a-Friend(FOAF)

2.2.2 schema.org

该术语集合旨在为HTML页面内容增添元数据元素, 从而提高搜索引擎结果的相关性, 并便于Web使用者识别这些标记模式, 以便实现最佳应用效果。该数据模型具有广泛的应用潜力, 基于RDF关系构建, 包含一系列类型的元数据元素, 按层级结构组织, 每个元数据元素可继承自多个父类, 更多详细信息如下

  • 每个属性可以拥有一个或多个类型作为其范畴,并且该属性的值可能被视为任何一种类型的实例。
    • 每个属性可以拥有一个或多个类型作为其范畴,并且该属性的值至少在一个类型中成为该类型的实例。

2.3 数据提升标准

在众多大型组织中, 数据或知识往往以多种形式存在, 包括关系数据库. Web页面. 文档. 事件日志等多种形式. 为了使这些信息能够在组织的知识图谱中被访问, 需要将它们从现有的表示形式转换为知识表示的格式. 在我们的情景下, 这种特定的数据模型即为RDF数据模型. 这一转变过程被称为数据提升过程, 其不仅实现了不同数据格式之间的转换, 而且实现了将信息从数据层"提升"至更为易懂的知识层次.

多种方法可用于实现数据提升。举例而言,在分析自然语言文本或Web内容时提取知识可采用命名实体识别、信息提取、概念挖掘及文本挖掘等多种策略来提高数据质量。在开放源代码或商业软件中提供了众多工具包如GATE OpenNLP及RapidMiner等以满足不同需求

在本节中

2.3.1 RDB2RDF

如果你旨在构建大型的知识图谱系统(特别是SPARQL三元组形式),或者仅仅是为了利用开源数据带来的成熟推理生态系统等好处(例如现有的语义web框架),那么你可能需要将现有关系型数据库中的旧数据转译为链接形式的数据(如RDF或OWL)。幸运的是,在这种情况下我们有一个好消息:你无需从零开始!因为已经提供了一个标准的方法可供采用。更有甚者,在本节中我们将介绍如何将现有关系型数据库中的数据高效地转译为RDF格式的标准建议;此外我们还将列出在此任务中非常有用的辅助工具列表以加速你的工作流程

在2012年期间,RDB2RDF工作组发布了两条关键指南.这些指南旨在规范化如何将关系数据与传统的关系数据库模式转换为基于资源描述框架(RDF)与本体论(OWL)的语言.这两项指导方针专为解决将传统关系数据转换成标准RDF数据而设计.

第一个建议涉及将关系型数据直接映射至RDF格式。如果你追求高效的转换能力,并希望使用性能优越的关系型数据库(如具备良好主键设计、外键关联以及合理的表名和字段命名等),那么这种方案通常在以下条件下表现良好:当数据库设计优化且具备良好的可扩展性时。这种情况下,在处理过程中输入仅包含原始数据库的数据及其元数据结构;输出则为相对简单的RDF格式表示形式,在此过程中对转换参数的影响较为有限。

第二个建议涉及「R2RML:将关系型数据库映射为三元组表示语言」方案的选择与应用。通过选择合适的工具如「R2」-based mapping language方案, 你可以根据具体需求定制数据转换逻辑, 并基于设计生成相应的三元组数据. 例如, 在需要利用现有的术语表或领域本体知识库的情况下, 你可以更加方便地完成从关系型数据库到三元组表示的转换过程. 下表总结了在选择适合规范时可能涉及的关键考量因素:

考虑因素 直接映射 R2RML
自动匹配 Y N
自定义的词汇表 N Y
自定义的URI N Y
extraction-transform-load N Y
示例场景 LOD Publish Data Integration

直接映射的技术仅限于处理包含具体数据及关系架构的基础数据库结构,并将其转化为相应的RDF格式的数据表示。其核心内容实质上是一种能够自动完成数据库到RDF表示之间转换过程的方法论框架。接下来我们将详细阐述基于样例数据库环境下实施转换操作的主要步骤和流程。

在直接映射中, 转换采用了基于实体的方式进行操作, 具体来说, 每个数据行都被视为一组三元组. 因此第一步是基于每个数据行识别其对应的RDF资源, 并在生成过程中根据主键的存在区分两种情况.

Project_Id Name Description Leader_Id
6 K-Drive K-Drive is an EU IAPP 12

当表包含主键字段时,则会为句表中的每一行记录生成相应的URL地址。例如,在上一个Project_Id的例子中,则会生成相应的URL地址 http://abc.org/DB/Project/Project_Id=6

该情况是针对那些未预设主键的数据表进行操作的一种方法,在这种情况下系统会自动对每个表格中的每一行创建一个空节点。在处理第一行时会生成一个新的空节点,并为其分配唯一的中心实体内部标识符,在后续的数据插入过程中系统会自动识别并关联这些空节点与实际存在的数据记录之间的一一对应关系。目前并没有为生成空节点提供特定语法支持,在这种情况下如果仅依靠系统默认机制即可实现数据完整性和一致性,则该方案是有效的

随后,在生成RDF资源后,接下来步骤是将原始数据转换为描述新生成资源的RDF三元组。第一个创建的三元组属于断言类型。该断言仅指定所处理的数据行资源与其关联表类(由表构建)之间的实例化关系。例如,在项目表中第一个断言可以定义为< DB:Project/Project Id =6, rdf:type. DB: Project >其中DB指代前面所述的基础URL。

除了这种assertion类型的之外,在系统中还必须将所有数据行的列值转换为统一的三元组形式以确保一致性与完整性。基于表模式定义的要求,在系统中能够生成两类不同的三元组结构;其中一类特殊的三元组类型是基于文本数据的;其对象部分为文本信息,并且这些数值通过各列的数据进行生成;无需引入外部键关联以保持系统的独立性与灵活性

对于这些外键的列来说,在生成过程中会涉及关系型数据模型,并且这些模型中的每个外键字段都会被映射到相应的数据库表中以实现关联存储功能。这使得整个数据架构能够支持复杂的关联查询需求,并且通过这种机制能够有效地管理不同数据库表之间的关联性问题

Developer_Id Name Email Homepage
12 Jeff jeff.z.pan@… NULL

另一种特殊的列是外键列

RDB2RDF Mapping Language

上述三个实例均需一种直接映射无法提供的定制转换功能:第一实例需实现专门针对特定场景的资源生成机制;第二实例需建立自定义构建映射关系;第三实例则须从原始数据中筛选出关键信息进行转换处理。这些需求对应于RDB2RDF映射语言的主要构造如下:

  • Term Maps遵循 RDB2RDF 规范,在此规范下定义了 RDF 术语、空白节点以及所有类型文本 RDF 资源的概念体系。它是一个功能模块(module),能够基于数据行自动生成特定领域特有的专业术语集合(Taxo⁃nomy Set),从而使其能够在一定程度上促进不同领域本体资源之间的共享与复用(collaboration and re-use)。
  • Logical Tables 顾名思义地定义为基于真实表构建的一个虚拟表对象(virtual table)。该对象支持在三重转换前进行自定义数据抽取(data extraction),这一特性完全满足我们第三个示例的需求要求(requirement)。这种映射机制正是为了实现对如何利用三元组(triples)进行管理与操作的设计。
  • Triple Mappings 是一种根据数据行自动生成映射的方式(way),这种机制支持定制化的映射关系配置(configuration),从而能够解决第二部分中的具体问题。

RDB2RDF 工具
有一些简单的工具:

  • Morph-RDB
  • D2RQ Platform
  • Virtuoso

2.3.2 GRDDL

数据不仅可以存储于关系数据库之外还可以采用其他的形式实现这一目标例如零售商的采购订单通常采用XML格式编码而传感器获取的数据也遵循XML语法规范甚至一些关键信息可能会以XHTML形式发布于Web页面上尽管这些信息均以XML形式存在但它们所遵循的语法与语义各不相同这种差异使得信息融合构建知识图谱变得困难

为了在知识图谱中利用这些多样的XML数据源,在实际应用中可能需要将其转化为RDF表示形式。这一过程涉及将数据从一种特定的XML格式转化为另一种特定的XML格式,在这一过程中需考虑的因素较多;例如:如何指定该转化是否针对特定的XML资源;如果是,则涉及到算法的选择及其具体实现位置设置等不同问题都有各自独特的解决方案方式;如果缺乏统一的标准来解决这些问题,则可能导致不同解决方案间的特异性差异进一步加剧阻碍效果;值得庆幸的是:W3C已经推荐了GRDDL标准方案:它能够提供标准化的语言转化方案来实现基于XPath的语言到基于RDF的知识图谱构建过程中的语言转化需求。

主要涉及GRDDL所规定的标准化方法论,在明确XML文档是否嵌入到与RDF兼容的信息体系中,并确定相关转换算法的具体位置等方面发挥重要作用。尽管存在多种实现该转换算法的方案可供选择,在实践中最常用的方法是基于W3C推荐的一种标准——XSLT——作为执行此类数据转换的技术语言。对于通用XML文档、 XHTML以及Web页面而言,GRDDL均构成一个约束性的标准框架。同时,在设计过程中还特别考虑了以下几点:一是如何在XML命名空间文件及其XHTML概要文件中的元数据部分中指定可收集的数据类型信息;二是确保所设计的方法能够适用于每个与元数据文件相关联的实际场景。

2.4 知识图谱和关联数据

在多篇文献中常被提及的RDF数据集、关联数据与知识图谱等术语往往出现在同一语境下。明确区分这些相关概念之间的主要区别具有重要意义。当我们在探讨RDF数据集时,则指的是由一组由主题、谓词与对象构成的关系结构组成的数据集合;其中前两个元素是标识符(URIs),而后一个是标识符或具体值。而连接数据则特指多个相互独立开发与维护的RDF数据集合间建立起来的关系网络;它们之间通过引用具有相同标识符的个体或借助绘制映射进行补充连接。例如,在不同数据集中引用同一个uri实体所形成的owl:sameAs关系就属于这种补充机制的一种形式

知识库作为一个结构化的数据集合存在。它能够在与RDF数据模型兼容的基础上实现功能,并采用(OWL)本体作为其核心框架。值得注意的是两者之间不存在必然联系但通常会为这些实体定义相应的类型信息这使得提供了解这些实体的相关背景信息具有重要意义。此外该系统被视为一个可靠、高质量的信息资源并致力于向最终用户提供所需的服务

2.5 知识图谱中的网页搜索以及企业知识图谱

作为一项商品服务产品,在网络环境中,“谷歌知识图谱”作为一种基于知识库的知识管理工具,在2012年5月非常流行。在此部分中我们研究了网络搜索中的知识图谱及其企业版本,并进行了比较分析。

知识图谱中的网页搜索

谷歌知识图谱关于这一话题包含一个简短的摘要,并提供常用的列表链接用于存储所有最可能相关的查询主题。

它主要依赖于两种技术:一个是基于简单层级架构的概念本体(Ontology),另一个则是专门处理数据收集与整合的过程(Data Collection and Integration Pipeline)。在前面提到的一个包含约700个不同类型的层次架构中的共享词汇表(Vocabulary Repository),该集合则被网页开发者用来标注他们的网站内容(Website Content)。这个表的设计初衷是为了使网页开发者能够清晰地定义并管理其网站的概念框架(Conceptual Framework),从而确保信息的一致性和可访问性(Consistency and Accessibility))。

另外一种是数据采集,在涉及网络规模下的分布式信息标注过程。这些标注工作主要依赖于开放获取的知识库资源,并通过提供的API接口进行操作。截至2015年6月,在运用的相关知识库中包括CIA世界概况年鉴——一本涵盖各国事实资料的经典著作;维基百科——著名的免费互联网通用性百科全书;Freebase——一个整合公共领域信息(如知名人物、地点及事件)的结构化数据库,并提供对网页内容进行标记的技术接口;以及Wikidata等资源

企业知识图谱

IT行业最核心的一项业务就是管理多种类型的企业信息。
通常是由一系列的数据基础设施、开发过程的应用程序以及用于管理数据获取流程系统的各种机制共同完成的。
这些技术基础包括关系数据库管理系统以及用于数据集成与存储的平台系统。

它为以更高效率、更强壮的方式构建各种企业知识图谱提供了示范作用并建立了相应的平台系统。从理论上讲企业知识体系通过构建完整的知识图谱能够指涉其体系结构并支持持续的知识获取与维护这一过程

首先,在组织中构建统一的知识体系(本体)对于企业业务发展至关重要,并通过公司内部的层级结构将其向下传递。基于现有业务词汇表和行业标准模型构建这些本体知识库时相对容易,并且能够适应企业战略规划的变化。这有助于建立共享企业概念模型框架,并避免因异构模式而导致的信息孤岛现象。这也是大型企业内部信息管理系统效率低下的一个主要原因。

在Web页面上处理单一业务实体及消费者时, 企业可采用结构化的工作流程, 并依赖受控信息源(如数据仓库系统)执行操作. 如同传统的企业信息管理做法, 知识图谱需整合来自不同分支及业务单元各自生成的数据集至集中存储库以供后续应用. 然而, 采用固定编码方案(例如RDF三元组)以及基于单一共享模式的数据组织方式, 能够有效提升整合效果并保障数据质量.

在分散的来源和独立的渠道中整合集中化的知识是实现语义Web工作的核心难题之一。尽管大型机构在同一领域因不同的语境而采用多种诠释方式来描述概念与事实,在企业层面而言相对而言解决这些问题可能更为简便。

我们认识到Web搜索知识图谱中嵌入的知识、模式或本体是更为通用且简单的知识体系,在此背景下相比之下企业知识图谱则更具领域针对性。对于一个Web级别的搜索任务而言在面对数据维护及计算成本高昂的情况下则难以应用一种更具表达性的知识表示语言而在企业级别则并非如此同时需要考虑数据获取与知识获取的问题控制网络规模下的注释质量和相关指标变得愈发困难然而在企业数据获取方面则更为便捷

全部评论 (0)

还没有任何评论哟~