知识图谱:知识图谱概述(一)
一、知识图谱简介
知识图谱是一种基于结构化语义的知识存储体系,主要用于刻画现实世界的物体、现象及其相互联系,其核心由节点(代表实体或概念)和边(表示属性或关系)构成。其中,节点既可以代表具体的物体或概念,也可以代表抽象的概念;而边不仅可以表示实体的属性,还可以代表其他类型的联系,例如时间关联或其他关系网络。具体而言,节点与边共同构成了一个完整的知识网络框架,为人工智能等领域提供了强大的数据组织与推理能力。(注:以下数学公式G=(V,E)用于进一步阐述这一结构特性)
1.1 知识图谱的几个关键概念
本体(ontology) :概念体系是构建和阐述专业知识体系的关键工具。它通过系统地组织和运用实体特征、属性维度以及它们之间的关联规则,在确保一致性和明确性的基础上实现专业知识的有效表示与应用。
类别(category) :由具有相同特点或属性的一类实体构成的抽象概念,例如足球运动员, 足球俱乐部和教练员.
实体(Entities) :实体就是type的实例,如足球球员–梅西,足球联赛–西甲等。
类层次结构(Class Hierarchy):建立概念间的继承关系
关系(Relations) :实体间通过某种形式被关联起来,并且例如梅西作为巴塞罗那队的一名球员。
属性(Attributes) :实体自带信息是属性,如梅西 出生日期 1987年6月24日, 身高 1.7米等。
知识图谱(Knowledge-based structure) 即为具备相互联系的知识集合。可以用数据模型中的三元组形式来描述其构成要素。
知识图谱(Knowledge-based structure) 即为具备相互联系的知识集合。可以用数据模型中的三元组形式来描述其构成要素。
Knowledge Base(知识库) 被称为一种基于图数据库的知识存储结构。它涵盖了与其相关的本体论和实体信息,并且其核心架构基于图数据库技术构建。
1.2 知识图谱的分层架构
知识图谱由数据层(data layer)和模式层(schema layer)构成。
数据层面 是构建 知识图谱 的基础层面 ,主要承担 存储与管理 知识 图谱 中 原始 数据 的 任务 。这些 原始 数据 采用 结构化 的 方式 存储 ,而 这些 知识 则 被 表示 为 事实 ( fact ), 并 存放在 图数据库 中 。一般情况下 , 这些 知识 可能 表示 为 三元 组 形式 , 包括 “ 实体 - 关系 - 实体 ” 和 “ 实体 - 属性 - 属性 值 ” 等 多种 表现 方式 。
模式层:知识图谱的核心要素是其概念模型与逻辑架构。模式层主要包含本体、类层次结构、关系类型以及数据模式等多个组成部分。通过明确定义本体范围、构建类层次结构体系以及设定关系类型框架,并合理规划属性维度设置,在这一层面实现了有序的知识组织与系统性安排,在保证数据一致性和完整性的同时为高级应用与语义推理提供了可靠的知识支撑。
1.3 知识图谱数据类型和存储方式
知识图谱的原始数据类型通常有三类:结构化数据(Structed Data) ,例如:关系数据库和链接数据
半结构化数据(Semi-Structured Data) ,如:XML、JSON、百科
非结构化数据(Unstructured Data) ,如:文本、图片、音频、视频

知识图谱的存储方式主要分为两种:
采用**资源描述框架(RDF)**的方式进行组织和管理。
RDF通过三元组的形式来表达实体与属性之间的关联,并且其中较为常见的实现包括Jena、Virtuoso等工具。
在数据结构设计上具有高度的规范性和良好的互操作能力,并且便于与其他形式的语义数据进行整合。
然而,在面对规模庞大或高度复杂的场景时,查询效率往往成为系统设计中的一个关键挑战。
Graph Databases(图数据库) 作为一种专为处理基于关系的数据而设计的技术,在数据建模方面表现出卓越的能力。通过节点与边的形式来表征实体及其相互之间的关联,并展现出卓越的查询效率与灵活的应用适应性。其中较为知名的包括Neo4j、JanusGraph等工具。特别适合于处理大规模数据集以及具有复杂关联性的场景,并具备高效的查询性能与高度的适应性。
1.4知识图谱构建流程
知识图谱的主要构建方法主要采用基于数据层的方法进行构建与分解
数据采集阶段
层次分明的知识图谱构建过程主要从设计模式与本体两个维度展开。
本次学习主要采用自底向上的构建技术。遵循自底向上的构建模式,遵循基于相关知识体系中的信息提取流程,每一轮迭代均包括三个关键环节:数据采集与提取过程、整合不同领域数据的技术以及形成系统化的知识结构步骤
数据提取:通过分析多种数据来源中的实体、属性及其相互关联关系,在这一过程中构建系统化的知识表示。
知识融合:当人们获取新知识时,在理解过程中需要将其融入现有认知体系中,并通过对比和分析来消除不一致的地方以及理解上的困惑。例如,在一些领域中可能存在多义性问题(即某些术语可能有多种含义),而在另一些情况下,则可能存在同一概念的不同命名方式(即一个名称可能指向多个独立的对象)。
知识更新 :整合后的新增知识内容需要通过质量评估标准进行筛选(其中一部分需经人工审核环节),方能将其符合规范的部分纳入到系统化的知识库中,并保证系统化后knowledge base的质量。

知识抽取(infromation extraction)
知识抽取是一种能够从半结构化和无结构化的数据源中自动识别实体、关系及其属性的技术。其核心挑战在于:如何从异构的数据源中自动生成候选指示单元。所涉及的核心技术包括:实体识别、关系推断以及属性提取。
实体识别技术也被认为是名称实体识别的一种方法,其实质是从文本中通过自动化手段识别出命名实体
譬如
通过实体抽取,从中抽取出四个实体:“非洲 ”、“中国海军 ”、“冷锋 ”、“战狼 ”。
关系抽取:文本语料经过实体抽取后获得了多个零散的命名实体。为了获取语义信息,则需从相关资料中提取这些实体间的关联关系,并通过这些关联将实体连接起来从而构建网状的知识架构。

属性提取 :从多源数据中系统性地收集特定实体所具有的属性特征信息,在公共人物案例中可具体表现为获取其昵称、生日、国籍以及教育背景等相关数据

知识融合(Knowledge Fusion)
基于信息抽取技术,在处理非结构化/半结构化数据时成功提取了实体、关系及其属性信息。由此可知,在获得新知识后需要进行融合处理以消除可能存在的矛盾与歧义。具体而言,知识融合涉及两个方面:实体链接与知识合并。
实体链接(entity linking) 是一种将文本中提取出的目标实体与知识库中对应实体进行关联的技术过程。其核心思路是首先基于输入中的实体标识词(entity reference),从知识库中获取一组候选目标实体,并通过相似性评估机制确定与之匹配的目标实体。

知识融合:除了半结构化信息资源与非结构化信息资源之外的信息源还包括了传统的实体属性型信息资源(即典型的三维实体模型)。在处理这些具有明确语义特征的实体属性型信息资源时,在进行信息融合的过程中主要包含以下两种方式:整合外部背景知识库与整合对象间关联性数据库

知识加工(Knowledge Processing)
利用信息抽取技术,在现有数据资源中筛选并提取出关键的知识要素包括实体、关系以及属性等基础要素,并通过多源 knowledge 融合的方法去除命名实体间存在的歧义性问题从而生成了一系列基础的知识事实。然而单靠事实无法构建系统化的知识体系因此还需要经历更为复杂的 knowledge 加工过程。该过程主要包括三个方面的内容:首先是本体抽取其次是对已有的 knowledge 进行推理最后是对 knowledge 的质量进行评估以确保系统的可靠性和完整性。
本体抽取 :通过人工干预的方式进行手动构建(基于人工干预的方式进行手动构建),此外,在数据驱动的支持下进行自动化构建。
该自动化本体构建过程分为三个主要阶段:首先进行的是实体间的并列关系相似度计算;接着是实体间的上下位关系抽取;最后完成的是本体构建的完成。
基于知识的推理:在完成上述步骤后,在知识图谱之间存在大量关键关联仍然缺失的情况下,则需要采用基于知识的推理技术来实现对更多潜在的知识点的识别和构建。

知识推理的对象不仅局限于实体间的关系这一层面,还包含有实体属性的具体取值以及本体概念间的上下位关联等。
推理属性值:已知某实体的生日信息,则可通过推理手段获得其年龄信息。
推理概念 :已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)
在本领域中,该模块中的算法主要包含三大类:第一类是基于知识表示的技术体系中所采用的关系推演方法;第二类是通过概率图模型构建的知识提取与推理机制;第三类则是利用深度学习进行的知识获取与关系建模过程。

质量评估:对知识体系的信任程度进行定量化处理,并通过剔除低信任程度的知识点来提升知识体系的整体质量。
参考文献:知识图谱构建全过程
