Advertisement

【知识图谱】知识表示

阅读量:

【知识图谱】知识表示

  • 前言

  • 1. 概述

    • 知识定义
    • 知识分类
    • 知识表示
    • 知识表示准则
  • 2. 一阶谓词逻辑表示法

    • 基本概念:命题与联结词
    • 基本概念:个体词、谓词与量词
    • 谓词逻辑表示法
    • 谓词逻辑表示法特性
  • 第三节 规则表示方法概述

    • 核心概念:数据与程序逻辑

      • 基于规则的知识组织架构
      • 正向演绎推理机制下的知识应用模式
      • 基于规则的知识表现特征
    • 4. 框架表示法

      • 框架示例
      • 框架系统
      • 框架表示法特性
      • 代表性知识库:FrameNet
    • 5. 脚本表示法

      • 脚本
      • 脚本组成
      • 脚本示例
      • 脚本表示法特性
    • 6. 语义网表示法

      • 语义网

      • 语义网体系结构

      • XML

        • XML:属性
        • XML:特性
      • RDF

        • RDF数据模型
        • RDF描述示例
        • RDF Schema
        • RDFS词汇表
        • RDF(S)特性
  • 为实现知识组织与共享目标而使用Ontology技术成为现代信息处理的重要工具。

    • 什么是本体及其定义 Ontology作为知识表示的核心概念通常被理解为对实体属性和关系的系统性分类。

    • 其组成部分包括五个基本元素:概念、关系、函数、属性与标识符。

    • Ontology建模语言(OWL)以其强大的元模型功能为复杂系统的建模与推理提供了有力支持。

      • 其核心构建模块包括:类、属性与值限制、关系、继承与等价性以及元数据管理模块。
    • 7. 知识图谱中的知识表示

      • 实体、关系和事实
      • 狭义知识图谱
      • 知识图谱特性
    • 8. 分布式知识表示

      • 位移距离模型
      • 语义匹配模型
      • 模型训练
    • 9. 本章小结

前言

在这里插入图片描述

提纲:

  • 概述
  • 基于一阶谓词的表达方式
  • 基于产生式规则的知识表达方法
  • 框架式的知识组织方式
  • 脚本化的方式进行知识呈现
  • 基于语义网络的知识组织模式
  • 在现有知识图谱体系中运用的知识表现形式
  • 针对分布式存储特性的知识组织策略
  • 本章小结

1. 概述

知识定义

Feigenbaum
知识是通过精简、提炼、梳理和转化信息。简而言之,知识就是提炼信息。

Bernstein
知识是由特定领域的描述、关系和过程组成的。

根据Hayes-Roth的知识理论框架, 知识被界定为事实、认知信念以及启发式策略的集合. 从数据库的角度出发, 在某一领域内, 知识表现为各相关要素之间的符号化表达.

知识分类

陈述性知识 (declarative knowledge) 表征领域中的概念、事实及其属性和状态;它通常用来描述事物的各种属性和所处的状态。

复制代码
* 太阳从东方升起
* 一年有春夏秋冬四个季节

过程性知识 (procedural knowledge): 专指指导应对领域内相关信息的方法论, 从而解决相关问题.

复制代码
* 菜谱中的炒菜步骤
* 如果信道畅通,请发绿色信号

元认知(元认知体系):涉及如何获取和处理信息的知识体系,在具体应用中包含了以下几类核心能力:一是掌握信息获取与处理的基本技巧和方法;二是理解不同信息源间的关联性;三是具备对复杂信息进行筛选与整合的能力;四是能够建立合理的认知框架以提高学习效率。

知识表示

知识表示;它是将人类的知识转化为可被机器处理的数据形式的过程;在对知识进行表征时,我们实际上是在将这些信息编码为特定的数据格式。

知识表示方法

  • 陈述性形式的知识表征主要关注于如何表达特定领域中的具体概念和实体信息,并未探讨这些信息的实际应用或操作方式。
    • 过程性形式的知识表征则强调通过整合表征与应用环节实现动态管理,在程序设计中体现为动态的过程

知识表示准则

探讨知识整体广度与深度的问题
探讨知识系统的组织结构与逻辑关系
探讨知识存储与提取的有效性
探讨人工智能系统中的认知能力
探讨数据处理中的效率优化
探讨表征形式的选择与适应性
探讨元认知体系的构建可能性
探讨表征系统的扩展性与可管理性
探讨认知框架的一致性和完整性
探讨表征方法的有效性和合理性

2. 一阶谓词逻辑表示法

基本概念:命题与联结词

一阶谓词逻辑 是人工智能领域中最早的知识表示方法之一。 基于数理逻辑 它目前能够准确描述人类思维与推理过程的语言是最为精确的形式化语言。 其表现形式与自然语言非常接近 并且便于计算机理解和操作 并且具备精确的推理能力。

命题 (proposition):具有真假意义的陈述句。

  • 太阳从东方升起
  • 一年有春夏秋冬四个季节

逻辑联结词 (logical connective):用于将多个原子命题
组合成复合命题。

  • ¬代表否定连接符,在逻辑学中用于表示对原有命题进行否定运算。
  • ∨用于逻辑学中来表达两个命题之间的析取关系,在这种情况下至少有一个命题为真。
  • ∧作为合取连接符,在逻辑运算中被用来体现两个命题同时成立的状态。
  • →被用作蕴含连接符,在逻辑学中它表明前件为真时后件必定也为真。
  • ↔作为等价连接符,在逻辑运算中被用来描述前后两个命题之间的充分必要条件关系。

复合命题与原子命题的真值关系表

在这里插入图片描述

基本概念:个体词、谓词与量词

个体词 :领域内可以独立存在的具体或抽象的客体。

  • 太阳从东方升起:太阳
  • 小王与小张同岁:小王、小张

在谓词逻辑中,个体可以是常量也可以是变量(变元)。

  • 具体个体常数:用于表示明确或特指的具体某一个体。
  • 一般化变量:代表任意或通用的某个体。
  • V体域(论域):指的是所有可能被讨论的\text{变元}所构成的整体范围,在这个范围内\text{变元}可以取到不同的\text{值}

谓词 (predicate):用来刻画个体性质以及个体之间相
互关系的词。

  • 命题表达式为:x \in \mathbb{Q}
    其中x是一个独立变元,“...是有理数”这一属性描述可被视为一个谓性概念(term),我们将其符号化为\text{Rational}(或简记为\text{Q})。在逻辑系统中,则常用\text{Rational}(x)来表示这一命题形式。

  • 命题定义为'小王与小张同岁'
    其中'…与…同岁'被定义为一个谓词关系,并被表示为SameAge
    其中SameAge代表该个体之间的年龄相等关系
    命题符号表示为SameAge(小王, 小张)。

n元谓词 :含有n个个体符号的谓词P(𝑥1, 𝑥2, ⋯ , 𝑥𝑛) 。

  • 一元谓词(𝑛 = 1):表示𝑥1具有性质P。
  • 多元谓词(𝑛 ≥ 2):表示𝑥1, 𝑥2, ⋯ , 𝑥𝑛具有关系P。

函数 :又称函词,是从若干个个体到某个个体的映射。

  • Father(小张):小张的父亲
  • Sum(1,2) :1与2的加和

谓词与函数的区别:

在谓词逻辑中进行分析时会发现这样的情况:其中谓词的功能是从给定的论域中的某个体到"真"或"假"的映射关系;而函数则表现出从论域中的一个(或多个)个体指向另一个特定个体的能力,并不涉及真假值的问题。需要注意的是,在这种形式系统中函数自身无法独立存在

量词 (quantifier):是表示个体数量属性的词。

  • 普遍量词:在逻辑学中常用符号∀(All)来表示。
  • 在日常生活中以及数学领域中,“一切的”、“所有的”、“每一个”、“任意的”、“凡”以及“都”的含义一致。
  • 设𝑥代表个体域中的一个特定元素,则命题∀𝑥 P( 𝑥) 表示对于所有属于该领域内的元素𝑥来说,命题P(𝑥)成立。

存在量词:符号化为 ∃(Exist)的概念

  • 在日常生活中以及数学领域中,“存在”、“有一个”、“有的”、 “至少有一个”等词汇都被归类为存在量词的概念。
  • 在逻辑学中,当我们说个体域中存在某个个体𝑦满足性质Q时,则用记号∃(Exist)来表示这一概念,并写作∃𝑦 Q(𝑦)。其中:
    • ∃表示存在量词
    • 𝑦表示个体域中的某个具体个体
    • Q(𝑦)则代表个体𝑦所具有的特定性质或条件

谓词逻辑表示法

谓词逻辑不仅可以表达事物的状态和性质以及其特征等事实性知识[...] 还能够体现事物之间存在的因果规律所形成的规则性知识。

谓词逻辑表示知识的一般步骤:

首先明确 predicate 和 individual 的概念并界定其具体含义。
其次基于所描述的对象或概念 对每个 predicate 中的变量赋予具体的数值。
最后通过合适的逻辑连接符将各个命题组合成一个完整的命题公式。

谓词逻辑表示法示例

用谓词逻辑表示下列知识:

  • 作为一个壮丽的城市,并非中国的沿海城市。
  • 中华人民共和国的政治中心是北京。
  • 每个国家在其领土上都有自己的首都市。

① 定义谓词和个体域如下:

  • BCity xx属于一个优雅的城市
    • CCity xx依海而居
    • CapitalOf x, yx即为y的城市首都
    • LocatedIn x, yx位于区域中心位置
    • x ∈ {城市}, y ∈ {国家}

② 将个体带入谓词中,得到:

北京作为B城

③ 根据语义,用逻辑联结词连接:

  • BCity (Beijing) 并非中国特有城市
    • 北京是中华人民共和国首都
    • 所有x和y满足是首都时,则位于该国境内。

谓词逻辑表示法特性

优点:

  • 精确性 :该方法能够精准地传达知识并具备严密的逻辑推导能力。
    • 通用性 :该方法包含了系统化的逻辑演算框架与完整的推理规则集合。
    • 自然性 :该形式语言系统近似于人类日常使用的逻辑表达方式。
    • 模块化 :各条知识之间相互独立且互不干扰,在结构上便于增删改查。

缺点:

  • 表达能力有限 :仅能表征确定性的知识 ,无法表征不确定性相关的知识 、过程性的信息以及启发式的智慧 。*

  • 组织难度大:未能建立有效的知识组织体系,在实际应用中面临较大的组织挑战。

    • 运行效率显著影响:该系统在将推理演算与知识含义严格区分的过程中导致推理流程繁琐复杂,并显著影响了系统的整体运行效率。

3. 产生式规则表示法

基本概念:事实与规则

生成式系统 通过一系列规则的形式来描述问题解决的过程并构建解决问题的思维方式。每一个规则被定义为一个生成式。当前采用生成式规则表示法已成为专家系统中知识表示的标准方法同时也是人工智能领域中最常用的表达方式之一

事实 :断言一个语言变量的值或断言多个语言变量之间关系的陈述句。

  • 雪是白的
    语言变量:雪;语言变量的值:白

  • 小王与小张同岁
    语言变量:小王、小张;语言变量之间的关系:同岁

确定性事实 :一般用三元组的形式表示为

  • (对象,属性,值)或(关系,对象1,对象2)

不确定性事实 :一般用四元组的形式表示为

  • (对象,属性,值,置信度)
  • (关系,对象1,对象2,置信度)

规则 :也称为产生式,通常用于表示事物之间的因果关系。

确定性规则 :通常表示为𝑃 → 𝑄 或 IF 𝑃 THEN 𝑄

P 是生成式的要求;
Q 是结果集合,在这些结果中包含了当前提 P 获得满足时应得出的所有结论或者应采取的所有操作。

不确定性规则 :通常表示为𝑃 → 𝑄 (置信度) 或 IF 𝑃 THEN 𝑄(置信度)

  • 规则是定义了输入的先决条件和输出结果的一对关系式。
    • 当现有数据与先决条件无法严格对应时,则需要依据预设阈值进行模糊匹配,并通过特定算法将不确定因素影响最终判断结果。

产生式系统结构

产生式系统 (production system)由数据库、规则库和推理机三部分组成。

在这里插入图片描述

数据库:用于存储问题的起始状态、已有的事实以及推理过程中产生的中间推论结果和最终推导出的结果等信息。

规则库 :用来存放与求解问题有关的所有规则。

推理机 是用来调节整个系统的工作流程的装置,在规划问题解决的道路时会涉及匹配相关操作以及冲突处理和路径优化的过程。

正向推理的产生式系统

正向推理 :从已知事实出发,通过规则求得结论。

数据驱动方式或自底向上的方式。

推理过程:

根据数据库的事实与规则库中的前件进行匹配操作,从而获得一组匹配成功的前言集合;
通过冲突消解算法,从当前可选的前言集合中确定一条作为主要处理指令;
依次执行选定指令所对应的后果处理流程,并将处理结果记录至数据库中;不断重复上述工作流程,直到系统达成既定目标。

正向推理的产生式系统示例

动物识别产生式系统 :目标 = A是猎豹?

  • 已有知识(规则库):
在这里插入图片描述

已知事实(事实库)

  • A有爪子; A有前视眼;
  • A有毛发; A有尖利的牙齿;
  • A毛发是深褐色; A有花斑点
在这里插入图片描述

反向推理 :从目标出发,反向使用规则,求得已知事实。

目标驱动方式或自顶向下的方式。

推理过程:

在该规则库中, 规则后件与目标事实进行对比, 获得匹配 的结果集合;
通过采用基于冲突消解的策略, 在获得的匹配结果中筛选出一条合适的规则作为启用单元;
将所选启用单元的条件设定为新的子目标任务;

重复上述过程直至各子目标均为已知事实。

在这里插入图片描述

产生式规则表示法特性

优点:

  • 有效性:既能表达确定性的知识信息,也能处理不确定性知识描述,在促进启发式与过程性知识表达方面具有显著优势。
    • 自然性:通常采用"如果...则..."的形式表示知识信息,在直观性和自然性上表现突出。
    • 一致性:所有规则均遵循统一的格式规范,并且均基于同一数据库运行。
    • 模块化:各条规则之间仅通过数据库进行数据交换,并避免互相调用。

缺点:

  • 计算效率低下:该算法通过不断迭代"匹配-冲突消解-执行"循环来完成任务,在这一过程中计算效率较低。
    • 表示能力有限:该方法仅能处理显性知识,并无法有效表达结构化或分层式的认知内容。

4. 框架表示法

框架表示法 是一种基于框架理论衍生而来的结构化知识表达方法。该方法能够涵盖不同领域的知识内容。根据这一理论基础,在处理新的认知对象时,人类会从已有的认知模式中寻找匹配的模板,并根据具体情况对原有框架进行调整和完善,从而形成对该事物的认知。

框架(frame):是一种描述所论对象属性的数据结构。

  • 命名空间 :用于标识某一类或单个对象。
  • 字段 :代表对象特定属性的特征。
  • 方面 :同一个属性有时需要从多个方面进行描述。
  • 值域 :槽或侧面的具体取值范围。
在这里插入图片描述

框架分为两种类型:

  • 分类结构(class structure)用以表征抽象类别或多个物体。
  • 实例结构(instance structure)用以表征特定物体。

框架的层次结构:

子类与父类之间存在包含关系:这种结构体现了层次化的关系网络。
实例与类之间存在从属关系:这种关联反映了个体与整体之间的隶属性。
下层框架能够继承上层框架的一些属性和值:这种传递机制确保了信息的一致性和完整性。
在后续内容中,我们不再区分两者,并统称为‘类别归属’关系:这种简化处理有助于提高论述的连贯性。

框架示例

2008年5月12日14时28分04秒发生的一次重大地震事件——汶川大地震,在中华人民共和国历史上具有里程碑意义。
这次地震造成了直接受灾区域面积达10万平方公里。
此次发生的震动不仅造成了巨大的人员伤亡和财产损失。
统计数据显示:共造成6.927万人遇难;其中四川省有6.8712万名同胞遇难;还有大量同胞受伤:造成3.74643万人受伤;其中有约1.7923万人失踪。
此次大地震造成的直接经济损失共计8452亿元人民币。

在这里插入图片描述

框架系统

在这里插入图片描述

框架表示法特性

优点:

  • 结构化:层级式架构既能体现知识的组织形式也能展示各知识间的关联关系。
  • 继承性:本体系中的下一层框架可基于上一层框架继承一些属性和参数,并通过相应机制实现细节上的优化设置与功能拓展。
  • 自然性:本理论体系与人类的认知模式高度契合。
  • 模块化:独立的数据模型可为系统提供快速增删改的支持。

缺点:

  • 不能表示过程性知识
  • 缺乏明确的推理机制。

代表性知识库:FrameNet

针对词汇的概念进行框架形式的建模

在这里插入图片描述

https://framenet.icsi.berkeley.edu/fndrupal/

针对词汇的概念进行框架形式的建模

在这里插入图片描述
在这里插入图片描述

针对词汇的概念进行框架形式的建模

在这里插入图片描述

5. 脚本表示法

脚本

剧本 由一系列字段构成,在特定领域内记录事件的发生顺序,在时间轴上呈现出明确的先后关系或者因果联系,在执行时需要遵循前一阶段任务完成才能进行下一阶段任务的操作流程。相较于框架结构而言,在这种情况下,《剧本》更加注重对动态过程的描述而非单纯的静态知识存储。

  • Winston

一个剧本是一个时间顺序的行动串,它由一系列紧密联系在一起的动作和改变状态的行为构成。

  • Luger-Stubblfield

这个概念用于说明特定场景下的典型事件序列(ste-reotyped eventsequence)如何被系统化地呈现。

脚本组成

进入条件:明确记录脚本中所述事件的前提条件。
角色:详细说明参与事件的关键人物及其职责。
道具:列出与事件相关的具体物品及其作用。
场景:系统性地描绘事件的发生顺序及其关联关系;一个完整的故事可能包含多个连续或并行的子场景;每个子场景都可以作为其他故事背景的重要依据。
结果:评估整个故事发展对项目进度产生的重要影响。

脚本示例

例:用脚本表示去餐厅吃饭

(1) 入场标准:① 当顾客感到饥饿时必须用餐;② 顾客持有足以支付餐费的资金。
(2) 角色设定:主要角色包括:
① 忙于用餐的顾客;
② 熌usive地招待客人的服务员;
③ 负责烹饪的厨师;
④ 决策餐厅运营方向的老板。
(3) 基本道具包括:
食品、餐桌用具、菜单指南、消费记录和现金。
(4) 场景描述:
在一家 typical 餐厅里,
顾客与服务员之间的互动通常围绕着点餐与支付展开,
厨房则负责食物的制作,
而老板则负责监督整个运营流程。

场景1:进入—— ① 顾客走进餐厅;② 寻找座位;③ 在旁边就座。
场景2:点菜—— ① 服务员为顾客提供菜单;② 下单;③ 完成后返还菜单;④ 等待上菜。

场景3:等待—— ① 服务员告诉厨师顾客所点的菜;②厨师做菜,顾客等待。

场景4:吃饭—— ① 厨师把做好的送给服务员;② 服务员把菜送给顾客;
③ 顾客吃菜。

场景5:离开—— ① 服务员拿来账单;② 顾客付钱给服务员;
③ 顾客离开餐厅。

(5) 结果:① 顾客吃了饭,不饿了;② 顾客花了钱;③ 老板赚了钱;④ 餐厅食品少了。

脚本表示法特性

缺点:

相较于基于框架的方法,在基于脚本的方法中对事件进行表征时会受到较大的限制。具体而言,在表达能力方面受到较大限制,并且其适用范围也更为狭窄。此外,在这种表示形式下无法有效描述对象的基本属性以及复杂动态过程的可能演变路径。

优点:

在极其狭窄的领域中,脚本表示虽然显得略显简略,但依然可以对步骤和时序关系进行细致刻画.适用于传达预先规划的具体知识或顺序性动作以及相关事件,例如故事情节理解,智能对话系统,机票酒店预订等.

6. 语义网表示法

语义网络(Semantic Web)的概念起源于万维网(world wide web),是对万维网的一种变革与延伸。它代表了从基于文档(Web of documents)到数据驱动(Web of data)的转变。该目标在于使计算机或设备能够自动识别和理解万维网上存储的信息,并最终实现高效的数据共享与协作。

语义网(semantic web)≠ 语义网络(semantic network)

起源:传统万维网通过HTML语言表达页面内容并组织信息。主要用于供用户浏览阅读。未对信息的表现形式、内部结构以及表达内容进行区分。未提供可供机器解析理解的语义结构。

该技术提供了一个独特的机遇:XML技术的出现实现了对数据内容与页面布局的分离,并成功地推动了Web内容在意义和表现上都更加丰富和自然的发展。

该系统旨在为Web信息资源构建可被机器理解的语义标记体系,并通过建立跨平台、多模态的信息关联机制实现其在语义层面的全面互联能力。该能力将显著提升机器对异构化和分布式信息资源的智能检索与交互能力。

语义网

Web信息的本质是基于Web数据信息内容(即语义层次),通过特定方式整合和组织形成的海量分布式数据库。

特征:

  • 每个网络实体都有一个独特的标识符。
  • 通过链接建立联系(例如:人名、地点名称、事件名称、建筑名称)。
  • 明确的连接关系被建立,并且这些关系具有不同的性质。
  • 明确的组织架构得以体现。
在这里插入图片描述

语义网体系结构

语义网 开发了一种专门针对数据建模的表示语言和工具集,并旨在通过严格的逻辑框架来刻画知识领域内的概念、术语及其相互关系。

在这里插入图片描述

第一层:Unicode和URI(Uniform Resource Identifier, 通用资源标识符)构成了整个语义网的基本架构。其中,Unicode负责对资源进行编码处理,并实现了网络内信息的一致编码;URI则用于标识网络中的资源对象,并支持对网络中的对象及资源进行细致区分与识别。

第二层:基于XML的Namespaces + Namespaces支持 + XML Schema定义, 用于表示数据的信息 和组织结构。利用XML标记语言实现对网上资源信息的结构、内容和数据表现形式的有效分离。

第三层:RDF+RDF Schema 用以描述网络资源及其类型,并构建了一个元数据体系来支持多源异构数据的有效整合。

第四层:Ontology Vocabulary,在知识表示框架中被定义为一种用于定义资源间关联的技术手段。它不仅能够刻画单个资源的内涵特征及其与其他资源之间的复杂联系,并且能够系统化地建立各类术语之间的语义关联网络。通过明确界定了属性和类的术语语义及其相互关系这一核心功能,在实现知识系统的构建与优化方面发挥着关键作用。

第五层:逻辑层面设计上主要包含基本公理系统与推理机制,在此基础上为其构建智能推理框架奠定基础。该层级的主要功能在于用于生成相应的推理规则

判断层:由执行层面生成的一系列规则,并与信任层面的运作模式融合后,通过综合考量来评估所给证明的有效性。

第七个层次:信任层,在这一层面中着重建立信任机制,旨在确保用户代理在互联网上进行个性化服务以及相互间的互动合作时能够安全可靠地进行。

核心层为XML、RDF、ONTOLOGY,用于表示信息的语义。

XML

XML(eXtensible Markup Language, 可扩展标记语言)是最早的数据语义化表现语言,在其体系中完全摒弃了HTML的表现形式与布局功能,并着重增强了对数据语义与结构层次关系的表现能力

在这里插入图片描述

用于显示数据,侧重于如何表现信息

在这里插入图片描述

用于存储和传输数据,侧重于如何结构化地描述信息

3## XML:元素
XML的元素代表XML文档所描述的“事件”,比如书籍、 作者和出版商。

一个元素由起始标签、元素内容和结尾标签构成。

<author>Thomas B. Passin</author>

用户可以随意地选择标签名,只有很少的限制。

元素具有嵌套结构,并且没有约束嵌套的深度。

复制代码
    <author>
    	<name>Thomas B. Passin</name>
    	<gender>Male</gender>
    	<phone>+61-7-3875 507</phone>
    </author>
    
    
      
      
      
      
      
    
    AI助手

XML:属性

类似于HTML,在结构上XML也支持属性机制,并采用元素名称-值对的形式来传递与元素相同的信息内容。

复制代码
    <author name=“Thomas B. Passin” gender=“Male” phone=“+61-7-3875 507”/>
    
    
      
    
    AI助手

属性也可以与元素混合使用,但是不能嵌套。

复制代码
    <author name=“Thomas B. Passin” gender=“Male” >
    	<phone>+61-7-3875 507</phone>
    </author>
    
    
      
      
      
    
    AI助手

XML:特性

优点:

该系统采用以结构化形式表示数据的方法,在确保数据内容与其形式分离的基础上实现了良好的扩展性功能。用户能够通过创建自定义标记并开发专门的标记语言来实现对特定行业领域的深度支持,并完成数据共享与交换操作。系统内置文档类型声明机制,在不依赖外部工具的情况下即可支持任意格式文件的数据提取、分析并处理,并且能够轻松实现跨平台应用能力的拓展。

缺点:

XML是一种元标记语言,在组织与个人之间广泛传播时可作为定义新标记与标准的工具,在实际应用中往往会导致不同实体间规则不统一而引发冲突与混乱。
XML文档作为数据集合使用时可被视为类似数据库的结构 但其功能体系无法像专业的DBMS那样提供完善的管理功能
数据采用层次结构存储的形式 插入与修改操作在一定程度上存在不便

RDF

RDF(全称为Resource Description Framework)是一种用于描述资源的语言。它基于现有的多种元数据规范来刻画不同网络资源,并通过其形式化结构使得这些信息既易于理解又可通过自动化手段进行处理。

RDF的核心思想:

采用Web标识符(URI)来表示事物,并通过指定属性及其对应的值来描述资源的特征或它们之间的关系。

RDF数据模型

RDF的基本数据模型包括资源、属性和陈述

  • 对象 (object):所有能够通过RDF框架进行描述的对象都被视为对象。
  • 特性 (property):用于刻画对象的特性及其相互之间联系。
  • 断言 (assertion):将特定的对象配上一个特性及其对应的值就构成了一个断言。在这一断言中,对象被视为主语(subject),特性是动词(predicate),对应的值则是宾语(object)。
在这里插入图片描述

RDF描述示例

考查以下陈述的RDF图表示:

这篇文章由著者Author_001 Eric Miller撰写。他所属的公司是Home, Inc.邮箱地址为em@home.com。其职称为Dr.

在这里插入图片描述

RDF Schema

RDFS基于RDF提供了额外的建模能力,在其基础之上实现了构建模块语言的功能来描述类、属性及其相互关系。

  • 类别及其子类别关系:表征类别之间的继承关系。
  • 属性及其子属性关系:表征属性间的继承关系。
  • 定义域与值域说明:说明该属性所关联的资源类型及其取值范围。
  • 类型说明:类型表示一个资源属于某个类的具体实例。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

RDFS词汇表

RDFS允许定义自己的词汇表(vocabulary):

  • 类别集合和属性集合
  • 与其它词汇表中词汇的关系

词汇表示例:

 Dublin core terms include the original author and issuance dates.
 FOAF primarily deals with descriptions of individuals.
 Good relations encompass commercial relationship management.
 Creative Commons encompasses classes of copyright protection and licensing relationships.
schema.org provides detailed information about events, organizations, places and product reviews.

RDF(S)特性

优点:

简单:资源采用三元组形式进行描述,并且简洁易管理。
易扩展:通过将描述与词汇集分离处理,能够实现良好的扩展性。
容纳性:支持用户自定义词汇表,并能够轻松整合多个不同的词汇表来描述资源。
易综合:基于RDF的模型认为所有事物都是资源,在此框架下进行综合描述变得非常容易。

缺点:

在语义描述上存在不足:一个概念可以通过多个不同的词汇来表达。缺乏相应的推理机制支持,在逻辑处理方面存在缺陷。

在语义描述上存在不足:一个概念可以通过多个不同的词汇来表达。缺乏相应的推理机制支持,在逻辑处理方面存在缺陷。

为什么需要Ontology

  • Ontology 本体论通过对严谨的概念界定以及概念间的关联关系来精确地阐明每个概念的意义 并体现大家普遍接受并可以互相共享的知识内容。 在ontology框架下 作者 创作者和编写者被视为同一概念 而医生身份在大学与医院则分别对应不同的具体含义 因此 本体论作为语义网格的核心要素 在Web信息共享与交换中扮演着基础性角色 体现其不可替代的重要地位。

本体的定义

哲学界:对世界上客观存在物的系统地描述,即存在论。

知识工程界:

  • 1991/Neches: 规定了主题领域核心词汇及其相互关联的基础规则。
  • 1993/Gruber: 本体即是对概念模型进行系统规范与说明的过程。
  • 1997/Borst: 本体即是以形式化方式规范共享概念模型的过程。
  • 1998/Studer: 基于形式化的明确规范过程来建立共享的概念模型。
    一种ontology即为对共享概念体系进行形式化、明确化的详细说明。

概念模型 (conceptualization):核心是通过概括客观世界形成的概念系统。这些概念所表达的意义与具体的环境无关。

清晰度 (explicitness):所指的对象所使用的概念及其应用范围有严格的限定,避免了模糊不清的情况。

形式化 (formal):本体是计算机可处理的,而非自然语言。

共享

本体的组成:𝑂={𝐶,𝑅,𝐹,𝐴,𝐼}

概念 (concept) 或类 (class) :不仅能够涵盖任何事物;而且从语义上看;它们代表的是各种实体。

学生、教授、演员、歌手

关系 (relation):描述概念之间的语义关联。

part-of、kind-of、instance-of、attribute-of

映射 (mapping):一种特殊的对应关系,在这种对应关系中,每一个第n个元素都可通过前n-1个元素唯一确定。

father-of(x, y)表示y是x的父亲

公理 (axiom):代表永真断言。

如果A是B的子女,B是C的子女,则A是C的子孙

实例 (instance):某类概念所指的具体个体,即对象。

John Smith是概念学生的实例

OWL

OWL (Web Ontology Language, Web本体语言)是被广泛应用于构建和管理语义网的知识表示方案。它不仅丰富了RDF(S)的知识表示能力,并且增强了系统进行推理的能力。

OWL的三个子语言:

  • OWL Lite:支持一个分类结构并限定基本限制。
  • OWL DL:支持推理系统以确保计算完整性与确定性。
  • OWL Full:允许使用完整的RDF语法但不保证计算能力。

表达能力:OWL Lite < OWL DL < OWL Full

OWL建模原语

类运算式 (class descriptions):

owl:oneOf 属于枚举类型;owl:allValuesFrom 和 owl:someValuesFrom 用于定义属性域;owl:hasValue 表示特定关系的存在;owl:maxCadinality 和 owl:minCadinality 规定最大值和最小值;owl:cadinality 表示关系出现次数;owl:intersectionOf、owl:unionOf 和 owl:complementOf 实现集合操作功能

类公理 (class axioms):

子类别、等价类别、不相交类别分别属于rdfs:subClassOf关系、owl:equivalentClass关系以及owl:disjointWith关系。

在这里插入图片描述

语义网知识描述语言体系

XML遵循了某种基于文本的标记语言规范(如...),这种规范主要用于描述数据的结构和形式特征。然而,在此过程中并未对文档所表达的内容进行任何语义上的限制或约束。

RDF (http://www.w3.org/TR/2002/WD-rdf-concepts- 20021108/) 是基于 实体及其 间 关联 的数据模型。这种数据模型具有直观易懂的语义结构,并且可以通过XML语言进行表达。

 RDF Schema (http://www.w3.org/TR/2002/WD-rdf- schema-20021112/)是对RDF资源及其类与属性进行建模的核心命名空间层次结构模型,在此框架下明确了类与属性之间的层级关系。

OWL(http://www.w3.org/TR/2004/REC-owl-ref-20040210/)版本进一步扩展了新增的知识表示本体元素集合, 为描述类与属性提供了更为全面的知识表示能力, 并支持基于这些本体元素进行有效的推理过程

在这里插入图片描述

7. 知识图谱中的知识表示

知识图谱的概念源于Google公司的知识图谱项目,在使用Google搜索引擎的过程中可见于搜索结果右侧的知识展示区域中。

在这里插入图片描述

截至2016年底,Google 知识图谱已累计存储了600亿条知识数据,在涵盖1500个类别下的5.7亿个实体及其间的3.5万种关系上取得了显著成果。

实体、关系和事实

实体 (entity):现实世界中可区分、可识别的事物或概念。

  • 客观对象:人物、地点、机构
  • 抽象事件:电影、奖项、赛事
在这里插入图片描述

关系 (relation):实体和实体之间的语义关联。

  • BornInCity, IsParentOf, AthletePlaysForTeam

事实陈述(fact):一般以(head entity, relation, tail entity)三元组形式表达实体间的关系。

狭义知识图谱

狭义知识图谱:具有图结构的三元组知识库。

知识库中的实体相当于知识图谱中的节点。
知识库中的事实表示为知识图谱中的边,
其中每条边的方向是从头实体指向尾实体,
而每条边的类型即为两个实体之间的关系类型。

在这里插入图片描述

知识图谱特性

在现有研究中,知识图谱通常不侧重于为知识框架建立严格的理论化定义,在现有研究中

知识图谱的独特之处在于其独特的结构特征,在此基础上可在知识图谱中执行搜索、随机游走以及网络流等大型的图形算法,并使其与数学中的群论以及概率论等相关领域发生交融。

8. 分布式知识表示

基本概念:通过向量空间模型将符号化的实体及其关系进行量化表达,在保证计算效率的同时最大限度地维持了原始数据中的结构信息

  • 在向量空间中对实体与关系进行表示时(采用向量、矩阵或张量形式)。
  • 构建打分函数用于评估三元组成立的可能性。
  • 提出优化问题并学习出低维连续向量来表征实体与关系。
在这里插入图片描述

¹Wang et al. 对知识图谱嵌入进行研究综述:方法与应用概述. IEEE TKDE, 即将发布于2017年. http://ieeexplore.ieee.org/document/8047276/

方法类型:

该模型通过引入一种新的计算机制(translational distance models)来实现对三元组关系的评估(evaluate the likelihood of triplets)

语义匹配机制 ( semantic matching mechanisms ):通过相似性评分函数评估三元组的有效性。

在这里插入图片描述

位移距离模型

代表性方法:TransE及其变种

该关系连接起...

在这里插入图片描述
在这里插入图片描述

语义匹配模型

代表性方法:RESCAL及其变种

  • matching(relation, composition(head, tail))
在这里插入图片描述

代表性方法:神经网络

matching via neural network architectures

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

模型训练

开放世界假设 (Open World Assumption, OWA):知识图谱主要包含所有正确的事实,在这些事实中未被包含的事实要么存在错误性,并非遗漏的结果

在这里插入图片描述

关键:以何种策略生成负样本。

在这里插入图片描述

closed-world assumption (CWA):任何未在知识图谱中出现的事实都可被视为错误的信息

在这里插入图片描述

等价于分解由知识图谱表示成的三阶张量。

在这里插入图片描述

9. 本章小结

一阶谓词逻辑表示法

用实体、属性描述符、量词以及逻辑连接项的形式来表征事物的状态、属性及其相关的事实性信息的同时用于描述事物之间的因果关系及其内在规律

 定义谓词及个体,确定每个谓词及个体的确切含义。

 依据所要表达的事物,为谓词中的变量赋以特定的值。

 用逻辑联结词将各个谓词连接起来形成谓词公式。

 优点:精确性、通用性、自然性、模块化。

 缺点:表示能力差、管理困难、效率低。

产生式规则表示法

产生式系统结构:数据库 + 规则库 + 推理机

在这里插入图片描述

数据库:不仅存储已知事实、推理的中间推论以及关键结论。
规则库:存储所有与求解问题相关的规则作为基础。
推理机:负责调节系统运行以确定解决问题路径。

框架表示法

数据结构用于描述所讨论对象的属性其组成部分包括框架名关系字段侧面信息和数据值四个部分

 框架类型:类框架 + 实例框架

 层次结构:子类-subclass of->父类、实例-instance of->类

 优点:结构化、继承性、自然性、模块化。

 缺点:不能表示过程性知识、缺乏明确的推理机制。

脚本表示法

脚本则在具体情境中呈现现实事件的基本框架。
包含进入条件设定与角色互动的必要前提以及道具配置与场景设置的基础要素,
并最终得出相应结果。

缺点:从目前的表现来看,在表达能力方面确实存在一定的局限性。具体而言,在对象的基本属性描述方面存在不足,并且在复杂事件的发展趋势分析上也显示出一定的缺陷。

优点:在狭窄的专业领域内,脚本能够精确描绘流程及其时间顺序,并专用于处理预定的知识体系及其执行流程以及预设的任务序列与相关事件。

语义网表示法

语义网开发了一种体系化方案专门用于数据的描述,并通过形式化的手段对知识领域的核心概念、专业术语以及它们之间的关联性进行建模。

在这里插入图片描述

XML (http://www.w3.org/XML/)遵循了表层语法这一特征,但该系统未对文档含义施加任何语义约束.

RDF(http://www.w3.org/TR/2002/WD-rdf-concepts-20021108/)是一种基于实体及其之间关联的数据框架,在这一模型中支持了简单语义,并且可以用XML语法进行表示。

 RDF Schema (http://www.w3.org/TR/2002/WD-rdf- schema-20021112/) 代表一组描述RDF资源及其相关属性 的建模语言,并包含了这些资源类别及属性之间的层次化组织结构 信息。

该高级版本OWL规范新增了一系列作为建模基础元素的功能模块,并在语言框架上实现了更为灵活的数据模型构建能力;同时在逻辑推理机制方面也进行了相应的优化与扩展。

知识图谱中的知识表示

 狭义知识图谱:具有图结构的三元组知识库。

 知识库中的实体作为知识图谱中的节点。

在知识图谱中,知识库中的事实构成边,并通过这些边的方向由头实体指向尾实体来体现它们之间的联系。每条边的类型即表示两个实体之间的关系类型。

在这里插入图片描述

分布式知识表示

核心思想:通过将符号化表示的实体与关系嵌入到低维连续向量空间中,在既能实现计算过程中的简化又能在一定程度上保持原始图结构的信息完整性。

 实体关系表示(向量/矩阵/张量)

 打分函数定义(距离函数/相似度函数)

 表示学习(开放世界假设/封闭世界假设)

在这里插入图片描述
在这里插入图片描述

加油!

感谢!

努力!

全部评论 (0)

还没有任何评论哟~