知识图谱学习(二)(笔记整理)
知识图谱的整体架构:

构建知识图谱是一个不断更新迭代的过程,在每个迭代周期主要包含三个环节:
- 信息抽取:从不同数据来源中提取实体、属性及其相互关联关系,在此基础上形成本体化的知识表达;
- 知识融合:在获取新知识后需进行整合处理,在此过程中需消除矛盾和歧义;
- 知识加工:经评估后需人工审核一部分内容以确保质量。
信息抽取
信息抽取是一种通过自动化的方式从半结构化或完全无结构的数据环境中提取出 entities, 它们之间的关联关系以及与这些 entities 相关的 attribute 信息的技术。
具体来说, 信息抽取涉及三个主要部分: 实体识别, 关系识别以及 attribute 提取.
实体识别过程 ,也可被称为命名实体识别(named entity recognition, NER),旨在从文本数据集中自动化地进行命名实体识别。
研究历史:从面向单一领域进行实体抽取,逐步跨步到面向开放域的实体抽取

关系提取 ,经过对文本数据进行命名实体识别后会得到一系列孤立的命名实体,在进一步分析相关语料资料的基础上完成对各孤立命名实体间相互联系的识别工作,并通过建立相互联系的方式构建网络化的知识体系。
研究历史:
1. 人工构造语法和语义规则(模式匹配)
2. 统计机器学习方法
3. 基于特征向量或核函数的有监督学习方法
4. 研究重点转向半监督和无监督
5. 开始研究面向开放域的信息抽取方法
6. 将面向开放域的信息抽取方法和面向封闭领域的传统方法结合

- 属性抽取 涉及从不同信息源中获取特定实体的属性信息。例如,在网络公开资料中可以提取到某位公众人物的昵称、生日、国籍以及教育背景等详细信息。

研究历史:
1. 将实体的属性视作实体与属性值之间的一种名词性关系,将属性抽取任务转化为关系抽取任务。
2. 基于规则和启发式算法,抽取结构化数据
3. 基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取。
4. 采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。
知识融合
基于信息提取,在对原始非结构化及半结构化数据进行处理后,我们能够系统地获得与研究相关的具体对象及其相互关联的信息内容。然而,在现有知识表示中这些关联依然呈现扁平化的状态,并缺少系统性的组织框架;提取出的知识呈现碎片化特征,在质量上还存在明显不足;因此有必要对现有知识表示方式进行优化整合。为了改善现有不足 **, 知识融合成为必要的技术手段; 主要包含两个关键方面: 实体关联与语义相似度提升; 以及基于语义的知识整合; **
在信息抽取任务中进行实体识别的过程中,
** entity linking ** 是一种重要的基础技术。
它主要基于的是如下流程:
首先利用输入语义分析获取待识别的命名实体词,
通过自然语言处理技术从输入文本中提取,
并将其映射至预训练的知识库中。
主要的工作流程包括以下几个步骤:
第一步是通过语义相似度评估算法初步筛选出若干候选候选词;
第二步则是结合外部属性信息和领域知识特征向量进行精确匹配确定最终目标实体。
研究历史:
1. 仅关注如何将从文本中抽取到的实体链接到知识库中,忽视了位于同一文档的实体间存在的语义联系。
2. 开始关注利用实体的共现关系,同时将多个实体链接到知识库中,即集成实体链接(collective entity linking)

- 知识合并 :实体关联关系建立的是从半结构化资源与非结构化资源中通过信息抽取技术获取的知识节点。此外,在现有资源之外还存在其他形式的组织化资源如企业内外部知识库以及企业关系数据库等。对于这部分组织化资源的处理工作即属于知识融合范畴的内容。
知识合并主要分为两种:
合并外部知识库,主要处理数据层和模式层的冲突;
合并关系数据库,有RDB2RDF等方法
知识加工
知识加工主要包括3方面内容:本体构建、知识推理和质量评估。
- 本体构建
本体可以通过人工编辑的手工方式进行构建(依托本体编辑软件辅助实现),也可以基于数据的自动化方法构建本体。由于手工构建的工作量极大且难以找到合适的专家来完成任务,因此当前主流的做法是选择一些面向特定领域已有的本体知识库作为基础,并通过自动构建技术逐步扩展完善现有的知识体系。
自动化本体构建过程包含三个阶段:
实体并列关系相似度计算 、实体上下位关系抽取 、本体的生成

- 知识推理

知识推理的内容不仅包括实体间的关系这一类别,还包括实体属性值以及本体概念层级关系等多种形式.这里的算法被划分为三类:一类是以逻辑规则为基础进行的推理;另一类是利用图结构进行分析;第三类则是借助深度学习模型实现的推理技术.

质量评估*:质量评估机制可以通过对知识的信任程度进行量化评估,并通过筛选出高信任度的知识内容以提高知识库的整体质量
