Advertisement

【知识图谱导论-浙大】第三、四章:知识图谱的抽取与构建

阅读量:

前文:

知识图谱导论-浙大

知识图谱导论-浙大

知识图谱导论-浙大

知识图谱导论-浙大

基于《知识图谱入门》(浙江大学)

知识图谱导论-浙大

注释:原视频中的第三章重点讲述了相关内容,建议查阅相关的课件或对应的视频。

【知识图谱理论】(浙大2022知识图谱课程)第三讲-知识图谱的存储与查询

本文对应的视频链接如下:

【知识图谱理论】(浙大2022知识图谱课程)第四讲-知识图谱的抽取与构建

背景

在传统知识工程领域中存在知识获取方面的瓶颈问题。人类大脑大致包含了十亿个神经元,在这些神经元之间形成了错综复杂的联系网络。基于这种复杂结构的人工仿生计算系统通常需要占用百PB级别的计算资源。如果我们假设这些参数足以完整地模拟人类大脑的知识结构,则需面对巨大的技术挑战才能实现类似规模的知识存储与应用能力?单个人脑中的知识储存仍是有限度的,在这种前提下要实现全人类范围的知识积累就必须依赖于自动化技术的支持才能避免重复劳动的问题。

深度学习的一个重要突破在于其在感知层面上的能力,它带来了对物体及其特征精准识别的新方法,然而仅凭这一能力就已远显不足.当我们观察一张图像时,不仅需要辨识其中存在的物体及其特征,还需解析图像中物体之间存在的相互关联性,并由此从感知中提取信息以构建知识体系,进而上升至认知层面形成系统的认识.

通过观察世间万象而非仅仅识别它们的存在,人类获得了关于世界的初步认知,从而形成了关于世界的基本概念。为了便于表达这些认知,人类创造了一种独特的交流方式——语言。不同概念之间的结合产生了逻辑结构,基于这些逻辑结构来进行推理活动。随着人类对事物之间关系的理解达到更深一层,他们获得了更为复杂的知识体系。例如利用数学符号建立的模型就是依仗这些抽象出来的基本概念进一步构建起来的知识体系

让机器通过自动识别与感知的方式逐步构建概念, 从而发展出逻辑体系并生成模型, 这是一条漫长的道路需要持续探索与努力。鉴于仅凭机器实现对全部人类知识进行表示与自动化获取是一项极具挑战性的任务, 因此, 知识图谱无需再陷入传统知识工程的困境之中, 而是应该另辟蹊径寻求新的解决方案。基于此认识, 知识图谱将其关注的知识获取范围限制在更为明确的具体领域: 概念抽取、实体识别、关系抽取及事件抽取等基础认知任务上

知识图谱构建的数据主要来源:

  1. 规范化的数据存储形式
  2. 非规范化的数据存储形式
  3. 仅由文字组成的数据类型
  4. 包含声音、图像等多种形式的数据
在这里插入图片描述

从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱。

一般而言,在构建知识图谱工程项目时,主要依赖于已有的结构化数据实现系统的启动功能,并通过引入文本图谱等辅助数据的补充和完善来逐步丰富和扩展知识图谱的内容。

在现有关系数据库中提取最快捷直接的知识图谱数据的方法是基于预设的本体框架进行建模。常用的方式是通过构建与之匹配的知识表示系统实现这一过程。具体而言,在构建知识库时需遵循以下步骤:首先确定核心概念体系;其次设计合理的语义关联机制;最后建立跨模态的知识整合模式以确保数据的一致性与完整性

目前的主要任务主要基于文本数据提取知识图谱

  1. 实体识别作为一项核心技术,在自然语言处理领域发挥着重要作用。
    主要任务就是通过分析文本数据来实现对具体事物的名称和特征的标注与分类。
  2. 概念提取则是自然语言处理中的另一个关键环节。
    其主要功能就是通过自然语言处理技术从海量文本资料中提取出由多个词汇组成的专业术语或概念。
  3. 关系挖掘则是连接现实世界的重要手段。
    其核心目标就是通过对句子结构的分析来确定不同实体之间存在的关联关系。
  4. 事件识别是一项较为复杂的任务。
    它不仅需要识别触发关键词组合、时间戳定位以及空间位置标记等关键指标,
    还需进一步解析这些要素间的相互作用机制,
    进而构建完整的知识图谱以支持智能决策系统的发展。

实体识别与分类

实体识别与分类主要目标是从文本中识别实体的边界及其类型。例如:

在这里插入图片描述

基于规则和模板的命名实体识别

该方法就是构建模板,然后在文本中进行匹配。例如:

在这里插入图片描述

基于序列标注的方法

基于规则的方式具有明显的优缺点

在这里插入图片描述

在做序列标注之前,则是需要确定实体识别的序列标签体系,例如:

在这里插入图片描述

常见的序列标注模型有:

  1. 隐马尔可夫模型(HMM)
  2. CRF条件随机场
  3. 基于深度学习的实体识别方法
HMM在序列标注上的简单使用

HMM是一个有向图模型,基于马尔可夫性,假设特征之间是独立的。例如:

在这里插入图片描述

待识别的文本作为观测变量,文本对应的标签作为隐变量。

HMM要素定义

使用隐马尔可夫模型进行序列标注的描述如下:

  1. 隐藏状态集合Q分别对应所有可能的标签集合(即标签空间),其数量为N;观测状态集合V分别对应所有可能的词集合(即词汇空间),其数量为M。
  2. I表示长度为T的状态序列(即标签序列),O表示对应的观测序列(即由词组成的句子)。
  3. 状态转移概率矩阵A=[a_{ij}]{N×N}中元素a{ij}代表从当前隐藏状态i转移到下一隐藏状态j的概率。如B-ORG标签之后通常会转移到I-ORG标签。
  4. 发射概率矩阵B=[b_j(k)]_{N×M}中元素b_j(k)代表在当前隐藏状态j下生成观测词k的概率。
  5. 隐藏状态的初始分布Π=[π(i)]_N中π(i)代表初始状态下处于第i个隐藏状态的概率分布情况(即各个标签类型的先验概率)。
HMM的计算问题
  1. 计算观察序列的概率:基于给定模型λ=(A,B,Π)以及观测序列表示为一句话(例如,“浙江大学位于杭州”),计算在该模型下观测序列表现出来的概率P(O|λ),这通常采用前向后向算法来实现。
  2. 参数估计问题:即基于观测序列表示为一句话O,在给定条件下使得该条件下观测序列表现出来的条件概率P(O|λ)最大的过程。这一过程通常通过基于EM算法的鲍姆-韦尔奇算法来实现。
  3. 解码问题:也被称为维特比算法的应用场景之一,在这种情况下需要根据已知的状态转移矩阵和发射概率矩阵以及观测数据来进行推断以获得最可能的状态轨迹或标签轨迹。
求观测序列的概率:前向后向算法

问题:假设模型参数全知,要求推断某个句子出现的概率,处理过程如下:

在这里插入图片描述
模型参数的估计与学习
在这里插入图片描述

使用鲍姆韦尔奇算法-EM算法进行模型参数的估计与学习,如下:

在这里插入图片描述
解码隐藏状态序列:维特比算法

问题:给定训练好的模型,给定一句话,预测每个词对应的实体标签

在这里插入图片描述
在这里插入图片描述
CRF条件随机场
在这里插入图片描述
在这里插入图片描述
基于深度学习的实体识别方法

伴随着人工神经网络的发展, 深度学习模型具备实现实体识别所需特征的能力. 其主要流程如下(A Survey on Deep Learning for Named Entity Recognition. (TKDE2020))

在这里插入图片描述
BiLSTM+CRF模型

主要流程如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
基于预训练语言模型的实体识别

A Survey on Deep Learning for Named Entity Recognition. (TKDE2020)

在这里插入图片描述
实体识别解码策略

A Survey on Deep Learning for Named Entity Recognition. (TKDE2020)

在这里插入图片描述

实体关系抽取与属性补全

实体关系抽取为核心任务是识别出两个或多个实体间的语义关联;该过程也被视为从文本中提取图谱三元组的主要方法,并广泛应用于知识图谱的补全。例如,在自然语言处理领域

在这里插入图片描述

实体关系抽取有多种方法,如下:

在这里插入图片描述

随着深度学习技术不断发展,在特征提取方面基于端到端的方法能够显著降低特征工程的需求,并同时减少了对词性标注等预处理模块的需求;目前已成为关系抽取的主要研究方向

Piece-wise CNN Model——PCN

一种位置敏感的CNN关系抽取模型。

在这里插入图片描述

基于BiLSTM的关系抽取

针对CNN在处理长序列依赖时表现出的局限性问题,在RNN架构中存在梯度消失现象这一缺陷,在学术界已提出一种新型模型以解决上述挑战

在这里插入图片描述

其中LSTM用来编码语句:

在这里插入图片描述

Attention层学习权重:

在这里插入图片描述

基于图神经网络的关系抽取

图神经网络在图像领域取得的成功应用表明这种以节点为中心的方法同样能够有效地提取图像信息

通过构建基于句子依赖关系的图结构,并将此句中每个单词作为节点进行图卷积运算。从而能够提取此句的信息。通过池化操作后结合全连接层实现关系识别。

相关论文:Message-Passing Graph Convolution over pruned dependency structures enhances Relation Extraction performance. (EMNLP2018)

模型结构如下:

在这里插入图片描述

基于预训练语言模型的关系抽取

使用预训练语言模型做关系抽取的一些论文如下:

  1. 直接而有效的BERT架构在关系抽取任务和依赖解析中展现出卓越性能[J], 2019.
  2. ACL 2019会议上发表的论文均基于分布相似性展开研究
在这里插入图片描述

半监督的关系抽取

广为人知的是,在应用深度学习方法时通常会依赖大量标注数据;然而这些注释过程的成本相对较高。基于此,研究者们开发出了半监督式数据抽取方法

基于远程监督的关系抽取

使用比较多的是:基于远程监督的关系抽取。

远程监督的基本假设是:如果两个实体在知识库中具有某种关系,则包含这两个实体的非结构化句子都可能表示出这种关系

在基于远程监督的关系抽取过程中,会带来大量干扰数据;针对这一问题,在ACL2016会议上发表的论文《Neural Relation Extraction with Selective Attention over Instances》提出了基于多实例学习的降噪机制。

  1. 包含相同实体对的句子组成一个Bag
  2. 基于注意力机制选择样本
在这里插入图片描述

此外还有一种基于强化学习的降噪机制的方法,在 noisy data 的关系提取任务中表现出色。

  1. 基于强化学习的机制,在分析当前句子特征的基础上进行样例选择;
  2. 通过关系分类器的反馈机制更新相关参数以优化选择策略
在这里插入图片描述
基于Boostsrapping的关系抽取

这种方法的核心理念在于利用有限实例构建初始种子集,并通过后续的学习过程获得新的规则数据库。随后基于原有与新获得的规则库提取新增元组,并不断更新种子集。通过持续迭代机制从非结构化数据中挖掘潜在的三元组模式。

在这里插入图片描述

该研究遵循了标注数据的思想,并结合了神经网络的先进学习机制,在AAAI2020会议上提出了名为'Neural Snowball'的新方法。

在这里插入图片描述

通过利用现有的语义信息来提取新关系。然而这种做法也不是完美无缺的,并且容易出现语义漂移现象

在这里插入图片描述

新增加的实例与种子不相关。解决语义漂移的方法也有不少,例如:

  1. 设置最大迭代次数,并且数值越大将导致漂移现象的影响越大。
  2. 通过语义类型Semantic Type对样本进行过滤和约束处理。
  3. 在抽取结果之后进行类型验证。

属性补全

具体而言,属性补全是指对于实体所具有的属性及其对应的值完成填充过程。在现实世界中,则要求任何事物都必须被详细刻画以体现其本质特征。

在这里插入图片描述

主要的解决方案有:抽取式和生成式。

该技术已成功应用于商品属性补齐。通过核心属性补齐工作,则有助于买家选择决策、促进导购效率提升以及辅助优质产品 selection. 解决方法:利用算法的图文识别能力,在图片中识别出商品所属类目、同款型号及品牌信息。

在这里插入图片描述
在这里插入图片描述
抽取式的属性补全

从原始文本数据中提取特定的词汇,并生成预测的属性值集合。为了确保准确性,必须确保预测出的属性值必须存在于原始数据集中。

在这里插入图片描述

这里也可以使用序列标注的方式来进行属性的抽取。

该方法的特点仅限于从输入文本中提取属性值来进行推断,并且预测得到的属性值必然存在于输入文本中。同时该方法具有一定的可解释性,并且准确性也有显著提升。

生成式的属性补全

生成属性值时,并不需要输入文本中的现有属性值;即使模型在训练数据中未曾见过该属性值。

请添加图片描述

该方法的主要优势在于能够推导出未在当前数据集中记录的属性信息;其限制条件在于仅能推断具有统计显著性的核心特征,并因此导致大量潜在属性无法被获取;此外其推导结果缺乏清晰的意义关联。

拓展

现有基于Pioline的关系抽取方法与基于Joint方案的方案各有特点。\n其中Pioline方法通常是通过先提取实体信息再进行关系间的提取。\n而Joint方案则是直接将实体信息以及实体间的关系一次性提取出来。\n值得注意的是Pioline方法可能会导致误差传递现象出现,并且其对实体识别结果具有较强的依赖性。\n

采用基于联合实体与关系抽取的方法进行实体识别与关系提取同样能够借助序列标注技术来实现;在此处重点探讨如何设计有效的标注方案...其具体架构如下所示:

在这里插入图片描述

现实中还存在实体嵌套的情况,则如何针对这种情况进行解决呢?

在这里插入图片描述

现实中的实体间往往涉及多种相互关系,在传统模式主要用于单标签关系抽取的情景下,** 那么该怎么办?** 学者们提出了基于注意力机制的动态路由 capsule 网络以解决这一问题(EMNLP2018)。

结构如下:

在这里插入图片描述

如图所示,模型首先通过预训练的词向量表示将句子中的词转化为低维空间中的向量;接着通过双向长短期记忆网络提取出句子级别的粗粒度特征表示,并将这些特征传递至胶囊网络进行进一步处理。具体而言,在胶囊网络中首先生成基础级别的primary capsule单元;随后经过动态路由机制选择性地聚合这些primary capsule单元以构建最终的output capsule集合。每种output capsule的模长能够量化其对应类别标签的概率分布情况。

在现实中,在涉及多个实体的情况下进行关系抽取是一个持续存在的挑战性问题,在传统的知识图谱构建过程中主要关注的是单一对实体之间的关系提取工作,在实际应用中遇到的问题也相应地变得更为复杂

例如订购关系中所涉及的主要实体包括买卖双方及商品实体。研究者基于图神经网络的Pointillist方法提出了一种新型的跨句关系抽取框架Graph LSTM模型:Cross-Sentence N-ary Relation Extraction Framework The framework leverages Graph LSTM模型以实现对多实体间复杂关联关系的自动学习与推理 TACL 2017年发表的相关研究论文

在这里插入图片描述

对于一些复杂的环境中,某些实体之间的关系往往分布在多个句子中,并且也可能体现在一篇长文中。这便带来了新的挑战:跨句与篇幅的关系抽取。研究者们则提出了相应的解决方案:Incorporating Relation Paths in Neural Relation Extraction(EMNLP 2017),具体内容如下:

在这里插入图片描述

篇章级别的抽取问题相对复杂,难度也比较大。

概念抽取

概念是人类将所感知事物的共同本质特点归纳概括出来的表达方式。其中概念间的关系主要包含isA关系和subclassOf两类。这些概念常用于本体构建领域进行知识表示与组织。例如:

在这里插入图片描述

认知的基础在于建立清晰的概念:通过建立概念能够更好地识别并区分同类事物的本质特征,在生物分类学中,“昆虫”这一基本分类有助于我们识别所有具有翅膀、六条腿特征的生物群体;在此基础上进一步深化认识:通过系统的学习与实践可以逐步掌握更多关于生物行为和社会组织的知识体系。
当遇到危险时动作为何 instinctive response?这是因为捕食者的存在威胁到了自身的生存安全;而食物链中的每一个环节都在传递着能量与资源:老虎作为顶级捕食者其食物链中的位置决定了其在生态系统中的重要性。

实体及其概念在自然语言处理中所处的语言上下位关系中存在密切联系。例如,在A is A B的情形下,则一般认为AB的下位词而B则是A的上位词。

概念抽取并构建成无环图的过程又被称为Taxonomy。

概念抽取的几种方法

在这里插入图片描述

基于深度学习的方法通常将任务转换为序列标注任务进行解决。

概念知识的应用

概念知识可以帮助机器理解自然语言。如:

在这里插入图片描述

概念知识可以帮助理解搜索意图,获得更加准确的结果,如:

在这里插入图片描述

事件识别与抽取

事件既是另一个哲学问题,在知识图谱理论中认为:事件是指在特定时间节点或区间内发生于某一特定地域范围内,并由一个或多个主体承担的行为过程或状态转变的结果

其中,在于各种动作或状态的变化能够体现为若干类型的具体表现;在同一种类的具体表现中各具特色的因素对应于各自独立的实例;在同一种类的具体表现中由细致入微的因素对应于多层次的具体情况

在这里插入图片描述

事件识别:从无结构文本中自动提取结构化事件知识。具体来说,涉及哪些人或组织,在哪个时间段,在某个地点进行了哪些活动。

在这里插入图片描述

基于此逻辑设计的系统架构中包含以下核心功能模块:信息抓取与处理模块、数据存储与管理模块、决策支持与优化模块

在这里插入图片描述

进行事件要素提取工作。确定参与该事件的具体实体;划分角色类别(Argument Role),明确每个参与实体在其所处情境中的具体角色。

在这里插入图片描述

事件抽取方法

基于模式匹配的抽取方法

基于模式识别机制的事件抽取过程指的是识别特定类型事件并按照预设模式进行提取的过程

首先包含两个假设:

  1. 在确定该元素与事件之间的关系时,在其首次被提及的位置即可完成这一过程。
  2. 该处所涉及的语句中包含着对这些要素在当前情境下的角色说明。

然后通过句法分析和人工标注规则匹配的方式实现事件抽取。

在这里插入图片描述

建立在人工标注数据集上的模式匹配方法中, 模板生成过程主要依赖于人工标注数据的质量. 为了提高学习效率, 在现有研究中逐渐出现了弱监督模式匹配的技术.

基于弱监督的模式匹配技术:由于人工标注工作量大且容易出现不一致现象;该方法无需对所有数据进行详尽的标注工作,在仅需人工设定大致类别或提供参考模板的基础上即可实现机器通过学习算法自动生成模式描述

以AutoSlog-TS系统为例说明其工作原理时会发现其独特之处:无需对原始文本进行标注处理仅需提供预分类好的训练数据即可完成任务判断其类别是否为与该训练数据相关的类型在处理过程中系统首先遍历了整个语料库针对每个名词短语进行语法分析后生成相应的抽取规则经过全局扫描再次统计各条规则的数据量统计结果显示 在相关类型的数据中出现频率更高的抽取出原则将会被优先选择通过弱监督学习方法能够有效地缓解这一问题同时这种设计也使得模型 training 的资源消耗得到了显著降低

其核心理念:在相关文本中更为常见的抽选规则很可能成为好的抽选规则

在这里插入图片描述

基于模式匹配的方式在特定领域内表现出色,并且相对容易理解并适合后续的应用;然而,在语言、领域以及文档形式等方面都存在不同程度的依赖,在某些情况下覆盖范围及移植性相对有限;此外,在模式匹配的过程中,模板准确性直接影响整体方法的表现程度,并且其主要特点表现为高准确率但召回率较低。

基于机器学习的抽取方法

这里主要了解一下基于神经网络的事件抽取方法:DMCNN。模型结构如下:

在这里插入图片描述

所引用的研究文献涉及动态多池化卷积神经网络在事件抽取中的应用。(ACL2015)

它视事件抽取过程为双阶段分类任务。首先进行触发子类别的识别,在此过程中运用dmcnn模型对句子中的每一个关键词进行分析与归类。当检测到存在这些关键触发词后,则进入第二阶段的任务——要素识别。同样地,在这一步骤中使用dmcnn模型来确定这些关键术语对应的语义属性,并完成将这些语义属性关联到具体的角色实体上。

该类方法均存在一个共同局限性即对大规模标注数据依赖较强。为此学术界已探索出多种改进方案其中一类便是结合弱监督学习技术以减少对标注数据的需求。其中一种创新性思路是通过整合外部知识库进行弱监督的学习机制从而提升模型的泛化能力。
例如该研究者提出了名为"FrameNet增强自动事件检测系统"的方法并将其应用于 ACL 2016 年会议。

其中:

  1. FrameNet是由语言学家构建与标注的语义框架资源,并采用基于层次结构的设计。
  2. 两者在语义框架构建方面具有高度的一致性;
  3. 首先使用ACE数据训练分类器来识别FrameNet中的事件类型;接着通过全局推断将FrameNet的语义框架与ACE中的事件类型建立对应关系。
在这里插入图片描述

知识抽取的前沿技术

基于深度学习的知识抽取方法主要高度依赖于海量标注数据的支持。在真实的数据集中,数据通常呈现出长尾分布特征,并且高昂的标注成本则会直接影响模型性能。知识抽取面临着巨大的挑战,在少样本和零样本场景下表现尤为突出;比如,在仅包含有限实例且涵盖特定关系类型的数据集上训练的知识模型,在测试阶段往往难以识别这些特定的关系类型;此外,在缺乏足够训练实例的情况下,这类模型也无法捕获未在训练集中出现的新关系。

知识处于持续更新的状态。
我们同样要求模型能够不断学习并获取新知识。
然而,在模型持续学习新知识的过程中出现的问题主要是遗忘现象。
这些问题衍生出了几个关键研究方向:
针对少样本的知识提取,
零样本的知识获取,
以及永续性的持续积累。

少样本知识抽取

人类可以通过少量样本学习知识。然而尽管机器通常需要很多数据来获得预测能力。为了使机器实现少样本学习能力的研究成为学者的重点课题。经典模型主要聚焦于在有限数据环境下提升学习效率与准确性。

  1. N-way-K-shot
  2. 原型网络

原型网络:Prototypical networks for few-shot learning. (NeurIPS2017)

在这里插入图片描述

对于每一个类别中的多个样本来说,在利用特征的平均值来确定该类别对应的中心点时,在测试集中的未知数据点X被引入后,在衡量未知数据点X与各类别中心之间的距离之后,在依据这些距离值的结果进行分类。

少样本问题因其易受噪声干扰而具有显著挑战性,在此背景下有学者提出了一种基于混合注意力机制的新型原型网络架构以解决少样本关系抽取问题

在这里插入图片描述

除此之外还有:我们采用了基于实体关系原型网络的少样本知识抽取方法(Bridging Text and Knowledge with Multi-Prototype Embedding for Few-Shot Relational Triple Extraction, COLING2020),用于抽取三元组

在这里插入图片描述
在这里插入图片描述

我们认识到,在三元组抽取过程中涉及的是实体及其相互关系。通过基于 prototype 网络的方法学习这些实体和关系的原型表示形式,在较少样本的情况下完成知识获取。

零样本学习

Zero-shot learning (ZSL, zsl), 利用可标注的数据集及其对应的标签信息训练模型以推断目标领域未标记的数据表现。

在这里插入图片描述

当前使用的主要方法有:重新定义问题框架,并构建从输入特征空间到语义空间的映射关系。

基于阅读理解的方法实现零样本关系抽取:将该类任务视为阅读理解问题进行处理。针对已知一个实体及其与之相关的关系信息,在这种情况下提取另一个相关联的实体。Zero-Shot Relation Extraction via Reading Comprehension. (CONLL2017)

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~