文档级关系抽取小结及论文阅读:Document-Level Relation Extraction with Reconstruction
Document-Level Relation Extraction with Reconstruction
-
一、背景介绍
-
二、相关工作
-
- 1、Attention Guided Graph Convolutional Networks for Relation Extraction
- 2、Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network
- 3、Connecting the Dots: Document-level Neural Relation Extraction with Edge-oriented Graphs
-
三、本文方法
一、背景介绍
关系抽取是自然语言处理中的一项重要任务,通过从纯文本中抽取结构化的实体关系事实,可用于自动构建和扩充知识图谱。目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系,在实践中受到不可避免的限制:在真实场景中,大量的关系事实是以多个句子表达的 。文档中的多个实体之间,往往存在复杂的相互关系。根据从维基百科采样的人工标注数据的统计表明,至少40%的实体关系事实只能从多个句子联合获取 。因此,有必要将关系抽取从句子级别推进到文档级别。
以下图为例,就包括了文章中的两个关系事实(这是从文档标注的19个关系事实中采样得到的),其中涉及这些关系事实的命名实体用蓝色着色,其它命名实体用下划线标出。为了识别关系事实(Riddarhuset,country,Sweden),必须首先从句子4中抽取Riddarhuset位于Stockholm的关系事实,然后从句子1确定Stockholm是Sweden的首都,以及Sweden是一个国家,最后从这些事实推断出Riddarhuset的主权国家是瑞典。
目前通用领域常用的文档级关系抽取数据集有DocRED,医学领域有CDR,CHR和GDA等。
二、相关工作
1、Attention Guided Graph Convolutional Networks for Relation Extraction
该论文发表于ACL2019,是较早使用图注意力网络来做关系抽取的。作者认为使用剪枝GCN的策略并不能获得最优的图结构,剪枝过程中有可能把有用的信息删除,也有可能保留没用的噪音。因此提出软剪枝策略,即以词为节点构建一个全连接图,使用自注意力机制的权值来表示边值,让模型自动选取有用的信息。模型主要有两个特点:(1)多层图网络间使用残差连接,作者认为残差连接可以促进大图中的信息传播,使模型能够更有效地学习到长距离依赖。(2)使用多头注意力机制,更有效地学习到相关信息而且过滤噪音。在文档级关系抽取上,作者并没有做额外的处理,只是把句子拼接在一起看作是单句子的关系抽取任务,但是依然在跨句子多元关系抽取任务上取得了非常好的效果。
2、Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network
本论文亦发表于ACL2019,跨句子的关系抽取需要局部和非局部的语法、语义依赖,目前存在的方法大都没有利用到这种依赖关系。如下图所示是句子存在非局部依赖的情况(来自CDR数据集的例子),红色箭头表示一个共指关系,红色箭头表示语义依赖关系。因此,作者构建了一个带标签边的图卷积神经网络用于跨句子的关系抽取。

本文的第一个重要内容是文档图的构建,作者以词作为节点,把边分为五种类型:
语法依赖边 :在依存句法结构中存在的边。
共指边 :两个词之间存在共指关系。
相邻句子边 :把两个相邻句子语法树的root节点相连的边。
相邻词边 :相邻的单词亦存在边。
自循环边 :在学习过程需要节点自身信息,所以有一条指向自己的边。
然后使用不同的GCNN模块学习不同类型的边,为了避免参数太多导致过拟合,作者只对top-N的边类型使用不同的GCNN,剩下的类型使用相同的GCNN。
本文的另外一个内容是使用多示例方法进行关系分类。因为一个实体在一篇文档中可能有多个提及, 作者使用bi-affine来聚集所有目标提及对的预测结果,作为对实体对的预测。首先使用两个不同的MLP(Head MLP和Tail MLP)生成每个词的两个表示 ,然后使用如下公式计算得到实体对的得分。

3、Connecting the Dots: Document-level Neural Relation Extraction with Edge-oriented Graphs
本篇论文发表于EMNLP2019,目前大部分文档级关系抽取方法都是把词作为图节点,而且只用目标实体的节点表示来编码关系。作者认为通过实体间的路径形成的独一无二的边表示能更好地表示关系,所以构建了一个基于边的图神经网络用于文档级关系抽取。
节点构建 :作者根据文档级关系抽取任务的特点,构建了三种节点类型。
1)提及节点:提及是一个实体出现在文本中的具体形式,取提及中所有词的平均表示。
2)实体节点:实体是标准化的名称,具有数据库的ID,取实体所对应所有提及的平均表示。
3)句子节点:表示一个句子,取句子中所有词表示的平均。
边构建 :作者使用启发式规则和节点间的天然关系来构建边。
提及-提及(MM):两个提及在同一个句子。
提及-句子(MS):一个提及出现在该句子里。
提及-实体(ME):提及与该实体相关。
句子-句子(SS):连接图中所有的句子节点,编码非局部信息。
实体-句子(ES):当实体至少有一个提及出现在句子中。
对于每种边都使用不同的规则生成了一个表示,有兴趣的话可以阅读原文了解。同时实体-实体间是不存在边的,因为事先无法判断实体间的关系,实体对间的关系由实体间的路径上存在的边产生。
关系推理 :根据上面的的方法初始化图中的边,而EE边是缺失的,使用迭代方法生成新的边和更新存在的边。
第一阶段:对于图中所有的节点,通过中间节点k来连接节点i和j,ik + kj- >ij,生成新表示。
第二阶段:如果i,j节点间之前存在边,则把原始边和新生成的边聚合得到新的表示。
经过有限次迭代后,所有实体间都可以通过边相连,然后根据包含丰富信息的边知识进行实体的关系分类。
三、本文方法
本文发表于AAAI2021,在文档级的关系抽取领域,基于图的方法取得了非常好的效果,但是作者认为这些方法通常把所有实体对的重要程度都是看作是同等的,而忽略了实体对之间是否存在关系。作者基于相关工作3的方法,在不需要额外语法知识的情况下把输入的文档转化为一个异构图,然后使用图注意力神经网络来编码图信息。
因为文档级别的关系抽取中,一对实体可能存在于不同的句子里,因此构建了一个文档级别的异构图。异构图中包含三种不同的节点,分别是句子(句子)、提及(提及)和实体(实体)。如下图所示,该文档中有两个句子(黄色) ,四个提及(蓝色 )和三个实体(绿色) 。可以构建右边这样一个图,图中共有六种边:提及-提及(MM) 边, 提及-句子 (MS) 边, 提及-实体 (ME) 边, 句子-句子 (SS) 边,实体-句子 (ES) 边和提及-共指 (CO) 边(4和5) 。

然后使用GAT进行编码,计算公式如下所示,vn是第n个词的初始表示,sn是GAT中词的隐层表示,l表示第几层,qn是GAT是编码后的词表示。使用了残差连接和自注意力机制,这个大家应该都熟悉。最后是接一个分类层,使用sigmoid函 数和二分类交叉熵损失函数。

本文提出了一种路径重建方法,首先介绍一下元路径的概念(想要详细了解可以参考Sun等)。基于上面的异构图,作者提出了三种元路径:
1) 模式识别:路径形式是EM MM EM,如节点序列{7,3,4,8},即两个实体通过一个句子的提及到达。
2) 逻辑推理:路径形式是EM MM CO MM EM,如节点序列{7,3,4,5,6,9},两个实体通过一个桥实体连接。
3) 共指推理:路径形式是ES SS ES,如节点序列{7,1,2,9},需要有共指消解,有指代词指向前面句子的实体。
对于一对实体,按照元路径1>元路径2>元路径3的规则选择出一个路径,如果同一个元路径存在多条,则选择出现的第一条。选择出路径后,对于路径上的节点使用LSTM进行编码,然后利用softmax计算节点在路径上的概率,所有节点概率相乘就是路径概率,计算公式如下:



在训练阶段把重建路径概率值作为对实体对之间是否有关系的判断,计算一个预测损失,最大化有关系的概率,最小化无关系的概率,计算公式如下:

在推理阶段,把该概率值作为预测的一部分来帮助对该对实体间关系的判断,通过重建路径的方法,让模型更加关注于有关系的实体对,从而提高模型的效果。如下:

作者在DocRE数据集上进行了大量的实验,结果表明了所提出方法的有效性。这里提出一个疑问,作者为何不在多个数据集上实验,比如CDR,在CDR数据集上是否能够达到作者所参考论文的结果。
参考文献:
https://zhuanlan.zhihu.com/p/93318977
Attention Guided Graph Convolutional Networks for Relation Extraction
Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network
Connecting the Dots: Document-level Neural Relation Extraction with Edge-oriented Graphs
Document-Level Relation Extraction with Reconstruction
