Advertisement

Graph Convolution over Pruned Dependency Trees Improves Relation Extraction 论文研读

阅读量:

摘要

依存树可以帮助关系抽取模型捕捉单词之间的长距离关系。然而,现有的依赖关系模型要么过于积极地修剪依存树而导致忽略一些关键信息(例如否定关系),要么就很难在不同的树结构上并行计算而导致计算效率很低。我们提出了一种为关系抽取定制的扩展的图卷积网络,它可以有效地并行汇集任意依赖结构上的信息。为了在最大限度地移除不相关内容的同时合并相关信息,我们进一步对输入树应用了一种新的剪枝策略,将单词直接保存在两个实体之间的最短路径周围,在这两个实体之间可能存在关系。所得到的模型在大规模TACRED数据集上实现了最先进的性能,优于现有的基于序列和依赖的神经模型。我们还通过详细的分析表明,该模型与序列模型具有互补的优势,并将它们结合起来进一步提高了技术水平。

1.引言

关系抽取涉及识别句子中两个实体之间是否存在关系(通常分别称为主语和宾语)。成功的关系抽取是需要对大规模非结构化文本进行关系理解的应用的基石,例如问答(Y u等人,2017)、知识库群体(张等人,2017)和生物医学知识发现(Quirk和Poon,2017)。利用输入句子的依赖分析的模型,或基于依赖的模型,已被证明在关系抽取中非常有效,因为它们捕获了仅从表面形式看不清楚的长期句法关系(例如,当存在长子句或复杂范围时)。传统的基于特征的模型能够通过将依赖树特征化为沿着树的重叠路径来表示依赖信息(Kambhatla,2004)。然而,这些模型面临特征空间稀疏的挑战,并且容易受到词汇变化的影响。更近的神经模型解决了这个问题,它们的分布式表示是从沿着解析树形成的计算图中构建的。利用依赖信息的一种常见方法是沿着实体的最低共同祖先(LCA)下方的解析树或子树执行自下而上或自上而下的计算(Miwa和Bansal,2016)。另一种流行的方法,受布内斯库和穆尼(2005)的启发,是将解析树简化为实体之间的最短依赖路径(徐等人,2015a,b)。
然而,这些模型受几个影响。直接在解析树上运行的神经模型通常很难并行化,因此计算效率很低,因为为了高效的批处理训练而对齐树通常并不重要。基于主体和对象之间最短依赖路径的模型在计算上更有效,但是这种简化的假设也有很大的局限性。图1显示了一个真实世界的例子,当模型被限制为只考虑依赖路径时,关键信息(即否定)将被排除。
在这项工作中,我们提出了一个图形卷积网络的新的扩展(Kipf和Welling,2017;Marcheggiani和Titov,2017),这是为提取关系而定制的。我们的模型使用高效的图形卷积运算对输入句子的依赖结构进行编码,然后提取以实体为中心的表示来进行稳健的关系预测。我们还应用了一种新的 以路径为中心的剪枝技术,在最大限度地保留相关内容的同时,从树中移除不相关的信息,这进一步提高了包括我们的模型在内的几个基于依赖的模型的性能。
概括地说,我们的主要贡献是:
(1)我们提出了一个基于图卷积网络的关系抽取神经模型,它允许它在任意依赖结构上有效地汇集信息
(2)我们提出了一种新的以路径为中心的剪枝技术 ,以帮助基于依赖的模型最大限度地去除无关信息,而不破坏关键内容,从而提高它们的鲁棒性;
(3)我们对模型和剪枝技术进行了详细的分析,并表明基于依赖的模型与序列模型具有互补的优势。

2.Models

在这一节中,我们首先描述依赖树结构上的图卷积网络,然后介绍一种以图卷积网络为核心的关系抽取体系结构。

2.1 Graph Convolutional Networks over Dependency Trees

GCN是CNN的一种改写,用于 编码图 。给定一个有n个节点的图,我们可以用一个n × n邻接矩阵来表示图的结构,其中Aij= 1,表示有一条边从节点i到节点j。在一个L层GCN中,对于第L层第i个节点,我们用h(l-1)表示输入向量,h(l) 表示的输出向量,则图卷积运算可以写成
在这里插入图片描述
其中W(l)为线性变换,b(l)为偏置项,σ为非线性函数(如ReLU)。直观地,在每个图形卷积期间,每个节点从图形中的相邻节点收集和总结信息
我们通过将 每个树 转换为其对应的 邻接矩阵A, 使 图卷积运算适应于模型依赖树,其中如果在标记I和j之间存在依赖边,Aij= 1。然而,单纯地应用等式(1)中的图卷积运算可能导致具有显著不同大小的节点表示 ,因为标记的程度变化很大。这可能会使我们的句子表达偏向于高度节点,而不考虑节点中携带的信息(详见第2.2节)。此外,h(l 1)I中的信息永远不会传递到h(l) i,因为依存树中的节点没有边连接到自己。
我们解决这些问题的方法是,在 通过非线性反馈之前 ,对图卷积中的激活进行归一化,并在图中的每个节点上添加自循环。
在这里插入图片描述
where˜A = A + I ,I为n × n单位矩阵,
在这里插入图片描述
在L层上堆叠这个操作给了我们一个深度GCN网络,在这里我们设置h(0) 1,…,h(0) n为输入字向量,并使用h(L) 1,。。。,h(L) n作为输出字表示。该网络中的所有操作都可以通过矩阵乘法 有效地实现,这使得它非常适合在示例上进行批处理计算和在GPU上运行。此外,令牌之间的信息传播是并行 发生的,运行时不依赖于依赖树的深度。
上面给出的GCN模型对依赖图中的所有边使用相同的参数。
我们还试验了:(1)为自顶向下,自底向上,和自循环边使用不同的变换矩阵W;以及(2)为边缘选通添加依赖关系特定的参数。我们发现,建模方向不会带来改进,1而添加沿边门控会进一步损害性能。我们假设这是因为所提出的GCN模型通常已经能够捕获对分类关系有用的依赖边缘样式 ,并且建模边缘方向和类型不会在导致过度拟合之前向网络提供额外的辨别能力。例如,“A’s son, B”和“B’s son, A”之间的关系,即使不考虑边缘方向性,也可以很容易地用附着在不同实体上的“.s”来区分。

2.2 Encoding Relations with GCN

我们现在正式定义关系抽取的任务。设 X = [x1,…,xn]表示一个 句子 ,其中Xi表示第i个的标记。句子中对应的一个主语实体和一个宾语实体被识别的两个跨度:Xs= [xs1,…,xs2]和Xo= [xo1,…,xo2]。给定X、Xs和Xo ,关系提取的目标是预测实体之间的关系r ∈ R(预定义的关系集),否则“没有关系”。

在单词向量上应用了L层GCN之后,我们获得了每个标记的隐藏表示,这些标记直接受到其邻居的影响,这些邻居在依赖树中相距不超过L条边。为了利用这些单词表示来提取关系,我们首先获得一个句子表示 ,如下所示(也参见图2左侧):
在这里插入图片描述
其中h(l)表示GCN 中第l层的集体隐藏表示,f : Rd×n→ Rd是从n个输出向量映射到句子向量的最大池化函数。

我们还观察到,依赖树中接近实体标记的信息 通常是关系分类的核心 。因此,我们也从h(L)中获得一个主语表示hs,如下所示
在这里插入图片描述
宾语表示同样如此。
我们通过连接句子和实体表示来获得用于分类的最终表示,并将他们喂入前馈神经网络(FFNN)。

2.3 Contextualized GCN

目前介绍的网络体系结构学习了关系抽取的有效表示,但是它也留下了一些没有充分解决的问题 。首先,输入的 词向量不包含关于词的上下文信息 。第二,GCN高度依赖于正确的解析树来从句子中提取关键信息(尤其是当执行修剪时),而现有的解析算法在许多情况下产生不完美的树。
为了解决这些问题,我们进一步应用了上下文GCN (C-GCN)模型,其中输入单词向量 首先被馈送到双向长短期记忆(LSTM)网络 ,以生成上下文表示,在原始模型中用h(0)表示。这个 BiLSTM上下文层是与网络的其他部分联合训练的 。我们在第5节中根据经验表明,这种增强大大提高了原始模型的性能。
我们注意到,这种关系抽取模型在概念上类似于基于核的图结构模型(Zelenko等人,2003),因为它旨在利用局部依赖树模式来通知关系分类 。我们的模型还包含了关键的偏离路径信息,这与基于最短依赖路径的方法相比,大大提高了它的健壮性。与树结构模型(例如,树(Tai等人,2015))相比,它不仅能够通过使用池函数捕获更多的全局信息,而且通过不需要难以并行化的递归操作实现了显著的加速。例如,我们观察到,在Titan Xp GPU上,在50个示例的迷你批次上训练树-LSTM模型平均需要6.54秒,而训练原始GCN模型只需要0.07秒,C-GCN模型需要0.08秒

3 Incorporating Off-path Information with Path-centric Pruning

依赖树提供了丰富的结构,可以在关系提取中加以利用,但是与关系相关的信息通常包含在以两个实体的最低共同祖先(LCA)为根的子树中。前人研究(徐等,2015bMiwa和Bansal,2016)已经表明,通过从句子中消除不相关的信息,移除该范围之外的标记有助于关系提取。因此,我们希望将 GCN模型树木修剪策略 相结合,以进一步提高性能。然而,过于积极地修剪(例如,只保留依赖路径)可能导致重要信息的丢失,并反过来损害健壮性。例如,当一个模型被限制为只查看实体之间的依赖路径时,图1中的否定被忽略了。同样,在“她去年被诊断为癌症,今年6月死亡”这句话中,依赖路径She←诊断→癌症不足以确定癌症是受试者的死因,除非也存在死亡的连接依赖。
受这些观察的启发,我们提出了以路径为中心的剪枝 ,这是一种结合依赖路径信息的新技术。这是通过在LCA子树中保留到依赖路径距离为K的标记来实现的。K = 0,对应于将树修剪到依赖路径即可,K = 1保留所有直接附着到依赖路径的所有节点,K = ∞保留整个LCA子树。我们将这种修剪策略与我们的GCN模型相结合,直接将修剪后的树送到图卷积层。我们表明,K = 1进行的修剪可以保留相关信息(例如,否定和连接)和尽可能将无关内容排除在最终修剪的树之外之间实现了最佳平衡。

在完全监督和异常监督的关系抽取方法的核心是统计分类器,其中许多发现语法信息是有益的。例如,Mintz等人(2009)探索了将句法特征添加到统计分类器中,并发现它们在句子较长时很有用。各种基于核的方法也利用句法信息来测量训练和测试例子之间的相似性,以预测关系,发现基于树结构的内核(Zelenko等人,2003)和基于依赖路径的内核(Bunescu和Mooney,2005)对于这个任务是有效的。
除了单词序列的神经模型之外,将依存关系树结合到神经模型中也已经被证明通过捕获长距离关系来提高关系提取性能。徐等人(2015b)通过 在实体之间的最短依赖路径上 应用LSTM网络来推广依赖路径核的思想。刘等人(2015)首先将递归网络应用于以依赖路径上的单词为根的子树,然后将CNN应用于该路径。Miwa和Bansal (2016)在联合实体和关系提取设置中应用了树-LSTM (Tai等人,2015),这是LSTM对依赖树的一般化形式。他们发现,当应用于两个实体的生命周期评价中的子树时,这种方法最为有效。
最近,Adel等人(2016)和张等人(2017)已经表明,当在更大的数据集上训练时,相对简单的神经模型(分别是CNN和增强的)可以获得与基于依赖性的模型相当或更好的性能。在本文中,我们深入研究了基于依赖的模型,并表明,通过适当设计的体系结构,即使在大规模环境中,它们也可以优于序列模型,并具有互补优势。
最后,我们注意到一种类似于以路径为中心的剪枝的技术已经被应用于减少语义角色标注中可能的参数空间(何等人,2018)。作者表示,修剪单词离谓词和根之间的路径太远是有益的,但报告的最佳修剪距离是10,这几乎总是保留整个树。我 们的方法 的不同之处在于,它应用于实体之间的最短依赖路径 ,并且我们表明,在我们的技术中,对于几个基于依赖的关系提取模型,最佳修剪距离是1

6.3 Understanding Model Behavior

为了更深入地了解GCN模型的行为,我们可视化了部分依赖树的过程以及每个标记的最终表示对hsent的贡献有多大。我们发现该模型通常关注依赖路径,但有时也会包含偏离路径的信息,以帮助加强其预测。该模型还学会忽略限定词(例如,“The”),因为它们很少影响关系预测。

全部评论 (0)

还没有任何评论哟~