【论文阅读】Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network
ACL 2019
没有代码
目录
-
- 1.Input Layer
-
2.Graph Construction
-
2.1 基于语法规则的连接边
-
2.2 同指代连接边
-
2.3 相邻句子间的连接边
-
2.4 相邻词之间的连接边
-
2.5 自节点连接边
- 3.GCNN Layer
- 4.MIL-based Relation Classification
- 5.总结

我们采用一个完整的论文摘要和两个目标实体作为输入内容,并在输入层中明确提及这些目标实体。 构建一个图结构,以单词为节点并添加标记边来表示局部和非局部依赖关系。 通过多层GCNN模型对图结构进行编码,并运用MIL技术对所有目标实体之间的相互作用进行分类。
1.Input Layer
将每个单词i及其与第一个和第二个目标实体的相对位置转化为实值向量w_i, d_i^1, d_i^2;在考虑所有可能的目标实体提及时,在其所有可能的目标实体提及中选择最近的那个,并整合其相对位置信息以构建输入表示x_i = [w_i, d_i^1, d_i^2]
2.Graph Construction
为了对摘要构建文档级图,定义了以下几种边
2.1 Syntactic dependency edge
基于现有技术,在构建该模型时,我们采用了有标记的句法依赖边来区分不同的边缘类型。
2.2 Coreference edge
基于引文网络在区分文档内部的局部依赖关系与非局部依赖关系方面具有重要意义,在构建引用网络来连接这些短语时能够有效提升文献组织效率
2.3 Adjacent sentence edge
通过将当前句的句法根分别与前一和后一句子的根进行连接, 我们可以建立相邻句子间的非局部依赖关系.
2.4 Adjacent word edge
为了维持文本中字符间的相对位置信息不变,在构建某种数据结构时,我们采用了一种基于相邻节点连接的方式进行组织。
2.5 Self-node edge
GCNN仅限于根据其邻接节点及其连接关系提取节点表示。因此,在图的每个节点处引入自结点边以确保能够捕获每个结点自身的特征。
3.GCNN Layer
GCNN被应用于文档级图上。
为了学习如何表示边类型的具体特征,我们采用了带有标记的边GCNN模型,在该模型中每个边缘类型都保留了独立的参数。
通过迭代过程,在每次循环中 GCNN 重新计算每个第 i 个输入单词 i 的表示。

x_i^{k+1}由第k个GCNN块中的第i个单词生成。
v(i)由i的所有邻居节点构成。
通过叠加K个GCNN块来累积各层之间的远距离邻接信息,并通过边缘机制筛选关键连接路径。
我们分别赋予每条边的方向独立的参数权重。
在模型优化阶段中,在保持核心特征的同时,我们特别关注于对具有代表性的拓扑关系进行详细建模。
这种方法能够有效防止因不同拓扑结构带来的过度复杂化而引发的问题。
4.MIL-based Relation Classification
由于每个目标实体可以在文档中有多次提及, 本研究采用多实例学习方法构建分类模型. 通过 bi-affine 成对评分模型整合所有目标实体间的评估结果. 首先通过两层前馈神经网络将每个词 i 进行嵌入处理

分别用于表示头实体与尾实体的相关信息。
对于每个输入序列(x_1, x_2, \dots, x_n)而言,在处理过程中会生成对应的潜在空间向量序列(z_1, z_2, \dots, z_n)。
通过双仿射层能够计算出每个提及级别的成对相似度分数,并通过相应的聚合机制汇总得到整体层面的成对相似度得分。

E^{head}、E^{tail}分别表示实体e^{head}、e^{tail}对应的提及集合。
5.总结
我们提出了一个基于图结构的新方法用于句子间的重用。该系统采用了标记边缘GCNN模型,并将其应用于文档级别的图结构中进行处理。其中每个节点代表一个单词,并通过边表示单词间的语法依赖关系。
采用GCNN模型对图结构进行编码,并在多个提及级别对上引入MIL进行聚合。
