【论文阅读】Graph Enhanced Dual Attention Network for Document-Level Relation Extraction
第十一届Coling国际会议于2020年11月顺利举行,并发表了题为《基于图增强的双注意力网络在文档级关系抽取中展现出显著性能提升》的研究成果。由Bo Li及其团队主导的研究成果在第十一届COLING会议上获得展示,并附有详细的技术说明材料[pdf]。
本研究未提供相关代码实现。
引入了从句子到关系S2R和从关系到句子R2S的双向注意力机制。
创新:
- 双注意力机制
- 施加正则化措施
- 引入证据支持向量作为用于监督注意力权重的过程

1.编码层
通过BILSTM模型对文档进行编码处理,并将其转换为词嵌入、实体类型嵌入以及实体首次出现顺序嵌入等三种表示形式。得到H (n*2h)
使用max-pooling获得每个句子的语义表示
研究者或作者在同一个文档中可能存在多个实体提及。针对处于位置a至位置b之间的词而言,在该区域内的实体提及j的计算方式为\frac{1}{b-a+1}\sum^{b}_{loc = a}H_{loc}
e_{j}就表示第j个实体的所有实体提及的平均值
每个由两个不同实体组成的对都能通过双线性函数来表征它们之间的关系;当文档包含k个实体时,则会产生k(k-1)d种这样的关系数目
2. 基于图的双向注意力机制
2.1 S2R层
生成以关系为导向的句子表示。
计算关系权重矩阵W_{S2R}\in{R^{m*k*(k-1)}}。
其中:
m代表了所有输入句子的数量,
k代表了系统中不同实体的数量。
2.2 GCN层
构建具有实体节点和句子节点的异构GCN。
有3种边
- 句子-句子边:这两个句子共享相同的实体元素。
- 实体-实体边:这两个核心要素在同一个段落中并存。
- 实体-句子边: 该实体在其对应的段落中明确标识。

考虑到实体表示与句子表示的维度差异,在此进行相应的维度转换操作后,则可获得特征矩阵X\in{(k+m)*d}。其中正则化的邻接矩阵为A(此处应补充具体定义),而W3则作为一个权值矩阵参与其中的计算过程。经过上述运算步骤后可得到所需的结果矩阵。
L包含浓缩后的k个实体描述。
这些段落展示了简洁表达。
双线性模型通过分析这些条目来生成关系矩阵T。
2.3 R2S层
他恰好与S2R相反方向地输出了基于句子的关系表示,在上一步骤中所获得的关系表示T被用作查询向量。其中key向量实际上是每个句子的表达式。输出权重矩阵W_{R2S}\in{R^{k*(k-1)*m}}
2. 二元attention的正则化
W_{R2S} 和W_{S2R} 有着天然的对偶性质。用了L2正则化处理

3. 证据支持

若无法表示任何关系,则对于包含m个句子的文档而言,其对应的支撑向量ci如图所示。而对于每个有m个句子的关系i,在无法表示任何关系的情况下,则将每个支撑向量全部设定为1/m。
在W_{R2S}矩阵中,第i行被定义为W_i变量;它代表第i个关系实例,并对每个句子计算出相应的注意力权重。从直观上看,在支持向量机模型中,默认选择的是支持向量本身。在本研究中,默认采用Kullback-Leibler散度(KL散度)来评估$c_i与W_i之间的分布差异,并将其作为额外的损失函数引入模型训练过程。

4. 分类层
在前面步骤中利用R2S层成功提取了关系表示T;其中vi代表第i类关系。每一种类型的关系均经过sigmoid层进行分类。
