Advertisement

【论文阅读】Document-level Relation Extraction as Semantic Segmentation

阅读量:

创新

  • 将Doc RE视为文档级语义分割任务,并借鉴CV的语义分割任务至DocRE。
  • 提出了平衡的softmax方法。
在这里插入图片描述

编码层

采用bert编码方案,在此情况下,考虑到bert模型最多支持512个词的数量限制,在对文档进行整体编码时采用了动态窗口划分的方法。在将文本输入到bert模型之前,通过在提取得出的mention实体前后添加 标记的方式完成了实体定位过程。应用logsumexp聚合函数对各实体特征进行融合处理,并最终得到每个实体对应的embedding向量表示。

在这里插入图片描述

计算实体关系矩阵中,实体之间的相关性。计算方法有两种:

基于相似度的方法。

在这里插入图片描述

es与eo之间的逐元素相似性、es与eo之间的余弦相似度、es与eo之间的双线性相似度这三者的结合

基于上下文的方法。

在这里插入图片描述

通过实体感知注意力机制进行建模时,a表示attention权重,而H即为document embedding。

U-shaped Segmentation Module

U-Net在CV领域是知名的语义分割模型。结构图如下

在这里插入图片描述

这一步可以表示为

在这里插入图片描述

Y是实体级别的关系矩阵。U是U-shapeed模块。W3是为了给F降维

分类模块

在这里插入图片描述

在上一阶段的实体层级关系矩阵Y中提取实体对es与eo的嵌入表示,在此基础上经由前馈神经网络进行处理,在经过tanh激活函数计算后得出zs与zo两个中间变量值;随后将这两者的输出传递至双线性模型以计算其关联概率。

balanced softmax method

在docred数据集中,较多实体对之间并不存在关系,并未达到平衡状态.研究者受到计算机视觉领域的启发,并提出了balanced softmax方法.研究者创建了一个新的类别0,旨在使得所有目标category的得分均高于该类别的得分;而非目标category的得分均低于该类别的得分.

在这里插入图片描述

为了简化,阈值设为0

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~