Advertisement

论文阅读:A Walk-based Model on Entity Graphs for Relation Extraction

阅读量:

A Walk-based Model on Entity Graphs for Relation Extraction(ACL 2018)

该 walk 基础模型构建在实体图上进行实验研究。研究者在此基础上构建了 walk 基础模型,并通过实证分析显示该模型在关系抽取任务中表现出色。与现有的基于图的模型架构相比,在准确度和稳定性方面本研究的方法表现更为突出。

实体间关系提取是自然语言处理领域中的一个重要课题。如何从一句话中识别出实体及其相互关联是一个亟待解决的关键问题。本文创新性地提出了基于图论的语义分析模型,并详细阐述了其理论基础和具体实现步骤:首先构建一个全连接图模型,在其中将所有句子中的实体视为独立的节点;随后通过计算节点间的权重来确定边的存在与否及权重大小;最后通过拓扑结构分析实现对语义关系的自动归纳与推理机制。

在这里插入图片描述

本文指出一对entity pair之间的关系会被相同句子中的其它关系所影响。例如,在上图中,Toefting(person entity)通过与teammates(person entity)直接建立联系,并且teammates又会与capital(geopolitical entity)直接建立联系。从而Toefting和capital之间可以直接或间接地建立关联。这表明Toefting-teammates-capital这条路径对Toefting-capital的关系具有积极的影响。

在这里插入图片描述

整个模型包含以下五个关键组件:嵌入层(embedding layer)、双向长短期记忆单元层(BLSTM layer)、边表示层(edge representation layer)、行走聚合层(walk aggregation layer)以及分类层(classification layer)。

嵌入层的作用是将输入的数据转换成低维向量形式进行表征学习。具体而言,在本模型中我们首先会对输入数据进行预处理并生成三种不同维度的特征向量:一种用于表征单词本身的信息(n_w维),一种用于表征词语在语义空间中的位置信息(n_t维),还有一种用于表征词语相对于目标对的位置关系信息(n_p维)。例如,在最初的示例中teammates相对于capital位置为-3而相对于Toefting位置则为+16.

在嵌入层的基础上我们采用了双向长短期记忆单元网络结构来进行序列建模任务。该过程的核心思想是将单个词语的信息通过BLSTM单元进行深度学习并提取出更具判别的特征表现形式即所谓的word-level的新表示h. 其输出结果是维度为n_e的空间中的向量这一设计不仅能够有效捕捉词语的时间依赖关系还能显著提升后续任务的表现效果

公式

该层用于将BLSTM双向循环神经网络(RNN)的输出结果进行连接。Edge Representation Layer 部分中:其双向循环神经网络(RNN)输出的结果会被划分为两个部分——目标对表示和目标对特定背景信息。其中任何一个目标对中的背景信息即指不属于这对实体的所有其他单词。每一个目标对都由两个实体e_i和e_j组成,在这种情况下如果一个实体由多个词组成,则会采用这些词向量均值来表征该实体本身属性特征。每一个目标对整体表征则包含三个方面的信息:其双向循环神经网络(RNN)输出结果、实体类型编码以及相对位置信息。而对于每一个具体的目标对背景信息构建来说,则需要包含四个维度的信息:其双向循环神经网络(RNN)输出结果、实体类型编码以及相对位置关系信息与另外两个实体的关系描述情况。对于一段完整的句子而言,在所有可能的目标对中提取出的目标对背景信息都可以被统一表达为一个三维矩阵形式C,在这种情况下行与列分别代表各个实体之间的关系联系情况,并且深度方向上的维度则与具体的词数量有关联关系。但是在实际应用过程中会发现针对每一个具体的目标对背景信息都需要结合注意力机制来计算各个词语的重要性权重值并将其加权求和得到最终的一个整体表征

在这里插入图片描述

q是一个可以训练的attention vector,维度和每个context word表示的维度相同。最后将合并之后的context向量和两个entity向量concat然后经过一个全连接变换降维得到每条edge的表示。
Walk Aggregation layer :这一层的目的是希望能为一对entity pair间存在的多条edge生成一个单一的representation来表示他们之间的关系。上一层得到的edge表示叫做one-length walk,会在此处用来生成和集成pair之间的one-to-L-length walks。该算法分为walk construction和walk aggregation。在construction中,两个连续的edge会通过如下变换结合:

在这里插入图片描述

在组合之前为1-\lambda ,而在组合之后则为1-2\lambda ;然而,并非直接将这个新边替换原来的边;而是采用的是:

在这里插入图片描述

Classification layer :直接用全连接

在这里插入图片描述

其本质就是在通过不断迭代的过程中完成对边向量的更新工作。每一次更新都会考虑到通过间接连接(A-B-C)所传递的信息。随着迭代次数的不断增加,在线学习算法能够逐渐积累并整合更多的上下文信息,在这一过程中每一条边都会得到更加全面的支持从而提升分类效果。最后经过大量实验验证我们的方法最终结果与当前最先进的技术相差无几但其启发性意义远高于实用价值

在这里插入图片描述

可以看到当最大路径长度取4时,性能最好,与SP-Tree差不多。

全部评论 (0)

还没有任何评论哟~