Advertisement

论文 A Graph-to-Sequence Model for AMR-to-Text Generation 阅读笔记

阅读量:

论文发表于2018年的ACL期刊上,并附有具体链接如下:https://arxiv.org/abs/1805.02473(注:此处应包含完整的链接信息)

AMR与AMR-to-Text Generation

The Abstract Meaning Representation (AMR) is a formal semantic framework that represents the meaning of sentences as rooted, directed graphs. The process of AMR-to-Text Generation involves reconstructing text that represents the same meaning as an input AMR graph.

在这里插入图片描述

sequence-to-sequence model

对AMR图进行深度优先遍历以获取序列v₁, ..., v_N(其中N代表tokens的数量),例如上述示例中所得到的序列为:"describe :arg0 (person:name (name:op₁ ryan)) :arg1 person:arg2 genius"。(// 例如上述AMR图的例子遍历后的所得到的序列为:"describe :arg0 (person:name (name:op₁ ryan)) :arg1 person:arg2 genius")在该原始图上"describe"与"genius"直接相连而在所得到的序列上的距离为14)。为了计算出每个token v_j对应的表示有两种方法:第一种方法是通过word embedding的方式;第二种则是基于注意力机制的方法。请将以下文本放入【

在这里插入图片描述

ej代表vj的word embedding;
2. 以缓解数据稀疏性问题为基础,并通过提取更丰富的字符层次特征来提升模型性能。值得注意的是,在这种情况下,默认情况下模型会以vj作为输入序列中的每个token。然而,在这种特定场景下,默认情况下模型会以vj作为输入序列中的每个token的情况下,默认情况下模型会以vj作为输入序列中的每个token的情况下,默认情况下模型会以vj作为输入序列中的每个token的情况下,默认情况下模型会以vj作为输入序列中的每个token的情况下,默认情况下模型会以vj作为输入序列中的每个token的情况下,默认情况下模型会以vj作为一个特定长度的信息载体。

在这里插入图片描述

Encoder
S2S的encoder是一个双向LSTM,对于每一步j来说:

在这里插入图片描述

Decoder
基于LSTM的注意力机制;
A以及每一个 a_j 具体定义如下。

在这里插入图片描述

在此处引入两个关键向量:过去context vectors µt−1和past coverage vectors γt−1。µt−1是基于A的注意力输出计算得出的past context vectors;而γt−1则代表了到目前为止所有prior attention distributions的累积结果。

在LSTM模型中的每一时刻t,在当前时间点接收来自输入层的时间序列数据和前一个时间步的历史信息µ_{t−1}作为输入单元et和记忆单元ht−1,在经过计算得出隐藏状态St后,并通过应用注意力机制来计算注意力权重α_{t,i}

在这里插入图片描述

接着更新coverage vector γt

在这里插入图片描述

αt代表了每个token在时间点t时的关注度分配情况,通过一个向量来表示。

更新context vector µt

在这里插入图片描述

此时刻t的ouput probability distribution:

在这里插入图片描述

主要涉及的是变量St 和时间步参数µt。通过时间步t的计算过程,则可获得概率向量空间Pvocab。其中概率最高的词汇码将被选为当前时间步的输出单词。从而生成完整的单词序列{w₁, w₂, ..., w_M}。

graph-to-sequence model

不同于现有的基于序列到序列模型的方法与现有技术不同该研究则建议采用基于图结构的解码器直接建模而不进行序列化处理从而避免传统方法依赖人工干预的繁琐流程

The graph encoder

在这里插入图片描述

考虑图G = (V, E),引入隐藏状态向量h_j来表示每个节点v_j ∈ V. 整个系统可由此表示。

在这里插入图片描述

经过一系列的graph state transition,我们可以得到graph states g0, g1, . . . , gt, . . . .

Input representation In the initial state g0 all nodes' initial states are set to h0 meaning that for each node j

在这里插入图片描述

在本研究中,默认设置下我们采用了h0作为关键超参数。在本研究中,默认设置下我们采用了h0作为关键超参数.

在这里插入图片描述

其中el和ei分别代表edge label l以及源节点vi对应的word embeddings。方法二是指式(7)所描述的方式可以通过正向LSTM对节点i及其相关的字符characters进行处理,在随后进行concatenate操作时会与前面提到的方法类似。需要注意的是,在这种情况下边界的representation不会随着时间t的变化而改变。

State transition
对于节点j,第t层,先计算出:

在这里插入图片描述
在这里插入图片描述

按照边的方向不同,我们将其分为incoming和outgoing两类;其本质就是对邻居进行聚合操作,并采用sum aggregation的方式.接着需要用这四个关键信息来进行计算.

在这里插入图片描述

在图上对节点实施的操作即应用LSTM模型,在门控单元中采用三种关键组件——输入门、输出门和遗忘门——通过所述的状态转移机制,在每个步骤后将当前节点的信息传递给所有相邻节点。经过多层状态转移过程后,在每一步骤中都能计算出每个节点对应的输出值hj.

Decoder
该解码器基于与序列到序列模型相同的架构,在处理图结构输入时展现出良好的性能特征。其中有两个关键点需要注意:一是其输出层的设计采用了特殊的注意力机制;二是其训练过程中采用了 teacher forcing 策略以提高收敛速度。关于具体实现细节,请参考附录部分中的相关描述。

在这里插入图片描述

基于图编码器提取了每个节点j的状态信息。(但笔者对此仍存疑问:此处xj所指代的具体含义究竟是什么?如有高见可在评论区赐教)另一个值得注意的地方是在解码器初始化过程中采用了图编码器提取的所有节点表示向量进行融合。

2020.03.19

全部评论 (0)

还没有任何评论哟~