Advertisement

[论文阅读]Self-Attention with Relative Position Representations

阅读量:

文章目录

  • 前言

  • 摘要

  • 1、Introduction & Motivation

    • 1.1 self-attention(One Head)
    1. 如何实现?
  • 2.1 基于关系感知的自注意力机制

  • 2.2 基于相对位置表示法的方法

    • 3、Experiments Analysis(main)
    • 总结

前言

复制代码
    论文名:Self-Attention with Relative Position Representations
    论文作者:Peter Shaw et al.
    机构:
    	Google Brain & Google
    期刊/会议名:NAACL 2018
    本文作者:XMU_MIAO
    日期:2021/1/19

摘要

基于注意力机制的Transformer架构在机器翻译任务中展现出卓越性能。

1、Introduction & Motivation

Transformer模型架构未充分考虑输入序列的时间顺序

1.1 self-attention(One Head)

该self-attention模块接收输入序列x=(x_1,...,x_n)其中x_i\in\R^{d_x}随后经过处理后得到输出序列z=(z_1,...,z_n)其中z_i\in\R^{d_z}其计算式如下:

z_i = \sum_{j=1}^{n}\alpha_{ij}(x_jW^V)

其中注意力权重矩阵\alpha_{ij}由分子分母两部分组成:

\alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k=1}^{n}\exp(e_{ik})}

而具体形式如下:

e_{ij} = \frac{(x_iW^Q)(x_jW^K)^T}{\sqrt{d_z}}

其中参数矩阵满足:

W^Q,W^K,W^V \in \R^{d_x\times d_z}

单个headself{-}attention基本计算流程如下图所示:

在这里插入图片描述

2、How to do ?

为了计算attn\,\,scores时需要考虑序列中的位置信息,在这一部分中我们主要针对自注意力机制进行了改进,并提出了Relation-aware Self-Attention模型以及基于相对位置的表示方法(Relative Position Representations)。研究者将输入序列之间的关系建模为带有标记的有向图结构。

2.1 Relation-aware Self-Attention

通过引入输入元素间的相对位置信息, Relation-aware自注意力机制将输入序列中各元素间的相对关系建模为带有标记的全连接有向图. 其中两个元素x_ix_j之间的边表示为\alpha_V^{i,j}\alpha_K^{i,j}\in\mathbb{R}^{d_a}, 并将其整合到以下两个公式:z_i=\sum_{j=1}^n \alpha_{i,j}(x_jW^V+\alpha_{i,j}^V) e_{i,j}= \frac{x_iW^Q(x_jW^K+\alpha_K^{i,j})^\top}{\sqrt{d_z}}其中参数\alpha_V^{i,j}\alpha_K^{i,j}\in\mathbb{R}^{d_a}在每个头与一个序列之间共享, 并且满足d_a=d_z.

在序列中任意两个索引点i和j之间的相对位置信息通过参数\alpha^{V}_{ij}\alpha^{K}_{ij}进行表征。如图所示的部分关系图仅展示了主要连接节点间的联系。

在这里插入图片描述

2.2 Relative Postion Representations

该研究者认为,在序列中任意两个元素之间的相对位置超出特定阈值k后就不再具有显著作用。因此,在处理每个输入序列时,我们只需关注当前元素x_i及其前后不超过k个邻居即可。具体而言,在计算目标位置i,j处的相似度得分时(即\alpha^{K}_{ij}\alpha^{V}_{ij}),我们仅需考虑其邻近区域内的权重分布情况。其中权重向量定义为\bm{W}^K = (W^k_{-k},\ldots,W^k_k)\bm{W}^V = (W^v_{-k},\ldots,W^v_k)等参数即可满足需求。值得注意的是,在实际应用中该函数能够有效限制输入的距离范围(符号意义下),并且k>0。通过分段函数的方式定义后发现,在实际应用中该函数能够有效限制输入的距离范围(符号意义下),并且k>0

3、Experiments Analysis(main)

作者在WMT14 EN-DE与EN-FR任务中进行了深入研究以验证本文提出的方法效果,并将其对比基准设定为原始transformer模型中的位置编码机制

在这里插入图片描述

控制变量最大相对距离k

在这里插入图片描述

消融实验:

在这里插入图片描述

总结

为了应对序列中各元素位置感知能力不足的问题,在本研究中我们提出了一种在模型架构中增加各元素之间相对位置信息的方法,并通过在WMT14EN-DE和EN-FR数据集上的实验验证了该策略的有效性

全部评论 (0)

还没有任何评论哟~