Advertisement

14 Positional Encoding (为什么 Self-Attention 需要位置编码)

阅读量:

厚颜无耻的要个赞

Attention

优点:

  1. 解决了长序列依赖问题
  2. 可以并行

缺点:

开销变大了

请注意,在并行处理中,并没有固定的位置关系(即就是说,在这种情况下,并没有固定的顺序要求),即无固定位置关系(既然如此的话),我可以对此进行补充(通过位置编码的形式进行补充)。

位置编码的问题

为什么需要位置编码

位置编码怎么做的

img

具体做法

做法 1

img

做法 2

img

为什么这么做有用

pos+K=5,我在计算第 5 个单词的位置编码的时候

pos=1,k=4

pos=2,k=3

img

全部评论 (0)

还没有任何评论哟~