14 Positional Encoding (为什么 Self-Attention 需要位置编码)
发布时间
阅读量:
阅读量
厚颜无耻的要个赞
Attention
优点:
- 解决了长序列依赖问题
- 可以并行
缺点:
开销变大了
请注意,在并行处理中,并没有固定的位置关系(即就是说,在这种情况下,并没有固定的顺序要求),即无固定位置关系(既然如此的话),我可以对此进行补充(通过位置编码的形式进行补充)。
位置编码的问题
为什么需要位置编码
位置编码怎么做的

具体做法
做法 1

做法 2

为什么这么做有用
pos+K=5,我在计算第 5 个单词的位置编码的时候
pos=1,k=4
pos=2,k=3

全部评论 (0)
还没有任何评论哟~
