Transformer 开篇:Self-attention Multi-head Self-attention

阅读量：

论文：Transformer: Attention Is All You Need
在这里插入图片描述

Transformer它的提出最开始是针对NLP领域的，在次之前大家主要用的是RNN，LSTM这类时序网络。像RNN这类网络其实它是有些问题的，首先它的记忆的长度是有限的，特别像RNN它的记忆长度就比较短，所以后面就有提出LSTM。但是他们还有另外一个问题就是无法并行化，也就是说我们必须先计算 $t_0$ 时刻的输出，计算完之后我们才能进一步计算 $t_1$ 时刻的数据。由于无法并行化，训练效率就比较低这样是一件非常痛苦的事情。

针对这一问题，Google提出了Transformer来替代之前的时序网络,

Transformer不受硬件限制的情况下，理论上记忆是可以无限长的。
其次，它是可以做并行化的，这是一个非常大的优点

理论基础

Self-Attention理论

在这里插入图片描述
假设我们输入时序数据是 $x_1$ , $x_1$

我们会将输入的 $x$ 输入embedding层，将它映射到更高的维度上，得到对应的 $a$ ，比如 $x1$ 对应得到 $a_1$ ， $x_2$ 对应得到 $a_2$
紧接着，将我们的 $a$ 分别通过 $W^q$ , $W^k$ , $W^v$ ，这三个参数矩阵生成对应的 $q,k,v$ ,注意这里的 $W^q$ , $W^k$ , $W^v$ 对于所有的 $a$ 都是共享的。在原论文中 $W^q$ , $W^k$ , $W^v$ 其实是通过全连接层来实现的，这3个参数是可训练的参数。
假设如图中 $a_1=(1,1)$ , $a_2=(1,0)$ , $W^q$ 的矩阵为 $[[1,1],[0,1]]$ ,根据公式
$q^i=a^i W^q$ ，可以计算出 $q$ ,这里的 $q$ 代表的是 $query$ ,接下来它会匹配每一个 $k$
这里的k根据公式 $k^i=a^i W^k$ ，计算得到。这里的 $k$ 会被我们的 $q$ 进行match.
同理v根据公式 $v^i=a^i W^v$ ，这里的 $v$ 表示从 $a$ 中提取得到的信息。可以认为是从 $a$ 当中学到它认为有用的信息

在Transformer当中是可以并行化的，所以可以将整个过程用矩阵乘法进行书写。比如将 $a_1$ 和 $a_2$ 拼接在一起就得到如下的矩阵。
在这里插入图片描述
然后依次与 $W^q$ , $W^k$ , $W^v$ 相乘，就能得到 $q^1$ , $q^2$ , $k^1$ , $k^2$ , $v^1$ , $v^2$

然后将所有 $q$ 放在一起就是我们公式attention中的大Q，将所有的 $k$ 放在一起就对应于我们公式中的大K.将所有的 $v$ 放在一起就对应于我们公式中的大V.
将我们的 $Q$ 与我们每一个 $K$ 进行match，它是怎么match的呢，公式如下：

这里的d对应的就是k的 dimmensiion,k向量的元素个数.

比如图中 $q^1$ 与 $k^1$ 进行点乘，然后除以 $\sqrt d$ (d=2表示k的向量维度)，就得到对应的 $a_{1,1}=2.12$ ；然后再拿 $q^1$ 与 $k^2$ 进行match,同样是拿 $q^1$ 与 $k^2$ 进行点乘除以 $\sqrt d$ 得到 $a_{1,2}=1.41$

然后将 $a_{1,1}$ ， $a_{1,2}$ 通过soft-max就得到 a的结果输出就是v对应的权重，a越大我们就越关注该v，soft-max计算如下：
在这里插入图片描述
同理也会拿 $q^2$ 和每个k进行match操作，同样得到 $a_{2,1}$ 和 $a_{2,2}$

矩阵计算过程如下：

然后根据计算求得的 $a$ 与v相乘，就得到对应的输出b

整个过程可抽象为如下模块：

Multi-Head Attention理论

在transformer中使用最多的其实还是我们的Multi-Head Attention
在这里插入图片描述

将 $a$ 与 $W_q$ , $W_k$ , $W_v$ 相乘得到 $q,k,v$ ，这一步是跟Self-Attention是一样的。
然后将q均分给每个head,比如 $q_1=(1,1,0,1)$ 均分两个分别为 $(1,1)$ 和 $(1,0)$ ,同理对k,v均分给每个head，如下：
然后对每个head执行self-attention，就能得到对应的b
接下来对每个head得到的结果进行拼接。

$b_{1,1}$ 与 $b_{1,2}$ 进行拼接， $b_{2,1}$ 与 $b_{2,2}$ 进行拼接。
接下来通过一个 $W^o$ 对我们拼接后的数据进一步融合，得到最终Multi-Head的输出

将muti-head抽象成一个模块，如下：

Posotional Encoding(位置编码)

在这里插入图片描述
根据muti-head attention的原理，假设我们输入` $a_1,a_2,a_3$ 得到对应的 $b_1,b_2,b_3$ ,如果我们将 $a_3$ 和 $a_2$ 的顺序进行调换，我们可以发现对于我们的 $b_1$ 而言是没有任何影响的，无论你后面的顺序是怎样的的，都不影响我们的 $b_1$ ,这样的话肯定是有问题的。

为了解决该问题，提出了Positional Encoding编码思想

对于每个 $a_i$ ,都加上了位置编码 $pe_i$ , $pe_i$ 的计算方法有两种：

根据论文公式计算出位置编码
可训练的位置编码

全部评论 (0)

还没有任何评论哟~

Transformer 开篇:Self-attention Multi-head Self-attention

论文：Transformer:AttentionIsAllYouNeed Transformer它的提出最开始是针对NLP领域的，在次之前大家主要用的是RNN，LSTM这类时序网络。

Self-Attention、Multi-head Self-Attention

个人笔记讲的太好了，一听就懂！视频链接一、理论 1\.SelfAttention、MultiheadSelfAttention最终效果：输入：X1X2selfattention输出Y1Y2 四者...

Self-attention与multi-head self-attention

自注意力（selfattention）允许模型在处理序列数据时，根据输入中的其他位置来加权考虑每个位置的信息。这对于处理长文本或序列中的依赖关系非常有用。

Transformer中的Self-Attention和Multi-Head Attention

2017Google在ComputationandLanguage发表当时主要针对于自然语言处理（之前的RNN模型记忆长度有限且无法并行化，只有计算完ti时刻后的数据才能计算ti+1时刻的数据，但T...

attention机制、self-attention、channel attention、spatial attention、multi-head attention、transformer

文章目录 attention sequenceattention attention与selfattention channelattention与spatialattention multihead...

Multi-Head Self-Attention

importtorch importtorch.nnasnn importtorch.nn.functionalasF importmath classMultiHeadSelfAttentionnn...

Multi-head Self-attention

MultiheadSelfattention 一个Attention获得一个表示空间，如果多个Attention，则可以获得多个不同的表示空间。以2个head为例，a所得到的q，k，v可以进一步乘以两...

Self-Attention 及Multi-Head Attention

Transformer是2017年Google在ComputationandLanguage上发表的，当时主要是针对自然语言处理领域提出的（之前的RNN模型记忆长度有限且无法并行化，只有计算完时刻后的...

【李宏毅2020 ML/DL】P23 Transformer | Self-attention, Multi-head Self-attention

我已经有两年ML经历，这系列课主要用来查缺补漏，会记录一些细节的、自己不知道的东西。已经有人记了笔记（很用心，强烈推荐）：<https://github.com/Sakuragh/MLnotes 本...

Transformer（一）搞懂Transformer及Self-attention/Multi-head Self-attention中的Q、K、V

老师讲得真的很好，一听就懂了李宏毅2020机器学习深度学习完整版国语哔哩哔哩bilibili国语哔哩哔哩bilibili 一、整体架构 Transformer是2017年Google发表的Atten...

是否确定退出登录?

Transformer 开篇:Self-attention Multi-head Self-attention

理论基础

Self-Attention理论

Multi-Head Attention理论

Posotional Encoding(位置编码)

全部评论 (0)

相关文章推荐

Transformer 开篇:Self-attention Multi-head Self-attention

Self-Attention、Multi-head Self-Attention

Self-attention与multi-head self-attention

Transformer中的Self-Attention和Multi-Head Attention

attention机制、self-attention、channel attention、spatial attention、multi-head attention、transformer

Multi-Head Self-Attention

Multi-head Self-attention

Self-Attention 及Multi-Head Attention

【李宏毅2020 ML/DL】P23 Transformer | Self-attention, Multi-head Self-attention

Transformer（一）搞懂Transformer及Self-attention/Multi-head Self-attention中的Q、K、V