Self-Attention：从点积到自注意力

阅读量：

本文主要介绍Transformer的核心Self-Attention的原理。

第1章向量点积

1.1 Self-Attention公式

1.2 向量点积

1.3 矩阵相乘

第2章 Self-Attention自注意力机制

2.1 softmax

2.2 自注意力机制

第1章向量点积

1.1 Self-Attention公式

Transformer论文中主要部分被称为Scaling Dot-Product Attention（缩放点积注意力），其核心公式是...

Q：Query，查询，由输入矩阵变换而来；

K：key，键，由输入矩阵变换而来；

V：value，值，由输入矩阵变换而来。

1.2 向量点积

对于给定的一组向量

与

，点积表示为：

xdot y=x_1dot y_1+x_2dot y_2+dots+x_ndot y_n

从几何角度来看, 向量x在y方向上的分量与其模长与y长度之积, 其结果能体现两者的相似程度. 当该点积值较大时, 说明两者间存在较高程度的相似性. 这种特性构成了自注意力机制的基础

1.3 矩阵相乘

如前所述提到的向量点积进行进一步探讨。我们都知道, 向量之间的点积反映的是两者之间的相似程度, 那么如果我们让该向量与自身进行点积运算呢?对于任意给定的一个向量

X=egin{pmatrix} x_1 & x_2 & dots &x_n nd{pmatrix}^T

，进行如下操作：

X dot X^T = egin{pmatrix} x_1 x_2 dots x_n nd{pmatrix}dot egin{pmatrix} x_1 & x_2 & dots & x_n nd{pmatrix}=egin{pmatrix} x_1 x_1 &x_1 x_2 & dots &x_1x_n x_2x_1&x_2x_2 &dots &x_2x_n dots&dots & dots&dots x_nx_1&x_nx_2 &dots &x_nx_n nd{pmatrix}

则得到的矩阵内的每个元素表示原向量中第

个元素与第

个元素的相似度。将其称为相似度矩阵。

第2章 Self-Attention自注意力机制

让我们回顾缩放点积注意力机制这一概念，并将其与上文所述的相似度矩阵相结合在一起。通过这种方式，我们便能够体现出这种相似性。

对于一个输入矩阵

，我们求出其与本身的相似度矩阵

在该相似度矩阵中，各元素之间的相似程度即为各个对应位置上的数值。随后，在所获得的相似度矩阵基础上执行Softmax运算。

2.1 softmax

通过将输入映射至0到1之间的数值，并使总和固定为1来实现归一化，在多分类场景中各类别的概率总和同样保持为1。通常可以把经过 softmax 处理后的输出视为各个类别的概率分布情况。然而，在自注意力机制中则采用了不同的思路。考虑到通过 softmax 处理后的输出总能确保各分量之和恒定为 1 的情况下，则可以把 softmax 作用后的结果直接视为权重矩阵，在此框架下权重值越大反映出对应元素间相似性越高的情况

softmax=rac{e^{a_i}}{ um_{k=1}{N}e{a_k}}

得到权重矩阵后，将其与原矩阵

相乘，得到

这一过程本质上相当于将权重矩阵中的每一行与原矩阵的每一列进行加权计算。值得注意的是，在这种情况下，权重矩阵中的每一行都被归一化处理。每个元素都代表着不同点之间的相似度作为权重，在这种加权计算中起到了关键作用。这也是自注意力机制能够整合全局信息的重要原因。

2.2 自注意力机制

最后，得到了经过加权求和的矩阵

，再与自注意力机制公式相对比，

两个公式本质上是完全等价的。上文提到

实际上是输入矩阵

该神经网络采用了线性变换矩阵进行处理步骤；该过程旨在增强其可拟合能力。最后只剩下最后一个因素

，实际上

为

数据特征的数量这一问题上进行探讨时所关注的重点。该缩放因子的主要功能是使输入数值不会过高，在确保梯度计算更加稳定的同时实现归一化处理。

自注意机制中的一种是缩放的点积注意力；它通过计算不同向量间的点积来评估它们之间的相似程度，并最终捕获整体信息。

全部评论 (0)

还没有任何评论哟~

Self-Attention：从点积到自注意力

本文主要介绍Transformer的核心SelfAttention的原理。目录第1章向量点积 1.1SelfAttention公式 1.2向量点积 1.3矩阵相乘第2章SelfAttention...

自注意力（Self-Attention）

一、自注意力机制概述循环神经网络由于信息传递的容量以及梯度消失问题，实际上也只能建立短距离依赖关系。为了建立长距离的依赖关系，可以增加网络的层数或者使用全连接网络。但是全连接网络无法处理变长的输入...

注意力机制（attention）和自注意力机制（self-attention）

本文参考了b站博主蘅芜仙菌的视频以及文章Transformer：注意力机制（attention）和自注意力机制（selfattention）的学习总结如有侵权，联系删除。注意力机制其实是源自于人对...

self attention (自注意力机制)

QKV就是QQuery，KKey，VValue QKV本质上是代表了三个独立的矩阵，他们都是我们原本的序列X做了不同的线性变换之后的结果，都可以作为X的代表。可以理解为是在不同空间上的投影。正因为有了...

自注意力机制(Self-Attention)

自注意力机制

自注意力机制 Self-attention

自注意力机制该篇博客是笔者学习李宏毅老师课程后所写的学习笔记，如文中有错误，感谢大家指正文章目录自注意力机制一、解决的问题二、自注意力机制Selfattention 三、Selfattent...

自注意力机制（self-attention）

《AttentionIsAllYouNeed》注意力机制理解注意力：想象在一个嘈杂的房间听一群人讲话，会不自觉地将注意力集中在某些关键的人或话语上，以便更好地理解整个场景。

【Transformer】self-attention 自注意力机制

一、selfattention流程自注意力机制和注意力机制的区别在于，注意力机制中的Q（查询向量），K（键向量），V（值向量）是同源的，而一般的注意力机制，Q和K，V不同源。

自注意力机制(Self-Attention Mechanism)

自注意力机制SelfAttentionMechanism SelfAttentionMechanism. 自注意力SelfAttention机制也称为内部注意力IntraAttention，是一种特殊...

Self-Attention Mechanism(自注意力机制)

selfattention是注意力机制中的一种，也是transformer中的重要组成部分，而selfattention其本质的基础便是上一文提到了attention。本文中只讲解最简单的SelfAt...

是否确定退出登录?

Self-Attention：从点积到自注意力

第1章 向量点积

1.1 Self-Attention公式

1.2 向量点积

1.3 矩阵相乘

第2章 Self-Attention自注意力机制

2.1 softmax

2.2 自注意力机制

全部评论 (0)

相关文章推荐

Self-Attention：从点积到自注意力

自注意力（Self-Attention）

注意力机制（attention）和自注意力机制（self-attention）

self attention (自注意力机制)

自注意力机制(Self-Attention)

自注意力机制 Self-attention

自注意力机制（self-attention）

【Transformer】self-attention 自注意力机制

自注意力机制(Self-Attention Mechanism)

Self-Attention Mechanism(自注意力机制)

第1章向量点积