李宏毅《Deep Learning》学习笔记 - transformer

阅读量：

学习资料

教学视频：https://www.youtube.com/watch?v=ugWDIIOHtPA&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=61&t=1s

Transformer

Transformer基于Seq2Seq结合Self-Attention机制

Seq2Seq Model的问题

Seq2Seq模型的主要缺点在于其运算效率较低，并行处理能力不足。如图所示，在左侧部分展示了传统的 Seq2Seq 模型工作流程，在右侧部分则采用卷积神经网络（CNN）来进行数据处理过程。与传统的 Seq2Seq 方法相比，在实现并行化方面 CNN 显示出了显著的优势。

相比Seq2Seq层而言，在无需修改输入输出结构的情况下可以直接取代原有的RNN层，并且还可以通过引入并行化技术来提高计算效率。

Self-Attention

对每一个Input都经过变换处理，生成三个向量q、k、v。接着，在此基础上进行注意力计算：这里的注意力机制的本质是衡量两个向量之间的相似程度。

attention有多种计算方法，下面使用的是scaled dot-product attention。

接着，将所有的attention value都做soft-max

将经过soft-max的值，与每一个v相乘，求和，求得 $b^1$

对于 $b^2$ 的计算方法，也是类似

让我们来探讨如何进行矩阵计算的并行化处理。对输入数据 $x^{1}, x^{2}, x^{3}, x^{4}$ 进行变换后得到 $a^{1}, a^{2}, a^{3}, a^{4}$ 。这些转换后的值将被用作构建一个 $I$ 矩阵的各项列。随后我们将该 $I$ 矩阵分别与权重矩阵 $W_{t} = [W_{q}; W_{k}; W_{v}]$ , 其中每一个子块对应着不同的运算（如查询、键、值），从而生成相应的查询向量 $q$ , 键向量 $k$ , 值向量 $v$ . 每一列实际上都是之前所述的具体步骤所得到的结果：即 $q_{i}$ , $k_{i}$ , $v_{i}$ .

再看一下计算 $\hat{\alpha}$ 和 $b$ 的过程。

最后，我们再回顾一下，整个self-attention的计算过程。

Multi-head Self-Attention

Positional Encoding

Seq2Seq with Attention

将原先的RNN层，用self-attention layer代替，就好了。

架构分析

下面是Transformer的完整架构，包括Encoder和Decoder。

下面是对架构中各组成部分的详细说明。其中Multi-Head Attention即为上文所述的自注意力层。Add & Norro被图1左上方黄色区域所解释。其中Add操作表示将输入a与输出b相加，在此过程中Norro指代层归一化（Layer Normalization）过程的具体实现方式。此处对比了Layer Normalization和Batch Normalization两种归一化方法。具体而言，在Layer Normalization中对单个样本中的各维度值进行标准化，在Batch Normalization则对同一维度在同一批数据中的数值执行标准化处理。

论文实验

其他应用

全部评论 (0)

还没有任何评论哟~

李宏毅《Deep Learning》学习笔记 - transformer

list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=61&t=1s 课件：http://speech.ee.ntu.edu.tw/~tlkagk...

李宏毅Deep Learning 学习笔记

视频介绍：对于各网络的基本框架讲的比较有意思，123678比较详细一些 1、2、DL基本框架，全连接网络和神经网络的基本介绍 3、计算图和反向传播 4、语言模型的练习 5、空间 6、highwayne...

李宏毅《Deep Learning》学习笔记 - GNN

GraphNeuralNetwork 学习资料：video1,video2,PPT 1\.Roadmap 2\.Spatialbased 在GNN中常用的术语，aggregate类似于CNN中的con...

李宏毅《Deep Learning》学习笔记 - seq2seq

Seq2Seq 视频：https://www.youtube.com/watch?v=ZjfjPzXw6og 回顾RNN 下面的x^1,x^2,x^3等inputvector都是一组向量，RNN模块是...

李宏毅《Deep Learning》学习笔记 - 强化学习

0\.入门介绍相关学习资料的传送门：PDF,Video 在强化学习中，常用的方法主要包括：valuebased的方法和policybased的方法。 valuebased方法要早于policybas...

李宏毅《Deep Learning》学习笔记 - BERT and GPT

学习资料：video,PPT 1\.背景 BERT的本质就是transformerencoder 为什么会出现BERT呢？这就需要从NLP最初的问题说起，我们需要对语句中的word做编码。

李宏毅深度学习笔记09(Tips for Deep Learning)

Deeplearning 要分清楚是哪里不行,不能把所有的都归结于欠拟合. 在trainingset上的no是陷入局部最优的原因.在testingset上的no才是overfitting的原因. Dr...

李宏毅深度学习笔记04(Optimization for deep learning)

SGD SGDMSGDwithMomentum Momentum项相当于速度,因为β稍小于1，表现出一些摩擦力，所以球不会无限加速下去,解决了局部最小点的问题,可以使球向最低点继续运动. Adagra...

李宏毅机器学习笔记3-Optimization for Deep Learning

OptimizationforDeepLearning BackgroundKnowledge NewOptimizersforDeepLearning SGD SGDM Adagrad RMSPro...

李宏毅机器学习笔记——Transformer

李宏毅机器学习笔记——Transformer 本章主要是介绍了Transformer全自注意力网络： 1\.通过sequencetosequence模型中的RNN存在问题——不能并行计算，CNN替换可...

是否确定退出登录?

李宏毅《Deep Learning》学习笔记 - transformer

学习资料

Transformer

Seq2Seq Model的问题

Self-Attention

Multi-head Self-Attention

Positional Encoding

Seq2Seq with Attention

架构分析

论文实验

其他应用

全部评论 (0)

相关文章推荐

李宏毅《Deep Learning》学习笔记 - transformer

李宏毅Deep Learning 学习笔记

李宏毅《Deep Learning》学习笔记 - GNN

李宏毅《Deep Learning》学习笔记 - seq2seq

李宏毅《Deep Learning》学习笔记 - 强化学习

李宏毅《Deep Learning》学习笔记 - BERT and GPT

李宏毅深度学习笔记09(Tips for Deep Learning)

李宏毅深度学习笔记04(Optimization for deep learning)

李宏毅机器学习笔记3-Optimization for Deep Learning

李宏毅机器学习笔记——Transformer