【PyTorch][chapter 26][李宏毅深度学习][attention-2]

阅读量：

前言：

Multi-Head Attention 的主要作用是：将 Q、K、V 向量按不同头分割为多个子语义空间。

attention 机制
Multi-Head Attention

一 attention 注意力

Self-Attention（自注意力机制）：该机制使输入序列中的每个元素都能够关注并赋予权重整个序列中的其他元素，在生成新的输出表示的同时不受外部信息或历史状态的影响。

将查询Query，键Key，值Value 映射到输出。

查询Query,键Key, 值Value 都是向量.

其输出为值的加权求和。

1.1 mask 作用

1.2 scale 作用

复制代码

 # -*- coding: utf-8 -*-

    
 """
    
 Created on Tue Jul 16 11:21:33 2024
    
   5. @author: chengxf2
    
 """
    
 import torch
    
 import math
    
  
    
 def attention(query,key ,value, mask=None):
    
     #[batchSize, seq_num, query_dim]
    
     d_k = query.size(-1)
    
     print(d_k)
    
     attentionMatrix = torch.matmul(query, key.transpose(-2,-1))
    
     
    
     scores = attentionMatrix/math.sqrt(d_k)
    
     
    
     if mask is not None:
    
     scores = scores.mask_fill(mask==0, -1e9)
    
  
    
     p_attn = torch.softmax(scores, dim=-1)
    
     out = torch.matmul(p_attn, value)
    
     return out
    
     
    
  
    
 seq_len = 5
    
 hid_dim = 10
    
 out_len =3
    
  
    
 query = torch.rand((seq_len,hid_dim))
    
 key =  torch.rand_like(query)
    
 value = torch.rand((seq_len, out_len))
    
  
    
 attention(query, key, value)

二 Multi-Head Attention

多头注意力机制的主要理论依据是信息在不同维度上的多样化表示这一核心理论。通过将输入向量在多个子空间中进行映射，在各个子空间独立地进行自注意力计算后汇总结果的方式下实现特征交互作用的建模，并且这种设计使得模型能够更全面地捕捉和表达复杂的特征关系

2,1 第一步：查询Q、键K 和值V 矩阵的生成

输入：

张量A

shape: [batch, seq_len, input_dim]

输出：

Q,K,V

shape:[batch,seq_len, query_dim]

（下面以输入seq_len=2 ，为例）

其中下面三个矩阵是需要学习的矩阵：

的shape 为【input_dim, query_dim]

2.2 第二步：子空间投影

Q,K V 乘以对应的Head 矩阵，得到对应的mulite-head Q,K,V

以 Query张量为例：实现的时候先乘以Head 矩阵

,然后再通过View 功能

分割成子空间。

第三步：对不同Head 的Q,K,V

做self-attention，得到不同Head 的

第四步： concate

导入 torch 库

从 torch.nn 导入神经网络模块

我们假设有一个包含查询、键和值的张量集合

query = torch.rand(10, 8, 64) # (batch_size, n_query, d_model)
key = value = query # 为了简化计算，在本示例中使用相同的张量作为键和值

创建一个四头注意力机制实例，并指定嵌入维度为64

multihead_attn = nn.MultiheadAttention(embed_dim=64, num_heads=4)

通过多头注意力机制处理输入张量序列

output, attention_weights = multihead_attn(query, key, value)

输出结果信息

print("输出形状: ", output.shape) # 输出: torch.Size([10, 8, 64])
print("注意力权重形状: ", attention_weights.shape) # 输出: torch.Size([10, 4, 8, 8])

复制代码

 # -*- coding: utf-8 -*-

    
 """
    
 Created on Wed Jul 17 09:46:40 2024
    
   5. @author: chengxf2
    
 """
    
  
    
 import torch
    
 import torch.nn as nn
    
 import copy
    
 import math
    
 from torchsummary import summary 
    
 import netron
    
 def clones(module, N):
    
     
    
     "生成N 个 相同的层"
    
     
    
     layers = nn.ModuleList(
    
     
    
     [copy.deepcopy(module)  for _ in range(N)]
    
     )
    
     
    
     return layers
    
  
    
 def attention(query, key ,value):
    
     
    
      #输出[batch, head_num, seq_len,query_dim ]
    
   
    
      seq_num = query.size(-1)
    
      
    
      scores = torch.matmul(query, key.transpose(-2,-1))
    
      
    
      scores = scores/math.sqrt(seq_num)
    
      
    
      p_attn = torch.softmax(scores, dim=-1)
    
      
    
      out = torch.matmul(p_attn, value)
    
      print("\n out.shape",out.shape)
    
      return out, p_attn
    
  
    
 class  MultiHeadedAttention(nn.Module):
    
     
    
     def __init__(self, head_num, query_dim):
    
     
    
     super(MultiHeadedAttention, self).__init__()
    
     self.head_num = head_num
    
     self.sub_query_dim = query_dim//head_num
    
    
    
     self.linears = clones(nn.Linear(query_dim,query_dim), 4)
    
     self.attn = None
    
     
    
     
    
     def forward(self, query, key, value):
    
     #query.shape [batch, seq_num,query_dim]
    
     
    
     batchSz = query.size(0)
    
     #[batchsz, seq_num, head_num, query_dim]
    
     query, key, value = \
    
         [net(x).view(batchSz, -1, self.head_num, self.sub_query_dim).transpose(1, 2)
    
          for net, x in zip(self.linears, (query, key, value))]
    
    
    
     #输出[batch, head_num, seq_len,sub_query_dim ]
    
    
    
     x, self.attn = attention(query, key, value)
    
     print("\n attn ",self.attn)
    
     
    
     x = x.transpose(1,2).contiguous().view(batchSz,-1,self.head_num*self.sub_query_dim)
    
     
    
     out = self.linears[-1](x)
    
     
    
     print(out.shape)
    
     return out
    
     
    
 if __name__ == "__main__":
    
     batchSz=1
    
     seq_num =2
    
     out_dim=query_dim =9
    
  
    
     head_num =3
    
     #下面这三个矩阵是需要学习的矩阵
    
     query = torch.randn((batchSz, seq_num, query_dim))
    
     key =  torch.rand_like(query)
    
     value =torch.randn((batchSz, seq_num, out_dim))
    
     
    
     
    
     model = MultiHeadedAttention(head_num,query_dim)
    
  
    
     model(query,key,value)
    
     
    
     print("\n 模型参数 \n ")
    
    
    
     input_size = (seq_num, query_dim)
    
     summary(model,[input_size,input_size,input_size])
    
     # 创建一个输入样本
    
     input_dict = {"x1": query, "x2": key, "x3":value}
    
  
    
     # 导出模型为ONNX格式
    
     torch.onnx.export(model,               # 模型实例
    
               (query,key,value),                   # 模型输入
    
               "model.onnx")
    
  
    
     netron.start('model.onnx')

https://zhuanlan.zhihu.com/p/626820422

The Annotated Transformer

全部评论 (0)

还没有任何评论哟~

【PyTorch][chapter 26][李宏毅深度学习][attention-2]

前言： MultiHeadAttention主要作用：将Q,K,V向量分成多个头，形成多个子语义空间，可以让模型去关注不同维度语义空间的信息目录： 1.attention机制 2.MultiHead...

【PyTorch][chapter 26][李宏毅深度学习][attention-1]

前言： attention在自然语言处理，声音处理里面是一个很重要的技巧. attention要解决的是输入的向量长度不定. 根据输入输出的不同,分为三种场景：输入N个向量，输出N个向量,这是本章的...

【PyTorch][chapter 28][李宏毅深度学习][Diffusion Model-2]

前言：本篇主要简单介绍一下StateDiffusion.StateDiffuison里面NoisePredictor模型主要应用了Unet架构，提供了对应的PyTorch代码。

[PyTorch][chapter 9][李宏毅深度学习][CNN]

前言：卷积神经网络（ConvolutionalNeuralNetworks）是一种深度学习模型或类似于人工神经网络的多层感知器，常用来分析视觉图像。卷积神经网络的创始人是着名的计算机科学家YannL...

【PyTorch][chapter 228][李宏毅深度学习][Diffusion Model-1]

前言：《DenoisingDiffusionProbabilisticModels》作者：JonathanHo,AjayJain,andPieterAbbeel 一、模型原理 DiffusionM...

【PyTorch][chapter 25][李宏毅深度学习][ CycleGAN]【实战】

前言：论文中直接提供了GitHub的代码下载地址 GitHubjunyanz/pytorchCycleGANandpix2pix:ImagetoImageTranslationinPyTorch 这...

【PyTorch][chapter 29][李宏毅深度学习]Fine-tuning LLM

参考： <https://www.youtube.com/watch?v=eC6Hd1hFvos 目录： 1.什么是Finetune 2.为什么需要Finetuning 3.如何进行Finetune ...

【PyTorch][chapter 15][李宏毅深度学习][Neighbor Embedding-LLE]

前言：前面讲的都是线性降维，本篇主要讨论一下非线性降维. 流形学习（mainfoldlearning）是一类借鉴了拓扑流行概念的降维方法. 如上图,欧式距离上面A点跟C点更近，距离B点较远但是从图...

【PyTorch][chapter 24][李宏毅深度学习][ CycleGAN]【理论】

摘要Abstract：本篇主要参考论文分享一下CycleGAN. CycleGAN是实现不同图像之间风格的转换,并且样本数据无需配对即可实现转换目录： 1.简介 2.相关工作 3.原理阐述 4.实...

【PyTorch][chapter 16][李宏毅深度学习][Neighbor Embedding][t-SNE]

前言：前面LLE讲了两个点在高维空间距离相近，通过降维后也要保持这种关系但是如果两个点在高维空间距离很远（不属于K邻近）,降维后有可能叠加在一起了. tSNEtDistributedStochas...

是否确定退出登录?

【PyTorch][chapter 26][李宏毅深度学习][attention-2]

我们假设有一个包含查询、键和值的张量集合

创建一个四头注意力机制实例，并指定嵌入维度为64

通过多头注意力机制处理输入张量序列

输出结果信息

全部评论 (0)

相关文章推荐

【PyTorch][chapter 26][李宏毅深度学习][attention-2]

【PyTorch][chapter 26][李宏毅深度学习][attention-1]

【PyTorch][chapter 28][李宏毅深度学习][Diffusion Model-2]

[PyTorch][chapter 9][李宏毅深度学习][CNN]

【PyTorch][chapter 228][李宏毅深度学习][Diffusion Model-1]

【PyTorch][chapter 25][李宏毅深度学习][ CycleGAN]【实战】

【PyTorch][chapter 29][李宏毅深度学习]Fine-tuning LLM

【PyTorch][chapter 15][李宏毅深度学习][Neighbor Embedding-LLE]

【PyTorch][chapter 24][李宏毅深度学习][ CycleGAN]【理论】

【PyTorch][chapter 16][李宏毅深度学习][Neighbor Embedding][t-SNE]