Transfomer相关知识点】

阅读量：

数据方便

数据扩增
制作更多的数据集。

从模型预测结果中筛选出误判图像，并对这些误判图像的特征进行分析，设计相应的优化算法。

网络结构

更换更优的backbone
使用FPN+PAN，提高对小目标的预测能力
使用更优的loss：ciou等
使用更优的正负样本选择方法：如SimOTA

Self-Attention

3.2 Q, K, V 的计算

Self-attention的输入以矩阵X的形式呈现，则通过应用线性变换矩阵W_Q、W_K和W_V来获得相应的查询（Query）、键（Key）与值（Value）。具体计算过程如图所示，请注意其中X、Q、K、V每一行分别对应一个词。

3.3 Self-Attention 的输出

我们获得了矩阵 Q, K, V后就能计算出自注意力机制的输出了；计算的具体公式如下：

公式中计算矩阵Q和K每一行向量的内积，为了防止内积过大，因此除以

平方根运算的结果是定义一个标量值对吗？当我们将向量Q与向量K进行转置后再进行相乘时会得到一个方阵该方阵具有相同的行数和列数即均为n×n维度其中n代表输入序列中的单词总数这一操作能够有效捕捉到不同位置之间的重要关联关系如图所示我们可以通过这一过程来计算不同词汇之间的注意力权重从而实现对文本信息的理解

，1234 表示的是句子中的单词。

得到

随后通过Softmax函数估算每个单词与其他单词之间的注意力权重，在该公式中定义的方式是将矩阵中的每一行分别应用Softmax函数使得每行元素之和归一化为1

得到 Softmax 矩阵之后可以和V相乘，得到最终的输出Z。

在图中，Softmax矩阵的第一行用于表示单词1与其他所有单词之间的注意力权重关系。其最终输出结果即为该行所对应的计算结果。

等于所有单词 i 的值

根据 attention 系数的比例加在一起得到，如下图所示：

Swin-Transformer代码解析

预处理PatchEmbed

复制代码

 graph TD

    
 1(N,3,224,224)--conv-3,96,4,4-->N,96,56,56--flaten+transpose-->N,56*56,96-->dropout
    
 2(N,C,H,W)--conv-C,C2,4,4-->N,C2,H/4,W/4--flaten+transpose-->N,H/4*W/4,C2-->dropout
    
    
    
    
    代码解读

stage

每个阶段的输入与输出均为 $N,HW,C$ 形式，则最终输出结果即为一个特征图，并未与其他backbone产生任何差别。

PatchMerging

就是focus结构，替代池化使用的

以下的N,HW,C等价于上一节的N,H/4W/4,C2

复制代码

 graph TD

    
 N,H*W,C--focus池化-->N,H/2*W/2,4*C--norm+liner-4C,2C-->N,H/2*W/2,2C
    
    
    
    
    代码解读

block

复制代码

 graph TD

    
 N,H*W,C--LN+reshape-->N,H,W,C--W-MSA/SW-MSA-->N,H/2*W/2,C
    
    
    
    
    代码解读

W-MSA

核心机制主要是基于自注意力机制。其实在局部区域上应用更为高效。从而减少了计算开销。这本质上等价于全局信息融合行为。

SW-MSA

参考链接

Swin-Transformer结合代码深度解析

深入掌握 Vision Transformer 原理及代码实现（推荐一篇内容详实丰富的技术综述作为重点章节介绍的同时）

全部评论 (0)

还没有任何评论哟~

Transfomer相关知识点】

数据方便 1.数据扩增 2.制作更多的数据集。将模型预测错的图片挑出来，然后根据这些预测错误图片的特征进行相应的算法设计。网络结构 3.更换更优的backbone 4.使用FPN+PAN，提高对小...

Python相关知识点

迭代器 getitem 凡是在类中定义了这个getitem方法，那么它的实例对象（假定为p），可以像这样p[key]取值，当实例对象做p[key]运算时，会调用类中的方法getitem。一般如果想使...

HTTP相关知识点

目录一、HTTP协议的特点二、一次完整的HTTP请求所经历的7个步骤三、HTTP请求报文与响应报文格式四、常见的HTTP相应状态码五、常见HTTP首部字段六、HTTP请求方法七、GET和...

FPGA相关知识点

FPGA相关知识点一、FPGA内部资源 1.可编程输入/输出块IOB: 2.可配置逻辑块CLB: 3.数字时钟管理模块（DCM）: 4.嵌入式块RAM（BRAM）: 5.丰富的布线资源: 6.底层内...

Redis相关知识点

Redis NoSQL数据库概述 NoSQL（NotOnlySQL），不仅仅是SQL，泛指非关系型数据库。NoSQL不依赖业务逻辑方式存储，而以简单的keyvalue模式存储。因此大大的增加了数据库...

USB 相关知识点

USB 1.硬件 2.软件 USB协议 USB描述符 USB设备枚举过程 USB3.0 1.硬件 1.USB2.04根线（VCC、GND、D+、D）；USB3.09根线,相比2.0多了5根线，接口为蓝...

python相关知识点

1、截取字符串字符串的截取的语法格式如下：变量[头下标:尾下标:步长] 倒序的方法法一： str=input printstr[::1] AI写代码结果: 法二： str=input print...

React相关知识点

一、什么是React? 官方解释：用于构建用户界面的JavaScript库。是一个将数据渲染为HTML视图的开源JavaScript库。 1.发送请求获取数据 2.处理数据（过滤、整理格式等） 3.操...

MQ相关知识点

1.项目中在什么地方是用了MQ 1.使用mq异步发送优惠券 2.使用mq异步发送短信 3.使用mq异步扣减库存 4.使用mq异步审核贷款金额实现异步的方式:MQ和多线程 2.为什么需要使用MQ 1....

JAVASE相关知识点

JavaSE 文章目录 JavaSE IDEA快捷键 EXPAND TIPS MEMO1前置内容 MEMO2DeBug、标识符、数据类型、进制相关 MEMO3运算符 MEMO4switch语句、循环语...

是否确定退出登录?

Transfomer相关知识点】

Self-Attention

3.2 Q, K, V 的计算

3.3 Self-Attention 的输出

Swin-Transformer代码解析

预处理PatchEmbed

stage

PatchMerging

block

W-MSA

SW-MSA

参考链接

全部评论 (0)

相关文章推荐

Transfomer相关知识点】

Python相关知识点

HTTP相关知识点

FPGA相关知识点

Redis相关知识点

USB 相关知识点

python相关知识点

React相关知识点

MQ相关知识点

JAVASE相关知识点