Swin Transformer : Hierarchical Vision Transformer using Shifted Windows

阅读量：

论文地址

本研究旨在探讨并开发一种新型的Transformer架构——Swin Transformer。其主要目标在于构建一个通用且高效的架构设计框架。

Transfoemer从NLP应用到CV领域存在以下几个挑战：

痛点：CV中视觉块的变化尺度大；图像像素的高分辨率；——动机

scale：视觉元素的变化可能导致规模上的显著差异；
High Resolution：像素级别上的提升意味着更高的分辨率，在这种情况下其自注意力机制的时间/空间复杂度为 $O(N^2)$ 。

本文开发了一种基于层次结构的Transformer架构，并采用滑动窗口机制来提取特征。该架构将自注意力机制限定于不重叠的小块区域，并通过跨层连接设计提升了模型灵活性。该模型在图像分类任务上表现突出，并在目标检测和语义分割等密集预测任务中展现出良好的性能。同时，在实现上述功能的同时实现了较低的时间延迟。

Hierarchical（分层）Transformer——捕获分层特征图+线性复杂度

分层特征图采用较小尺寸的patch，并结合其邻居patch进行融合
线性的计算复杂度主要体现在基于局部区域进行自注意力机制的设计上；每个模块采用固定尺寸（即fixed patch）并保持局部特性（即local）
核心问题在于如何实现如何实现如何实现如何实现如何实现如何实现如何实现如何实现如何实现如何实现

架构学习

swin transformer block：用基于Shifted-window替代原标准多头自注意力模块，线性复杂度替代二次计算。
基于自注意力的移动窗口：局部窗口自注意力计算；窗口间的连接（移动窗口分区方案）；
第一个模块使用从左上角像素 开始的规则窗口划分策略（New ），将8×8特征映射均匀划分为2个大小为4×4的窗口。然后，下一个模块采用一种窗口配置，从前一层的窗口配置中移动，通过从规则划分的窗口中替换(M/2，M/2)像素的窗口。
针对移位配置的高效批计算：以前的pad的填充再屏蔽的方法，在窗口过小的情况下，会提高计算量；本文整改：循环移位-向左上方移动。——降低计算量。

Deconvolution - 简书

全部评论 (0)

还没有任何评论哟~

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

动机：为啥挑这篇文章，因为效果炸裂，各种改款把各种数据集霸榜了：语义分割/分类/目标检测，前10都有它 SwinTransformer,thatcapablyservesasageneralpurp...

Swin Transformer : Hierarchical Vision Transformer using Shifted Windows

论文地址本文主要研究学习一种新的Transformer架构——SwinTransformer，其目的：新建一个通用架构 Transfoemer从NLP应用到CV领域存在以下几个挑战：痛点：CV中视...

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

PaperReadingNote URL:<https://arxiv.org/pdf/2103.14030.pdf Milestone！！ transfomer屠榜cnn的最新力作 cnn老年迟暮，...

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

总结 1.移动窗口，在单个窗口中的patch之间做selfAttention，VIT是在所有的patch，每次向右下方移动，增加了不同窗口之间的交互，增加了归纳偏差，减少了计算量，由VIT的平方变为线...

2021：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

摘要本文提出一种新的视觉Transformer\SwinTransformer，它可以成为计算机视觉的通用主干。从语言到视觉采用Transformer的挑战来自于这两个领域之间的差异，比如视觉实体的...

CVPR2021 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

动机 1、一个跨计算机视觉和自然语言处理的统一体系结构将有利于两个领域的研究，因为它将促进虚拟信号和文本信号的联合建模，并且两个领域的建模知识可以更深入地共享。计算机视觉中的建模一直由卷积神经网络（...

2021-Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

paper:<https://arxiv.org/abs/2103.14030 code:<https://github.com/microsoft/SwinTransformer 将Transfor...

Swin Transformer详解: Hierarchical Vision Transformer using Shifted Windows

这篇文章结合了CNN的归纳偏置，基于局部窗口做注意力，并且逐步融合到深层transformer层中构建表征，来达到扩大感受野，并且极大降低了计算量。是一个特征提取的主干网络，backbone。

[Paper Notes]: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

目录 TL;DR 主要设计窗口注意力 ShiftedWindow 相对位置编码 VisionTransformer架构如何解决动态输入问题 TL;DR swintransformer是基于trans...

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows解读

论文、代码和ppt地址：swintransformer。 ABSTRACT 本文提出了一种新的视觉Transformer，名为SwinTransformer，它能够作为计算机视觉的通用骨干网络。

是否确定退出登录?

Swin Transformer : Hierarchical Vision Transformer using Shifted Windows

全部评论 (0)

相关文章推荐

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Swin Transformer : Hierarchical Vision Transformer using Shifted Windows

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

2021：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

CVPR2021 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

2021-Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Swin Transformer详解: Hierarchical Vision Transformer using Shifted Windows

[Paper Notes]: Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows解读