swin transformer解读
Swin Transformer: 一种层次结构化的视觉Transformer模型基于滑动窗口设计 --论文解读
论文信息、概要
Swin Transformer是微软于今年3月25日发布的一篇基于Transformer架构处理计算机视觉任务的研究论文。该开源代码仅发布两天便在GitHub上获得了超过2,200多个star mark。在我看来,这可能是Transformer架构在计算机视觉领域最有实用价值的一篇文章,在图像分割、目标检测等多个领域均取得了显著的成绩,并让很多人看到了Transformer完全替代卷积神经网络的潜力。其设计理念汲取了ResNet的核心理念,并通过从局部到整体的方式逐步增强对图像的理解能力。这种成功并非偶然所得,而是经过长期积累与深入研究的结果。
总体结构
图像经过初步处理后被分割成4×4的小块,并通过映射转化为单个像素点进而实现通道上的扩展。以Swin Transformer为例,在此过程中输入的224×224图像转变为56×56的特征图。随后特征图直接投入stage1,在该层由两组transformer构成:其中一组为普通的window attention模块另一组则采用shift window attention模块。这两个attention模块在同一个stage内部依次执行功能并列存在而无需额外堆叠关系。为了提升信息提取效率每层之间均配备池化操作以便从局部信息过渡至全局信息捕捉系统中实现数据量缩减具体机制为:首先将特征图转换为空间到深度(space to depth)形式并放大四分之一随后乘以四倍通道数量;接着通过多层感知机(MLP)对通道进行压缩一半从而实现了数据总量减半这一特性。
由此可见Swin Transformer与ResNet在架构设计上均遵循层次化递进模式两者均采用了分阶段处理数据的方式其中ResNet主要依赖于卷积核提取空间特征而Swin Transformer则通过transformer架构实现了基于自注意力机制的信息融合特点在于其能够有效捕捉长距离依赖关系并且在此基础上构建出更加丰富且层次分明的表征体系。

window attention 和 shift window attention
如图所示,在Image分割时采用了Window自注意力机制(Window Self-Attention Mechanism),即将图像划分为不同尺寸的局部区域,并在此基础上执行特征提取过程。然而仅依赖于Window自注意力机制可能会导致每个像素点的空间扩展性不足。为此研究者提出了Shift Window自注意力机制(Shift Window Self-Attention Mechanism)。该方法通过改变窗口划分策略,在每个位置上形成动态调整的窗口结构从而实现了增强的空间扩展性效果。

存在的问题
在相同计算规模下(即相同分辨率),swin的表现明显优于resnet。然而存在以下问题:
