Advertisement

【模型架构】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

阅读量:

基于移窗机制的分块视觉变压器

一、研究背景

Motivation:
ViT的提出证明了在NLP领域中“大杀四方”的Transformer结构同样可以应用于视觉领域,但是ViT的工作仅在分类任务上表现较好,真正应用在下游任务上还存在2大挑战:
(1)多尺度问题 ——图像中物体大大小小、不同语义目标有不同尺寸;
(2)图像分辨率问题 ——分辨率过大的图像转换序列计算复杂度非常大。
文章的贡献:
针对问题一,提出移动窗口学习特征,降低了计算复杂度,同时shift操作让窗口之间有了交互,变相达到全局建模能力。
针对问题二,借鉴CNN的池化操作设计了Patch Merging操作,把相邻的小patch合并成一个大的patch,扩大了模型的感受野。

在这里插入图片描述

基于滑动窗口、具有层级设计的Transfomer

二、整体架构

设计思路:考虑设计一个像CNN的Transformer

整体模型采用分层架构 ,包含四个不同的阶段。在第一个阶段之前,在其他三个阶段均会先经过 Patch Merging 层来缩小特征图的空间分辨率,并实现多尺度下采样的目标。其感受野逐步扩张的过程与经典的CNN类似。每个Swin计算块具体由两个Transformer模块构成:首先通过窗口内的多头自注意力机制进行特征提取;接着利用滑动窗口机制展开跨窗口信息融合,并最终完成不同窗口之间信息交互与融合目标。

在这里插入图片描述

可调整的超参数:c向量维度+stage的block number

三、核心方法

3.1 移动窗口

ViT处理的所有特征均基于采用固定的16倍下采样策略获得统一尺寸属性,并且这种属性属于低分辨率范畴,在实际应用中并不适合密集预测任务的需求。此外,在这一机制中始终聚焦于最大尺寸窗口范围内的自注意力计算模式存在局限性——其复杂度与图像尺寸呈平方关系增长。然而,在小窗口范围内计算自注意力的方式却有效降低了整体计算复杂度——这种做法不仅考虑了局部特征提取的能力(即CNN先验知识),还体现了模型对空间局部性的归纳偏好(Locality Inductive bias)。

在这里插入图片描述

移动窗口操作

与示意图对比,默认情况下,在Swin-T架构中定义为:一个计算单元对应于7×7=49个小区域(称为patch)。其中每一个计算单元都是一个基本的元素单元;而每一个这样的计算单元又包含49个独立的小区域(称为patch)。其平移操作则是将整个特征图向右下方移动两个patch大小。这一操作后会将特征图分割为四个子区域(quadrants),从而形成了左图所示的9个新窗口。这种设计的好处在于各子区域之间存在重叠部分;通过自注意力机制实现信息交互。

3.2 Patch Merging

在这里插入图片描述

CNN中的池化操作,本质是对数据的降维,也扩大了卷积的感受野

在这里插入图片描述

Patch Merging操作

计算方法:考虑一个4×4像素的图像,在两倍的空间分辨率下提取每隔一个像素点(即间隔1个像素),随后依次进行通道连接(concat)、空间重塑(view)以及批量归一化(LayerNorm)处理。接着经过线性变换降维后进行重塑操作即可得到新特征图其宽度和高度较原始图像减半但通道数量增加了一倍从而实现了多尺度信息的有效捕捉

四、实验细节

4.1 提高移动窗口的计算效率

在这里插入图片描述

使用masking掩码方法

如图所示,在窗口移动后的情况中发现,在数量上从4个窗口增长到9个窗口时计算复杂度提升了超过一倍。因此为了弥补移位填充带来的影响最终将图像恢复为四宫格结构。然而这会导致一个问题即图像语义信息在移动操作后被破坏。因此设计掩码模板用于消除位置偏倚以使自注意力机制能够正确捕捉到空间关系。通过在计算完成后进行循环移位操作可以有效恢复图像的空间结构。

在这里插入图片描述

设计掩码模板

4.2 不用绝对位置编码,而是用相对位置编码

添加图片注释,不超过 140 字(可选)

实验发现用相对位置编码会更好

在这里插入图片描述
在这里插入图片描述

Step1: 计算相对位置;
Step2: 对相对位置进行编码;

优势: 1. 可处理变长输入序列; 2. 对平移不变性的模式识别能力较强;

五、实验结果

在这里插入图片描述

分类任务 ImageNet-1K

在这里插入图片描述

检测任务 COCO数据集

在这里插入图片描述

不同方法的最优情况比较

在这里插入图片描述

分割任务 ADE20K

实验结果表明:在COCO数据集上与当时的最佳模型相比(即AP值)提升了约2.7个百分点;同时,在ADE20K数据集上的mIoU数值较优方案高出约3.2个百分点。

六、实验总结

这一研究工作通过实验证明,在重要的物体检测(基于区域级别的识别任务)以及语义分割(基于像素级别的识别任务)评测集中显示出Transformer模型相较于以往所有的卷积网络方法所展现出的显著优势,并以此为基础使得学界与产业界普遍认识到Transformer架构将取代传统的卷积神经网络方法,在视觉领域占据主导地位

全部评论 (0)

还没有任何评论哟~