Advertisement

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

阅读量:

动机:

为什么选择这篇文章?因为其性能卓越,在多个数据集上取得了优异成绩。经过一系列优化后,在各个数据集上均位居前列:支持语义分割、分类以及目标检测任务,并且均跻身前十名。

在这里插入图片描述

CC

CC

CC

CC

解题思路

CC

CC

CC

CC

CC

CC

CC

CC

CC

CC

在这里插入图片描述

CC

CC

CC

CC

CC

CC

CC

CC

在这里插入图片描述

CC

CC

CC

在这里插入图片描述

CC

CC

CC

CC

CC

相关工作

CC

CC

Overall Architecture

在这里插入图片描述

CC

CC

CC

在这里插入图片描述

CC

CC

patch merging

在这里插入图片描述

【CC】patch merging的过程如上图

Swin Transformer Blocks

在这里插入图片描述

CC

CC

Efficient modeling

Assuming that each window includes a grid of M×M elements within an image that has been segmented into patches of size h×w, the value of M remains constant, defaulting to 7.

在这里插入图片描述

CC

CC

在这里插入图片描述

Shift Window & Mask

在这里插入图片描述

CC

CC

在这里插入图片描述

【CC】上图是以shift后 左下部分 计算过程分下 mask应该如何设计

在这里插入图片描述

【CC】上图是论文作者在git答疑时画出来的4个mask模板

相对位置编码:

二维相对位置编码有机会再介绍

源码参考链接:

https://github.com/microsoft/Swin-Transformer.

全部评论 (0)

还没有任何评论哟~