Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
发布时间
阅读量:
阅读量
动机:
为什么选择这篇文章?因为其性能卓越,在多个数据集上取得了优异成绩。经过一系列优化后,在各个数据集上均位居前列:支持语义分割、分类以及目标检测任务,并且均跻身前十名。

CC
CC
CC
CC
注
解题思路
CC
CC
CC
CC
CC
CC
CC
CC
CC
CC

CC
CC
CC
CC
CC
CC
CC
CC

CC
CC
CC

CC
CC
CC
CC
CC
相关工作
CC
CC
Overall Architecture

CC
CC
CC

CC
CC
patch merging

【CC】patch merging的过程如上图
Swin Transformer Blocks

CC
CC
Efficient modeling
Assuming that each window includes a grid of M×M elements within an image that has been segmented into patches of size h×w, the value of M remains constant, defaulting to 7.

CC
CC

Shift Window & Mask

CC
CC

【CC】上图是以shift后 左下部分 计算过程分下 mask应该如何设计

【CC】上图是论文作者在git答疑时画出来的4个mask模板
相对位置编码:
二维相对位置编码有机会再介绍
源码参考链接:
全部评论 (0)
还没有任何评论哟~
