Advertisement

深度学习论文: MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision Models及其PyTorch实现

阅读量:

相关领域的研究:MOAT(Alternating Mobile Convolution and Attention)是一种创新性的技术方案,在视觉模型领域取得了显著成果及其Python框架实现。
PDF出处:https://arxiv.org/pdf/2210.01820.pdf
PyTorch代码库:https://github.com/shanglianlm0525/CvPytorch
进一步的网络结构:https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

MOAT 对 MBConv 和 Transformer Block 的优势与劣势进行了归纳总结,并巧妙地将其整合到 MOAT Block 中。另外,在不增加额外机制的情况下,通过直接地将全局注意力转换为窗口注意力模式设计的 MOAT 架构能够无缝衔接并适用大分辨率输入的任务需求。基于其设计特性——Mobile Convolution 能够在像素间高效传递局部信息(同时跨越多个区域),因此 MOAT 架构无需依赖复杂的窗口调整机制即可实现稳定性能表现。

2 MOAT

Mobile Convolution vs. Transformer Block vs. MBConv block

在这里插入图片描述

MBConv block 可以表示为

在这里插入图片描述

Transformer block 可以表示为

在这里插入图片描述

对比 MBConv block 与 Transformer Block, 作者得出一些结论:

  • 首先,MBConv和Transformer Block都支持“inverted bottleneck”设计,其中输入张量的通道被扩展,然后由1×1卷积投影。然而,MBConv在这两个1×1卷积之间额外使用了3×3深度卷积,卷积之间既有批量归一化,也有GeLU激活。
  • 其次,为了捕获全局信息,MBConv块可以使用 SE 模块,而Transformer Block则采用自注意力操作。请注意,SE 模块通过全局平均池化压缩空间信息,而自注意力模块保持张量的空间分辨率。
  • 第三,在块内的不同位置执行下采样操作。为了向下采样特征,标准MBConv块使用stride深度卷积,而部署在现代混合模型CoAtNet中的Transformer Block在自注意力之前采用平均池化操作。

融合MBConv blockTransformer blockMOAT block 可以表示为

在这里插入图片描述

MOAT variants

在这里插入图片描述

3 Experiment

ImageNet Image Classification

在这里插入图片描述

COCO Detection

在这里插入图片描述

ADE20K Semantic Segmentation

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~