深度学习论文: MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision Models及其PyTorch实现

阅读量：

相关领域的研究：MOAT（Alternating Mobile Convolution and Attention）是一种创新性的技术方案，在视觉模型领域取得了显著成果及其Python框架实现。
PDF出处：https://arxiv.org/pdf/2210.01820.pdf
PyTorch代码库：https://github.com/shanglianlm0525/CvPytorch
进一步的网络结构：https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

MOAT 对 MBConv 和 Transformer Block 的优势与劣势进行了归纳总结，并巧妙地将其整合到 MOAT Block 中。另外，在不增加额外机制的情况下，通过直接地将全局注意力转换为窗口注意力模式设计的 MOAT 架构能够无缝衔接并适用大分辨率输入的任务需求。基于其设计特性——Mobile Convolution 能够在像素间高效传递局部信息（同时跨越多个区域），因此 MOAT 架构无需依赖复杂的窗口调整机制即可实现稳定性能表现。

2 MOAT

Mobile Convolution vs. Transformer Block vs. MBConv block

MBConv block 可以表示为

Transformer block 可以表示为

对比 MBConv block 与 Transformer Block, 作者得出一些结论：

首先，MBConv和Transformer Block都支持“inverted bottleneck”设计，其中输入张量的通道被扩展，然后由1×1卷积投影。然而，MBConv在这两个1×1卷积之间额外使用了3×3深度卷积，卷积之间既有批量归一化，也有GeLU激活。
其次，为了捕获全局信息，MBConv块可以使用 SE 模块，而Transformer Block则采用自注意力操作。请注意，SE 模块通过全局平均池化压缩空间信息，而自注意力模块保持张量的空间分辨率。
第三，在块内的不同位置执行下采样操作。为了向下采样特征，标准MBConv块使用stride深度卷积，而部署在现代混合模型CoAtNet中的Transformer Block在自注意力之前采用平均池化操作。

融合MBConv block 和Transformer block ， MOAT block 可以表示为

MOAT variants

3 Experiment

ImageNet Image Classification

COCO Detection

ADE20K Semantic Segmentation

全部评论 (0)

还没有任何评论哟~

深度学习论文: MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision Models及其PyTorch实现

深度学习论文:MOAT:AlternatingMobileConvolutionandAttentionBringsStrongVisionModels及其PyTorch实现 MOAT:Alterna...

深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现

深度学习论文:RethinkingMobileBlockforEfficientAttentionbasedModels及其PyTorch实现 RethinkingMobileBlockforEffi...

深度学习论文: MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer及其PyTorch实现

深度学习论文:MobileViT:Lightweight,Generalpurpose,andMobilefriendlyVisionTransformer及其PyTorch实现 MobileViT:...

深度学习论文: MobileNetV4 - Universal Models for the Mobile Ecosystem及其PyTorch实现

深度学习论文:MobileNetV4UniversalModelsfortheMobileEcosystem及其PyTorch实现 MobileNetV4UniversalModelsfortheMo...

深度学习论文: Separable Self-attention for Mobile Vision Transformers

深度学习论文:SeparableSelfattentionforMobileVisionTransformers SeparableSelfattentionforMobileVisionTransf...

深度学习论文: EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers及其PyTorch实现

深度学习论文:EdgeViTs:CompetingLightweightCNNsonMobileDeviceswithVisionTransformers及其PyTorch实现 EdgeViTs:Co...

深度学习论文: BAM: Bottleneck Attention Module及其PyTorch实现

BAM:BottleneckAttentionModule PDF:<https://arxiv.org/pdf/1807.06514.pdf PyTorch:<https://github.com/...

深度学习论文: ResNeSt: Split-Attention Networks及其PyTorch实现

ResNeSt:SplitAttentionNetworks PDF:<https://hangzhang.org/files/resnest.pdf PyTorch:<https://github....

深度学习论文: An Improved One millisecond Mobile Backbone及其PyTorch实现

深度学习论文:AnImprovedOnemillisecondMobileBackbone及其PyTorch实现 AnImprovedOnemillisecondMobileBackbone PDF:...

深度学习论文: Attention is All You Need及其PyTorch实现

深度学习论文:AttentionisAllYouNeed及其PyTorch实现 AttentionisAllYouNeed PDF:<https://arxiv.org/abs/1706.03762....

是否确定退出登录?

深度学习论文: MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision Models及其PyTorch实现

1 概述

2 MOAT

3 Experiment

全部评论 (0)

相关文章推荐

深度学习论文: MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision Models及其PyTorch实现

深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现

深度学习论文: MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer及其PyTorch实现

深度学习论文: MobileNetV4 - Universal Models for the Mobile Ecosystem及其PyTorch实现

深度学习论文: Separable Self-attention for Mobile Vision Transformers

深度学习论文: EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers及其PyTorch实现

深度学习论文: BAM: Bottleneck Attention Module及其PyTorch实现

深度学习论文: ResNeSt: Split-Attention Networks及其PyTorch实现

深度学习论文: An Improved One millisecond Mobile Backbone及其PyTorch实现

深度学习论文: Attention is All You Need及其PyTorch实现