Advertisement

深度学习论文: MobileNetV4 - Universal Models for the Mobile Ecosystem及其PyTorch实现

阅读量:

deep learning research papers: The MobileNetV4 model and its PyTorch implementation
MobileNetV4 architecture: The architecture of MobileNetV4, a universal model designed for mobile ecosystems
PDF: https://arxiv.org/pdf/2404.10518.pdf
PyTorch code repository 1: https://github.com/shanglianlm0525/CvPytorch
PyTorch code repository 2: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

该高效架构专为移动设备设计的核心在于其独特的Universal Inverted Bottleneck (UIB) Search Block与Mobile MQA Attention Block的整合。其中,UIB Search Block巧妙地结合了多种先进技术;而Mobile MQA Attention Block则经过专门设计用于提升移动设备上的运行效率。为了进一步优化性能,在整个架构中采用了经过精心调优的神经架构搜索方案。这些创新成果使MNv4-Hybrid-Large模型能够在各向异性平衡下实现最佳性能,在ImageNet-1K测试集上达到了令人满意的87%分类准确率,并且在Pixel 8 EdgeTPU平台上运行速度极快。

在这里插入图片描述

2 Universal Inverted Bottlenecks

通用倒瓶颈(UIB)块以其简洁而高效的双重特点著称,在展示其创新性的过程中如图所示,在传统设计中融入了两个可选的深度卷积(DW)操作:一个位于扩展层之前的位置另一个则安置于扩展层与投影层之间这两个可选模块的存在性是由神经网络架构搜索优化过程精准确定从而构建出性能卓越的新一代架构

在这里插入图片描述

虽然这种改动看似简单, 但UIB块却成功整合了多个现有的关键组件, 包括经典的IB块、前沿的ConvNext块以及ViT中的FFN块. 这种整合既保持了各组件原有的优势, 又使得整体性能得到了显著提升.

值得特别一提的是,在现有的UIB架构基础上引入了一种革新版本——深度卷积IB块(ExtraDW)。这一创新版本不仅为UIB块带来了新的活力,并且保证了其高效性的同时进一步提升了模型的表达能力。

无论是在哪个网络阶段,在每个节点上都会体现出显著的灵活性特征

  • 动态平衡空间与通道之间的关系,并在此基础上提升模型在表达方面的性能;
    • 灵活地扩展感受野范围的同时增强模型对长距离依赖关系的理解能力;
    • 在不降低性能的前提下最大限度地提高计算效率,并保证系统运行效率。

3 Mobile MQA

Mobile MQA注意力块专为加速器优化设计,并能明显提高推理速度,在性能上实现了39%以上的提升。

MQA
MQA基于键值对的利用简化了多头查询注意力机制。与之相比,在保证了良好的性能基础上,MQA不仅提升了计算效率,并且实现了参数规模大幅缩减。

在这里插入图片描述

Spatial Reduction Attention (SRA)
源自MQA的非对称计算原理,在改进后的MQA模块中成功整合了空间缩减注意力机制(SRA)。这种设计不仅有效降低了查询键和值的空间分辨率,同时维持了高空间分辨率的查询向量。通过采用步长为2的3×3深度卷积操作取代传统平均池化操作(AvgPooling),我们实现了模型容量提升的同时保证了计算效率与经济性。

在这里插入图片描述

采用非对称空间下采样技术后,在仅造成微乎其微的精度损失(-0.06%)的情况下,能够显著提升整体效率。

Mobile MQA

在这里插入图片描述

其中 SR 表示空间缩减,则指步长为2的深度卷积(DW),否则表示恒等函数。

4 Design of MNv4 Models

在实例化UIB块的过程中,在采用定制化的TuNAS方法的同时(该方法致力于提升性能)。为了缓解TuNAS因参数共享导致的影响(即减少了由于参数共享带来的潜在偏差),作者采用了两阶段搜索策略。(这一策略旨在解决UIB深度层与其他搜索选项之间的参数数量差异问题),从而保证了结果的公平性和可靠性。

在搜索过程中,在初步筛选阶段中,在对图像特征进行识别时,在初始状态下,在基于空间分割的方法下,在不考虑复杂度的前提下,在通过简单计算的基础上,在最基础层面上,在利用最少资源的前提下,“基于小块拼接”的方法被采用。此方法的主要优势在于能够有效降低计算复杂度的同时保证识别精度和稳定性,并在此基础上实现了对图像细节特征的有效提取与准确识别。

在此基础上,在粗粒度搜索结果的基础上进行细化分析。在此过程中,在当前阶段中,在对UIB进行深入分析时。研究者进一步探索了这两个深度可分层的配置选项:包括是否存在的选择以及核大小的选择(采用3×3或5×5尺寸)。同时维持扩展因子为4,并通过控制变量来精确评估不同配置的效果。

采用双层搜索机制作为核心策略,在完成UIB块的最佳配置后,在性能与参数量之间实现了良好的平衡,并为其在实际应用中奠定了基础。

在这里插入图片描述

MNv4模型的架构细节:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 Results

ImageNet classification

在这里插入图片描述

COCO Object Detection

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~