深度学习论文: Rethinking Mobile Block for Efficient Attention-based Models及其PyTorch实现
基于移动块的高效注意力机制再思考及其PyTorch实现
1 概述
该模型以其高效性和轻量化著称,在参数数量、计算复杂度(FLOPs)以及性能效率方面达到了良好的平衡,并特别适合用于密集预测场景。研究从统一架构的角度探讨了倒立残差块(IRB)与Transformer的有效组件,并在此基础上提出了一种新的设计框架:将基于卷积神经网络(CNN)的设计框架中的倒立残差块(IRB)扩展至基于注意力机制的架构,并提出了一个专为轻量化设计而提出的单残留元移动块(MMB)。

针对轻量级模型的优化需求,本研究提出了一个创新性的设计框架。通过整合两种主流架构中的核心组件,本方法显著提升了整体性能水平。经过一系列系统性的实验分析和全面评估指标的对比测试,在保证 lightweight 性能的同时展现了良好的适用性和竞争力。
2 ResNetlike Efficient MOdel (EMO)
2-1 Criteria for General Efficient Model
在为移动应用开发高效的视觉模型时, 制定以下四个标准作为设计准则。
- ➀ 可用度高意味着采用直观的设计方案,并避免复杂的运算符使用;同时该方法便于在应用层面进行优化配置。
- ➁ 设计上追求高度的一致性和统一性;通过最小化核心组件数量来降低模型复杂度,并提升部署效率。
- ➂ 方法表现优秀,在执行效率上表现出色;特别适用于分类任务以及密集预测场景中的高效处理。
- ➃ 方案通过保持参数规模较小且计算开销低的特点来提高效率;但在实际应用中需权衡准确性与效率之间的关系。

2-2 Meta Mobile Block
基于MobileNetv2中Inverted Residual Block及其在Transformer核心模块中的应用,在提取或建模关键组件的基础上提出了Meta Mobile (M2) Block这一概念。该框架为这些关键模块提供了一种统一的表示方式,并通过引入参数扩展率λ和高效算子F实现模块化设计。

基于图像输入X(∈ R^{C×H×W})为例,在MMB方法中首先采用扩展型多层感知机(MLP)来提升通道维度。该方法通过调整输出与输入的比例因子λ来优化特征表示。

随后的操作符F显著增强了图像特征。如恒等操作符、静态卷积等。基于这一假设,在多模态注意力机制(MMB)中能够实现高效的网络设计时域内优化效果的基础上

最后,使用反转的输入/输出比例为λ的收缩MLP_{s}来收缩通道维度:

其中,使用残差连接来获得最终的输出Y = X + X_{s}(∈ R^{C×H×W})。
2-3 Micro Design: Inverted Residual Mobile Block
基于MobileNet++框架的基础上设计了一种新型的反向残差移动模块(iRMB)。该模块继承了卷积神经网络架构的优势,在局部特征提取方面表现出色;同时借鉴了Transformer架构的动力学建模能力,在长距离关系捕捉方面具有显著优势。具体结构如下:

具体实现中,iRMB 中的 F 被建模为级联的 EW-MHSA 和DW-Conv卷积。

2-4 Macro Design of EMO for Dense Prediction
基于既定标准, 作者构建了一个由多组iRMB模块叠加而成的高效模型, 其架构特征与ResNet具有结构上的相似性——该模型命名为EMO. 其主要优势体现在以下几个方面:
对于整体框架而言,在EMO的设计中主要包含iRMB这一单一模块,并未引入其他类型的技术或功能模块,在设计理念方面可视为极为简约。
对于特定模块来说,iRMB主要由标准卷积与多头自注意力构成,不含其他复杂运算.同时得益于DW-Conv的支持,在特定模块中,iRMB不仅能够通过步长实现下采样操作,而且无需任何位置嵌入来引导MHSA引入位置偏移.
第3部分针对网络的不同变体进行设置时,在参数选择上采用了逐步提升扩展率并增加通道数量的方法。

3 Experiments


