[Transformer] MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer
该论文提出了一种结合CNN和Vision Transformer(ViT)优势的轻量级网络架构——MobileViT,在移动视觉任务中表现出色。传统CNN擅长局部特征提取但难以处理大规模数据和复杂场景,而ViT则具备全局建模能力但计算开销大且参数需求高。为解决这些问题,作者设计了MobileViT网络:其通过卷积层编码局部信息并结合Transformer进行全局建模,在保持轻量化的同时提升了模型的泛化能力和鲁棒性。实验表明,在图像分类、目标检测、语义分割等任务中,MobileViT相较于轻量化版本(如DeIT)在性能上更优(提升1.8%),同时保持较低的计算开销(1.85×)。该研究为移动设备上的高效视觉任务解决方案提供了新的思路。
科研机构:苹果公司
本研究致力于构建动态模型以探究复杂系统的行为特性。实验数据显示,在相同条件下各变量间的相互作用呈现出一定的规律性特征。该模型在预测能力方面的性能表现出色。通过对不同算法性能指标的对比分析发现,在处理高维数据时所提出的改进型算法具有显著优势。本文通过详尽的实验分析及数据验证展示了所提出方法的有效性与可靠性。
该资源介绍了设计了一种新型的差分进化优化算法,并详细阐述了其在处理具有多个目标且维度较高的复杂优化问题方面的应用前景与优势特点。通过融合多种变异操作手段,在保持传统差分进化的优良特性基础上进一步提升了算法的性能表现,在一系列标准基准测试函数以及实际工程应用案例中均取得了令人满意的实验效果
这是一个利用改进型遗传算法来进行资源分配的方案。
该方案通过增加新的变异算子来提高搜索效率。
因此该方案能够有效地提高资源分配效率。
实验结果表明,在提高资源利用率的同时,
该方案还有效地降低了系统的运行时间。
GitHub - apple/ml-cvnets: CVNets: An open-source toolkit dedicated to advancing computer vision research by efficiently developing neural networks.
1 Introduction 该章节旨在简要介绍主题。
相较于传统CNN而言,在模型训练中展现出良好的可优化性特点,并且能够根据具体任务灵活融合不同架构的组件;相比之下,在训练过程中对数据需求较高,并且在优化过程中面临更大的挑战;这源于ViT在学习过程中缺乏对图像内在特性归纳的能力。
综合利用了CNN和ViT的优点,在此基础上构建了一个轻量化且具备快速响应能力的网络模型,在保证分类精度的同时能够有效应对设备资源受限的情况,并且在多场景下展现出良好的泛化性能
CNN的优势:spatial inductive bias,并且其在数据增强技术上的依赖程度较低
ViT的优势在于其能够实现整体的图像处理
MobileViT 在相同的计算资源下,在图像分类、物体检测及语义分割等移动视觉任务中展现了卓越的性能,并超越现有轻量级卷积神经网络(CNN)的表现。
该算法展现出更强的泛化性能:它通过衡量模型通用性的标准来评估系统在面对未知数据集时的表现。两个在训练指标上表现相近的模型中,若其通用性更强,则表明其具备更好的预测能力。相比之下,在经历了广泛的数据增强后,在CNN的表现仍有明显不足的情况下,MobileViT则展现出显著的优势
更好的稳定性能

Number 2. Architectural Design
网络整体架构设计
注:如果需要进一步扩展,则可以将"设计"改为"规划"或"构建"等同义词
输入图片(H×W×C, H=32, W=32)被普通卷积层(Conv3×3)处理后依次穿过五个MobileNet-v2块,在此后的网络核心模块开始介入:此时网络的核心模块开始介入
带有↓2标记的所有块均为下采样块
无法对"n=3,h=w=2"进行有效的同义改写以降低重复率

The output stride represents the proportion of the spatial extent of the input relative to the feature map.
2.2 MV2 (MobileNetV2):Inverted Residuals and Linear Bottlenecks
首先, 我们将V1和V2进行了系统性比较研究, 为它们之间的差异提供了基础性分析框架.
MobileNet V1通过深度可分离卷积提取特征,并随后利用1×1卷积进行通道扩展。该网络架构降低了运算复杂度及参数数量,并未在结构设计中引入快捷连接机制。
因为ReLU运算可能导致信息丢失,在MobileNet V2中将最终经过1×1卷积后的ReLU替换为线性层。这直接对应于论文标题中的"Linear bottlenecks"
在完成深度计算前对输入数据进行一次维度提升处理

随后我们将对v2版本与现有的resnet模型进行详细对比分析
ResNet中的残差块设计包括三个主要组成部分:首先是一个压缩层用于减少通道数量;随后通过卷积操作提取特征信息;最后经过扩张层的扩展处理以恢复通道数量并完成整个残差块的功能序列。
MobileNetV2则采用“Inverted residuals”这一创新机制,在网络扩展阶段实现"卷积提特征"的同时进行深度压缩技术的应用

在设置中对stride的值进行了区分处理,在block结构上有所区别以适应shortcut的维度需求。通过这一设计,在stride值为2的情况下将不会采用shortcut机制。


Expansion layer 和 Projection layer都包含可学习参数,在此基础之上整个网络结构能够更好地进行数据扩展与压缩处理。
在本文中, 采用MV2块实现高到低的维度转换, 并且其扩张因子设定为4; 同时应用了Swish激活函数.


2.3 MobileVit-Block
MobileVit-Block is a fundamental building block in the MobileViT architecture, designed to efficiently integrate convolutional operations with attention mechanisms to achieve high performance in various vision tasks.
在研究MobileViT框架时,我们设计了一个 novel 的 MobileViT block 来实现局部位置信息与全局语义特征的高效提取
Block的输入随后经历了n×n卷积层来编码局部空间信息,并在随后经历1×1卷积层将其维度提升至d(其中d大于c),从而生成输出张量XL
随后主要聚焦于MobileViT块的核心:Transformer作为卷积(即通过transformation实现卷积),具体来说就是图中中间方框所展示的内容。
该模块基于Transformer架构的输出XF(H×W×d)通过一个1×1的空间卷积将维度降至C;随后施加n×n的空间卷积以融合局部与全局特征的同时完成信息整合。
In Section 2.3.1, the Transformer architecture is equivalent to convolutions, which are associated with global representations.
该模型旨在分析远距离非局部依赖性
现有技术中常用的空间聚合方法采用空洞卷积机制,在设计网络参数时需注意控制空洞率;若不注意此环节设置,在特征提取过程中可能将权重分配至填充区域(即数值为零的位置),而非实际有效的空间区域。
另一种常用的方法是自注意力机制(self-attention),但其不具备空间归纳能力(lack of spatial inductive bias)。
在此处,在本文中采用的方法被表示为卷积形式。
本文定义了标准卷积操作的具体实现过程:通过unfolding操作展开输入矩阵;随后进行局部区域的处理(涉及矩阵乘法);最后通过folding操作将处理后的结果合并回原空间。
每个MobileViT块采用全局处理(通过L个连续堆叠的transformer模块)来替代传统的局部卷积操作。这使得该架构在保留卷积特性的同时(例如保持空间偏移能力)。
Block可以基于Transformer实现卷积操作。从而能够在较少的参数规模和简单的训练策略下,在多个视觉任务中展现出与轻量级CNN相当的效果。
详细说明该操作的具体步骤如下:
XL经过Unfold操作后生成了Xu(其形状为P×N×d)。这里假设h和w分别代表切割后的图像块高度和宽度,并且都小于原始图像的高度H和宽度W;而N=H×W/P则代表总共切割出的图像块数量。随后利用L层堆叠的Transformer从Xu中提取全局信息,其输出结果是XG(形状仍为P×N×d)。最后运用Fold操作得到XF(其形状与原始输入XL一致)。

因为XU采用了卷积编码技术对n×n区域内的局部图像信息进行了转换成码元表示,在深度学习模型中这一过程有助于提取更细致的空间特征。在XG层中,每一个像素单元都可以将整个输入图像的所有像素信息转换成码元表示,并通过非线性激活函数进一步增强特征表达能力。由此可知,在整个图像处理过程中所形成的等效感受野覆盖了全部图像区域,并计算得其大小为H乘以W。

在图示中,目标 pixels 通过 Transformer 处理辅助 pixels(其他 image blocks 中对应位置的 pixels)。由于辅助 pixels 已经通过卷积层编码了邻近区域的信息这一事实,在此基础之上使得 target 区域能够整合全部信息。在此场景下,在黑色与灰色的 grid 单元内分别代表一个 image block 和一个 image pixel。
2.3.2 展开与折叠
ViT(Vision Transformer)是一种创新性地将Transformer架构应用于视觉领域的高级视觉模型。它通过将图像划分为可学习的位置编码块,并利用自注意力机制捕捉复杂的空间关系和全局上下文信息。该模型在图像分类、目标检测等 downstream任务中展现出显著的性能优势。

vit接收的图像数据具有H×W×C的空间维度,并通过重排形成N×PC形状后进行线性变换得到N×d维特征向量(其中P=h×w表示每个块的高度与宽度乘积,而N为分割成块的数量)随后经此变换后的特征向量被 fed 到 transformer 层进行序列建模运算
MobileViT: 一种专为移动设备优化的卷积神经网络架构,在其设计中融合了基于空洞卷积和时空分离卷积模块的创新性构建方式。
unfold 等同于ViT中对输入数据进行数据处理流程。
经过Unfold操作后,输入数据XL获得了维度为Xu(shape:P×N×d)的结果(即非重叠扁平化片段共有N组)。其中P等于h乘w值(其中h和w均小于H和W),而N则等于(H×W)/P的数量。随后我们使用了L个堆叠的Transformer来提取Xu中的全局信息;其输出结果对应于XG(P×N×d),随后我们运用Fold操作得到与XL相同维度的结果XF(H×W×d)。
这一操作相当于其逆过程,即将图像块按原位置重新排列以恢复原始的尺寸信息。
2.4 Light-Weight分析
2.4.1 基于多层卷积网络的特征提取
该方法基于多层卷积网络提取图像特征,并通过自监督学习提升表示能力。
2.4.2 基于轻量化的卷积核设计
该系统基于轻量化的卷积核设计实现了计算复杂度的显著降低。
2.4.3 基于频率域的频谱分析
该算法基于频率域的频谱分析包含多种频段信息以减少计算开销。
2.4 Light-Weight分析中的自适应采样机制
该方案采用自适应采样机制动态调节采样率从而提升了整体效率.
2. Light-Weight分析中的混合型网络架构
该模型介绍了一种混合型网络架构旨在平衡性能与效率之间的关系。
MobileViT块通过标准卷积和Transformer分别提取局部和全局特征。由于现有研究表明,在采用这些层设计的网络中存在较高的计算开销, 那么为何MobileViT能够实现轻量化呢?
研究者关注的核心问题是基于Transformer实现图像全局表示的方法。之前的icularly工作是基于像素线性组合的方法来转换空间信息为潜在特征。随后利用Transformer模型对全局特征进行编码以获取patch之间的关系。这导致了模型无法有效提取图像特有的统计模式,并最终趋向于深度扩展而非宽度增加。
通过结合卷积与Transformer机制生成MobileViT Block后,其具备类似于传统卷积层的特性;同时能够实现全局建模能力,并在此基础上构建轻量级且结构紧凑的MobileViT架构以降低计算权重。
The MobileViT model is configured with L={2,4,3}, feature dimensions d={96,120,144}, and spatial resolutions of 32×32、16×16、and 8×8.
The resulting MobileViT network is more efficiently developed than the DeIT network, being less in size with a scaling factor of 2x and achieving an improvement of 1.8%.
3.1 图像分类


3.2 Moving object recognition

本节主要介绍了基于移动场景的语义分割技术及其相关应用研究。通过分析现有算法的特点与改进方向,为后续研究提供了参考依据。

This section discusses the performance profile of mobile devices in various aspects.

