论文阅读:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
文章目录
-
-
1 摘要
-
2 存在问题
-
3 亮点
-
- 3.1 深度可分离卷积
- 3.2 α宽度乘法器和ρ分辨率乘法器
-
- 3.2.1 α宽度乘法器
-
3.2.2 ρ分辨率乘法器
- 3.3 网络整体结构
-
4 部分结果
-
- 4.1 部分数据对比
- 4.2 部分效果对比
-
5 结论
-
- 5.1 优势
- 5.2 不足
-
6 参考资料
-
1 摘要
本研究聚焦于嵌入式视觉技术领域的优化设计,在此基础上创新性地提出了MobileNets系列架构。通过采用深度可分离卷积结构设计,在保持计算效率的同时实现了极简化的网络架构。研究者进一步优化了模型参数配置,在平衡运行速度与分类精度之间找到了理想的折衷方案。实验结果表明,在ImageNet图像分类任务中展现了优异性能
2 存在问题
尽管一些网络能够提升准确性,在诸如机器人技术和自动驾驶等领域的实际应用中却面临运行效率和响应速度不足的问题。这些领域对网络提出了更高的实时性要求
在神经网络压缩领域中,许多研究者致力于优化模型的轻量化程度。然而相对忽视了速度性能的提升。
3 亮点
3.1 深度可分离卷积
本文创新性地提出了深度可分离卷积模型...其本质是将常规的空间 convolution操作分解为两个独立的部分...其中一部分采用了深度-wise的 convolution运算、另一部分则采用逐点(1×1) convolution操作...具体实现如图所示。

上图,说明得不够详尽,可以参照以下这篇文章:
Depthwise Separable Convolution是一种结合了深度卷积和可分离卷积的技术。该技术将深度卷积与可分离卷积相结合,其核心思想是通过分解卷积核为两个独立的小矩阵来进行计算,从而实现高效的特征提取过程。这种设计不仅降低了计算复杂度还能显著减少参数数量,同时通过这种巧妙的设计使得深度可分离卷层能够在保持性能的同时显著提升计算效率,此外它还能够有效降低模型参数规模从而减少内存占用和计算资源消耗。
按照我的理解而言,深度可分离卷积实际上是一种分步处理机制:首先将该过滤器分别作用于输入图像的每个通道来进行计算;其次具体来说,在针对一个3x3x3的输入图像时,则采用一个包含三个卷积核的小过滤器对每一个通道执行一次标准卷积操作以生成三个独立的特征图。
这三个特征图经过n次3×1×1的卷积生成n个特征图后进行连接。

3.2 α宽度乘法器和ρ分辨率乘法器
3.2.1 α宽度乘法器
尽管现有的MobileNets架构已经表现出色且 lightweight,在本研究中我们发现某些应用场景下模型性能与计算资源之间存在明显矛盾。基于此观察结果,在现有架构的基础上我们引入了一个缩放因子α(其中0 < α ≤ 1)。具体而言,在每层神经网络中通过缩减其输入与输出通道数量来降低计算复杂度。例如当输入信号大小为M时,并经过缩放后变为αM和αN。这种调整方式不仅降低了模型的整体计算负担但也会导致性能上的一定下降。然而这可能会导致性能上的一定下降但同时计算效率得到显著提升平衡这两者之间的关系至关重要。

上图为宽度乘法器对参数量的影响。
3.2.2 ρ分辨率乘法器
本文引入了一个新的参数ρ;它是通过将图像分辨率乘以一个系数ρ来实现降噪的效果。该参数适用于每一层结构;类似于参数α的作用是为了在图像锐度和平滑度之间进行权衡。

上图,α和ρ对参数量的影响。
3.3 网络整体结构
网络的整体结构主要由深度可分离卷积组成,如下图所示:

4 部分结果
4.1 部分数据对比

上图为COCO数据集下不同结构参数和准确率的对比。
4.2 部分效果对比

上图为目标检测的效果。
5 结论
本文提出的MobileNets高度适合于嵌入式可移动设备应用,并列举了其优点与缺点。
5.1 优势
① 速度非常快,非常轻量。
② 可以根据额外的α和ρ参数去对精度和速度进行取舍。
5.2 不足
① 借鉴了VGG16模型的简洁卷积层设计后仍存在局限性,在现有研究中更先进的网络架构通常采用了跳跃连接和concatenate操作以更高效地提取图像特征
在实际应用中观察到,在深度可分离卷积的训练过程中有一部分卷积核参数归零,并由此引发卷积核无法发挥作用的情况。
6 参考资料
(1)论文摘要:该研究提出了一种高效的移动卷积神经网络架构以适应移动设备视觉应用需求。(2)深度可分离卷积解析:详细阐述了深度可分离卷积的基本原理及其在实际应用中的优化方法
