Advertisement

论文阅读:ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

阅读量:

文章目录

    • 1 摘要

    • 2 亮点

      • 2.1 initial模块和bottlebeck模块
        • 2.1.1 initial模块
    • 2.1.2 bottlebeck模块

      • 2.2 PReLU
      • 2.3 普通卷积、非对称卷积、空洞卷积混合使用
      • 2.4 ENet总体结构
    • 3 效果

      • 3.1 分割的数据对比
      • 3.2 分割的效果对比
    • 4 结论

      • 4.1 优势
      • 4.2 不足
    • 5 参考资料

1 摘要

语义分割在嵌入式移动终端设备(包括手机和可穿戴设备)中的落地应用(即针对低功耗移动设备的设计)是一项非常重要的技术课题。相比之下,在最新的研究领域中虽然已经取得了较高的分类精度(accuracy),但在实时性方面仍有待提升——即训练和推理的速度较慢难以满足实际应用场景中的实时处理需求。针对这些问题的研究者们提出了一种名为ENet的新方法——它能够在保持较高分类精度的同时实现了模型的轻量化和速度上的提升,并且特别适合部署在手机和其他移动嵌入式设备上使用。经过实验验证,在包括CamVid、Cityscapes和SUN等数据集在内的多个测试场景中该算法的表现均达到了当时研究领域的最佳水平。

2 亮点

2.1 initial模块和bottlebeck模块

本文中,构成ENet的基本单元是initial模块和bottlebeck模块。

2.1.1 initial模块

Input module, 作为图像输入并进行初步处理的部分, 可以被视为一个用于图像预处理的部分. 如下图所示.

在这里插入图片描述

原始输入图像的尺寸设定为3 \times 512 \times 512。该网络架构通过使用13 \times 3 \times 3尺寸的卷积核,并采用步长为2的方式进行特征提取。随后,在池化操作之后得到一个通道数扩展后的特征图(即从8增加到16)。初始化模块的主要功能则在于执行初步下采样操作以减少计算量和参数量。

2.1.2 bottlebeck模块

网络的编码和解码部分都是由bottlebeck模块基本组成。如下图:

在这里插入图片描述

该模块被划分为两个主要分支:主支路则由填充的最大池化层构成;而次支路采用1×1卷积核结合PReLU激活函数,并在该结构中使用的卷积类型包括普通卷积、深度对称卷... Regularizer采用多种正则化策略进行试验:包括L2范式惩罚项、随机深度抑制和空间型Dropout。经过对比实验后发现,在测试集上Spatial Dropout策略表现最优。将主支路与次支路的输出特征图融合后即可得到一个新的bottlebeck模块

2.2 PReLU

有时在层后采用ReLUnit并非总是能显著提升模型性能...然而,在用于ENet时...对此...原因在于网络架构不够深...因此研究者采用了另一个激活函数——PReLUnit

在这里插入图片描述

在上图中呈现了随着深度增加而演变的趋势,在达到76层时权重开始呈上升趋势,并导致效果逐渐降低;因此可以看出,在较浅层的网络中PReLU的作用更为显著。

2.3 普通卷积、非对称卷积、空洞卷积混合使用

在编码器结构中,在各个瓶颈层上所采用的卷积类型各有不同,并主要包含常规卷积、空洞卷积以及不对称卷积。

在这里插入图片描述

在ENet架构中交错应用各种卷积层能够互相弥补各层自身的不足之处。例如,在普通卷积中感受范围较小但更适合捕捉较小尺寸的特征;而空洞卷积则能够在相同参数下实现更大的感受范围,并更适合提取较大尺寸的特征但它相对不敏感于较小尺寸特征且可能导致信息连续性的丢失;而非对称卷积则是将一个nxn大小的卷积分解为先执行n×1再执行1×n的小规模二维卷积操作其计算量虽然有所降低但仍能保持与原方案相当的效果

为什么非对称卷积减少了运算量?

2.4 ENet总体结构

ENet的总体结构如下图:

在这里插入图片描述

为了减少处理冗余信息所需的计算资源,在输入经过initial模块后首先进行了下采样处理,并随后进入后续 bottlenecks 进行进一步处理。在编码器阶段(即bottleneck2.x部分),该网络采用了多种卷积技术以提升性能。值得注意的是,在传统网络架构中编码器与解码器通常是相对称的设计结构;然而作者指出,在编码器部分主要承担着特征提取的功能,在此过程中不需要额外复杂的操作;而解码器则负责放大并精调前者的输出结果以恢复细节信息;因此相对于传统架构而言,在保持同样效果的前提下解码层的设计较为紧凑;最终实现了一个较为高效的网络结构框架:在解码阶段(包括bottleneck4.x和bottleneck5.x部分),该网络采用了基于最大值恢复机制的方式复原空间信息;而在最后一层完全采用全卷积操作以完成最终输出

3 效果

3.1 分割的数据对比

在这里插入图片描述

由于SegNet在轻量化和速度方面均处于领先地位,因此作者将该方法与其竞争对手SegNet进行了对比分析,经对比分析后发现,在帧率和推理速度两项指标上,该方法均优于其竞争对手.

在这里插入图片描述

上图为网络大小以及参数的对比,ENet都更轻量。

在这里插入图片描述

上面为I在Cityscapes中,IoU方面的对比。

3.2 分割的效果对比

在这里插入图片描述

上图为ENet在Cityscapes数据集的分割效果。

4 结论

4.1 优势

① 轻量,速度快,适合部署在可移动低功耗设备中。

4.2 不足

① 分割的边界较为粗糙,边界不够连续。

5 参考资料

图像分割模型

图像分割模型

全部评论 (0)

还没有任何评论哟~