论文阅读:SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
文章目录
-
-
1 摘要
-
2 亮点
-
- 2.1 网络结构
-
- 2.1.1 编码器结构
-
2.1.2 解码器结构
-
3 部分结果
-
- 3.1 分割的数据对比
- 3.1 分割的效果对比
-
4 结论
-
- 4.1 优势
- 4.2 不足
-
5 参考资料
-
1 摘要
该论文提出了一种可在端到端训练中广泛应用的语义分割网络架构——SegNet。该架构采用了经典的编码器—解码器模式,在编码阶段模仿了VGG16模型的前13层结构。值得注意的是,在解码阶段的设计上进行了创新性改进:采用了一种基于池化索引的上采样方案,在相比传统方法而言,在内存占用方面更为优化的同时,在上采样过程中避免了参数学习的需求。此外,在实际应用中该网络主要针对道路场景分割任务进行了优化设计,并扩展应用于室内场景分割任务等其他领域。经过实验验证,在CamVid数据集和SUN RGB-D数据集等基准测试中均表现优异
2 亮点
2.1 网络结构
2.1.1 编码器结构
编码器架构基于VGG16模型进行了优化:舍弃了最后三层全连接层,并保留了前十四层网络。这一改动使得全连接层所带来的参数规模显著缩减(由一百三十四百万增至十四点七百万)。此外,在编码器运行过程中,在滑动窗口中记录下每个最大特征的位置(这部分在解码阶段后续会用到),仅需占用两个比特位的信息量即可完成这一过程。总体而言,在与语义分割算法的关系上并没有发生太大的变化;本文的重点将转向对解码架构的具体阐述
2.1.2 解码器结构

在解码器架构中,恢复图像尺寸是必要的操作。对于FCN网络和SegNet网络而言,在上采样过程中都需要恢复编码阶段丢失的一些细节信息。为此,这两种方法均采用特征图融合技术以实现信息互补。然而这种做法也存在明显的局限性即需要保存多层级编码所得的图像数据进而进行融合操作这会带来内存资源的大量消耗。针对这一问题研究者在此过程中仅记录下采样阶段的最大特征图索引而非完整图像从而避免不必要的内存占用同时也能保证足够的重建精度如图所示

左边展示的是采用SegNet进行上采样的方式,在这一过程中无需进行额外的学习即可直接利用编码阶段每次下采样所保存的池化索引来进行恢复操作。此外,在每层编码器结束后都会生成一个对应的解码器模块,在通过池化索引进行解码后得到的特征图呈现稀疏性特征;为了改善这一问题,在解码层之后依次接入了一系列卷积核以增强特征图的空间密度,并通过加入批处理归一化(Batch Normalization)层有效降低了模型过拟合的风险。
3 部分结果
3.1 分割的数据对比

上图为各分割方法在CamVid数据集的对比。
3.1 分割的效果对比


图中展示了SegNet在CamVid数据集与其他网络结构的效果对比结果,结果显示SegNet表现更为出色。


该图展示了基于深度卷积神经网络的语义分割算法性能对比实验结果,并经实验分析可知该模型表现更为优异
4 结论
4.1 优势
该文提出了一种新型的上采样方法基于一种池化索引方案,该方法具有显著优势:其首要优势在于能够显著提升特征图的清晰度,其次能够有效缓解信息丢失问题,最后能够在一定程度上提高模型对目标检测任务的识别精度
② 大量减少了可训练的参数,速度比之前的网络都轻量。
③ 可以广泛适用于编码—解码结构的语义分割网络,提高其性能。
4.2 不足
① 没有考虑到对图像多尺度的处理,导致有一些小图像可能识别不到。
② 没有整合图像的上下文信息。
5 参考资料
文章引用地址
阅读笔记
论文阅读笔记八:SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation (IEEE2017)
学习笔记
