深度学习之DeepLab用于语义分割
摘要
- 研究点:基于卷积神经网络(CNN)进行语义分割任务的研究
- 工程主页:http://liangchiehchen.com/projects/DeepLab.html
- 主要贡献:
- 该研究采用深度学习技术中的卷积神经网络架构来实现图像分割基础
- 创新性特点在于其在复杂场景下保持高精度分割能力
- 实现基础是基于PyTorch框架构建的高效训练机制;
- 创新性特点在于其在复杂场景下保持高精度分割能力;
- 实现基础是基于PyTorch框架构建的高效训练机制。
AtrousConv: 是一种用于控制参与卷积操作中 feature 的分辨率的方法。Subsampling 转换与使用 atrous convolution 的方法在 kernel 水平上是等价的,并且 atrous convolution 是平移不变的操作。
2.
atrous spatial pyramid pooling (ASPP) : 可以在不同的scale下分割物体。
精准定位物体边界!通过融合 DCNN 层的输出与 fully connected Conditional Random Field (CRF) 的技术手段, 有效弥补了传统 DCNN 由于最大池化和下采样所导致的边界定位精度不足的问题。
- 关键词: 语义分割;atrous convolution; CRF
1 Introduction
DCNN在语义分割领域存在局限性:其主要问题是分辨率降低(基于最大池化以及采样的操作 stride导致)影响特征分辨率。
采用了基于FCN的语义分割方法[14]。该方法虽然有效但存在明显的局限性即空间分辨率显著下降。为了改进这一缺陷在后续处理中作者采用了替代方案具体而言并去除了池化后几层的下采样操作并在后续增加了上采样操作以恢复空间分辨率。
相较于使用反卷积方法[13,14]的技术实现者而言,在本文中作者采用了无空洞卷积并配合线性插值技术的方法同样表现出色。
(2) 物体以不同的尺度存在(existence of objects at multiple scales)。
针对这一问题,通常的做法是将同一幅图像中提取的不同特征图/得分图进行聚合以获得最终结果[6,17,18]。该方法确实能够显著提高性能,并且计算量有所增加。参考SPP的方法,在卷积操作之前作者提出了一种通过对给定的特征层使用多种采样率重新采样的方法。
即采用了多个并行的不同采样率的空洞卷积层(ASPP)。
(3) 定位精度不高(由于DCNN表现出对空间变换的不变性)
这是因为物体检测过程中必须保证网络对空间变换具有一定的抗变异性,从而导致DCNN的空间精度受到影响。
解决这一问题的一种方法是采用跳层结构(skip-layers),通过多层网络提取超列特征以提高定位精度。
另一种较为有效的解决方案是作者所提出的:采用一个带有引号的fully-connected CRF[22]。

算法基本框架:
(1)基于VGG-16/ResNet-101(效果可能比VGG-16更好)进行变化:先将所有的全连接层换成卷积层 [14],然后通过atrous conv提高feature的分辨率(从32x到8x)
(2)Bi-linear interpolation : factor =8 这样把score map尺寸变回到原图像尺寸。
(3)结果送入CRF 来refine分割结果。
算法优点:
(1)速度快: 8FPS
(2)精度高:在PASCAL VOC 2012 semantic segmentation benchmark [34], PASCAL-Context [35], PASCALPersonPart [36], and Cityscapes [37]上取得了较好的成果。
(3)简单:主要由两部分组成:DCNN和CRF
2 相关工作
第一类:传统的方法
第二类:CNN提取特征做稠密的image labeling
[21] use skip layer-> pixel 分类
[51] pool 中间的feature maos by region proposals
第三类:直接用DCNN 得到抽魔的category-level pixel labels(甚至都不需要分割了),相关工作有[14,52], 将最后的全连接层替换为全卷积层。针对空间定位问题,[14]采用上采样并将中间过程的feature maps得到的score连接起来,而[52] 是将粗略的结果通过另一个DCNN进行refine.
近期进展:
- End-to-end training for structured prediction
[40], [59],[62], [64], [65]
[18], [68] combine semantic segmentation with edge detection.
- Weaker supervision
[49], [73] pursue instance segmentation, jointly tackling object detection and semantic segmentation.
atrous conv: 可以扩大filter的感知野
3 methods
3.1 atrous conv for dense feature extraction and field-of view enlargement
14


3.2 基于Atrous空间金字塔池化的多尺度图像表示方法
基于SPP的思想,任意尺寸区域可通过对其固定尺度下的卷积特征进行重采样来实现。本文采用了多个并行的不同采样率的atrous卷积层,并最终整合这些层得到所需的结果。

3.3 基于结构的预测(基于全连接条件随机场)用于精确边界恢复
解决方法:
1)[14]、[21]和[52]主要使用了卷积网络的不同层级信息进行融合。
2)基于super-pixel的方法被转化为低层次分割问题。
该研究主要使用了CRF模型,并且不依赖局部特征,在论文中提到了必须依赖全局特征的方法引用了文献[22]。
能量函数的具体形式可参考文献[22]:
4 实验
将最后一层神经元的数量替换为需要分割的具体类别数目(包含背景类别)。
该损失函数计算了在输出图每个空间位置处(其中输出尺寸仅为原输入图大小的八分之一)交叉熵值之总和。
SGD
参考文献
[14] J. Long, E. Shelhamer, and T. Darrell's work on fully convolutional networks has been widely recognized in the field of computer vision.
[18] I. Kokkinos advanced the frontiers of boundary detection techniques through his research utilizing deep learning methods.
[21] The hypercolumns approach is effective for object segmentation and fine-grained localization tasks.
[22] A highly efficient method for performing inference in fully connected CRFs with Gaussian edge potentials has been developed by P. Krähenbühl and V. Koltun.
[51] J. Dai, K. He, 和 J. Sun 在 arXiv:1412.1283 上发表了一篇题为《利用卷积特征遮蔽实现联合物体与场景分割》的文章。
[52] D. Eigen 和 R. Fergus 在 arXiv:1411.4734 上提出了一种基于多尺度卷积架构的深度估计、表面法向量估计以及语义标签预测方法。
[68] G. Bertasius 等人探讨了从深度物体特征优化低预算边界检测技术及其在高级视觉任务中的应用。
