论文阅读:Rethinking Atrous Convolution for Semantic Image Segmentation(DeepLabV3)
文章目录
-
-
1 摘要
-
2 存在的问题
-
- 2.1 解决多尺度问题常用的四个方法
- 2.2 空洞卷积的缺点
-
3 亮点
-
- 3.1 output_stride的影响
- 3.2 ASPP改进
-
4 部分结果
-
- 4.1 分割的数据对比
- 4.2 分割的效果对比
-
5 结论
-
- 5.1 优势
- 5.2 不足
-
6 参考资料
-
1 摘要
当前语义分割过程中存在两个主要问题:一是池化操作降低了图像的空间分辨率;二是不同尺度特征难以有效融合。针对这些问题,在DeepLabV2模型中作者提出了基于空洞卷积设计的ASPP结构来提升空间分辨率以及融合不同尺度特征;而本文通过优化ASPP结构得到DeepLabV3模型,在PASCAL VOC 2012语义分割数据集上达到SOTA性能。
2 存在的问题
2.1 解决多尺度问题常用的四个方法
当时常用于解决多尺度的方法有主要四种,如下图:

(a)Image Pyramid. By employing images of varying resolutions at each stage, these images are simultaneously inputted into the DCNN for processing, with the resultant outputs subsequently merged. However, since each image dimension triggers a corresponding DCNN operation, this leads to significant increases in computational resource consumption. Consequently, deep networks face limitations due to insufficient memory and computational capacity.
(b)编码器—解码器结构。常见的编码器—解码器结构包括UNet、RefineNet等模型。SegNet则通过在编码阶段引入采样信息,在后续研究中发现这些架构利用跳跃连接机制整合了编码过程中的特征表示。这些模型主要通过在解码过程中融合编码阶段的信息来解决多尺度问题。这一领域正不断取得新的进展。
(c)采用Deeper with atrous卷积结构,在深度可分离神经网络(DCNN)顶端部署空洞卷积级联模块;通过利用该层级结合模块能够整合不同尺度的空间信息。此外还有些针对DCNN后端添加语义提取功能的子模块;例如将DenseCRF连接到DCNN末端,并在该网络的最后一层添加多层卷积操作以促进CRF与网络协同训练从而生成更加密集的空间特征图
(d)空间金字塔池化。通过对特征图进行不同的池化处理,再进行特征融合。
2.2 空洞卷积的缺点
研究者注意到在DeepLabV2中提出的ASPP模块具有以下特点:当空洞卷积的放大倍率增大时(即空洞卷积孔径比率增大),其有效的权重系数随之减小;当放大倍率达到无穷大时(即孔径比率趋于无限),仅中央位置的权重系数起作用,请参考下图所示

在上图中, 1、4、9分别代表1个、4个和9个有效权重, 其对应的滑动窗口时空洞卷积核能够覆盖图像的有效区域. 当空洞率过高时, 在滑动窗口过程中可能会超出图像范围(尤其是在边界区域, 随着空洞率增加, 无效区域会相应扩大). 因此, 9个有效权重所对应的蓝色线受到的影响最为显著. 当空洞率增加到一定程度时, 标准化计数会随之衰减. 然而, 在标准化计数开始衰减的过程中(即当标准化计数值达到峰值后逐渐下降时), 滑动窗口过程会导致标准化计数值趋于中间值. 这样一来, 4个有效权重的值会得到提升. 随着空洞率进一步增加, 4个以及更多有效的权重可能会超出图像的有效范围. 最终会导致标准化计数出现一个峰值而后开始下降的现象出现. 因此,在这种情况下, 1个有效权重的表现将稳步提升.
3 亮点
3.1 output_stride的影响
文章中涉及到了output_stride这一概念。举例说明output_stride时,默认输入图像大小为224x224。经过多层池化后得到的特征图尺寸变为14x14,则计算输出stride时的公式为:

在本研究中所采用的(a)和(b)模块均来源于ResNet深层层级的复制模块,在其中设计中未采用空洞卷积技术。观察到当输出分辨率stride设为256时,在图像中获得了明显的全局特征信息,并且局部细节信息却有所缺失。而在设计过程中我们发现若仅依赖于单一参数调节的方式可能导致欠拟合问题因此我们尝试将多个因素进行综合考量以达到最优效果。具体而言通过对不同stride值进行权衡最终确定将输出分辨率设置为8倍能达到最佳平衡效果如下图所示

在实验(b)中揭示的是当设置output_stride为16时采用空洞卷积以确保后续的所有输出stride均为16。该方法通过空洞卷积提取并增强特征密度的同时成功维持了图像分辨率的一致性。
3.2 ASPP改进
本文主要针对DeepLabV2中的ASPP进行了改进,如下图:

从Image中选取图像依次经过多个block模块的处理后得到输出特征图具有output_stride为16。随后通过改进型ASPP进行进一步处理。其中该结构由两大组成部分构成:(a)采用单像素卷积层,在rate分别为6、12和18时分别配置了多支空洞卷积分支,并均采用256个滤波器数量。这些操作并伴随批量归一化层的作用完成。
(b)image-level features:模型提取的最后一层特征图经全局平均池化后获得特征表达,在其基础上应用256个1×1尺寸的卷积层并结合批归一化处理之后,在保证原有信息完整性的同时实现了图像尺度还原过程中的尺寸放大需求
这两大部分最终进行特征拼接和256个1x1卷积+batch normalization。
4 部分结果
4.1 分割的数据对比

上图展示了各个网络在PASCAL VOC 2012测试集上的mIOU对比情况。其中DeepLab-JFT基于ImageNet和JFT-300M数据集进行了预训练获得的结果。
4.2 分割的效果对比

上图为DeepLabV3的分割效果,其中最后一行为分割失败的案例。
5 结论
本文是基于DeepLabV2进行改进的DeepLabV2网络,核心是ASPP模块的改进。
5.1 优势
① 能够进一步融合上下文信息,解决多尺度问题和分辨率变小的问题。
5.2 不足
在分割操作中出现了若干未能成功完成的实例。例如,在区分沙发与椅子时往往面临挑战;同样地,在区分桌子与椅子时也存在一定的困难;此外还有少数非常特殊的物品难以实现有效的分割操作。
6 参考资料
(1)论文链接:https://arxiv.org/abs/1706.05587
(2)论文阅读笔记十一:Revisiting Atrous Convolutions in Semantic Image Segmentation(DeepLab V3)(CVPR2017)
