论文阅读:RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation
文章目录
- 1 摘要
- 2 亮点
-
- 2.1 基于残差机制的卷积模块(RCU)
-
- 2.2 多尺度融合机制模块(MRF)
-
- 2.3 基于串联式残差池化的模块(CRP)
-
- 2.4 RefineNet的具体架构设计
-
- 2.5 RefineNet的整体网络架构设计
-
-
2.6 RefineNet的不同变体架构设计
-
3 部分结果
-
- 3.1 分割的数据对比
- 3.1 分割的效果对比
-
4 结论
-
- 4.1 优势
- 4.2 不足
-
5 参考资料
-
-
1 摘要
在深度学习的发展历程中,在计算机视觉领域取得了突破性进展的是一个个具有深层架构的深度神经网络模型系列(如ResNet)。这些架构特别适合应用于密集分割任务——特别是语义分割这一挑战性问题提出了一种创新性的解决方案:RefineNet模型。通过巧妙地结合残差卷积模块结构、多尺度融合机制以及创新性的串联池化策略,在多个数据集上实现了显著提升的空间分辨率性能。
2 亮点
当时该系统展现了卓越的性能,在那个时期它成为了最先进的计算机视觉技术之一。然而,在实际应用中出现了两个显著的问题:首先,在高分辨率图像中存在丰富的特征空间会导致DeepLab需要投入大量计算资源;其次,尽管该网络通过空洞卷积扩大了感受野从而增强了对复杂场景的理解能力然而这种设计却导致了对细节信息的过度压缩最终使得重建出的图像质量下降为了缓解这些问题RefineNet采用了三个关键模块进行优化设计:特征金字塔网络、解码器分支和分支选择机制这些改进使得其在保持较高效率的同时实现了更好的目标检测性能
2.1 残差卷积模块(RCU)
该模块由作者提出,借鉴了ResNet的设计理念,在其结构中将这两条线路分别处理.

主要通道直接接收并处理原始图像数据。分支路径中的图像依次经历ReLU激活函数作用后输出特征图层;随后应用三次空洞率(即步长)为1的二维空间卷积操作。其输出结果与主通道生成的特征图层进行深度整合,并在计算时累加到一起。其中残差连接模块相当于向当前特征图层注入辅助信息,在后续处理中能够有效增强整体表征能力。
2.2 多分辨率融合模块(MRF)
图像必须经过残差卷积网络之后才能输入到MRF模块中。该模块专注于从多尺度的视角提取图像特征并将其上采样至与原始分辨率一致。最终完成融合过程,并如图所示展示了处理流程。

不同尺寸的图像依次输入至相应的通道并执行三次三乘三卷积运算,在完成该过程后采用双线性插值法进行上采样处理。各通道处理后的图像均达到一致分辨率水平后最后将这些经过上采样的图像进行融合叠加所得合成结果传递至下一层处理模块
2.3 串联残差池化模块(CRP)
CRP模块位于MRF的下一层位置,并且可以认为前面两个模块的主要功能皆在于整合不同分辨率的图像数据;而CRP模块则专注于提取背景特征,并使图像背景内容更加丰富(如图所示)。

输入图像先通过ReLU激活函数处理后,在随后的第一个池化卷积模块中生成结果,并将其与未经第二个池化前直接应用ReLU激活后的图像进行融合。随后的每个池化卷积模块都会执行相同的操作。研究者认为,在每次Sum操作后并不立即重启池化机制而是连续执行后续的操作。这种设计有助于模型逐步提取更加深层次的信息特征。从而有助于提高整体结果的质量并提供更为全面的信息支持。
2.4 RefineNet模块结构
标题被称为RefineNet模块结构的原因是由于作者在RefineNet总体结构中又增加了下图这个模块。

而上图所示该模块则是由残差卷积模块(RCU)、多分辨率融合模块(MRF)以及串联残差池化模块(CRP)三个子块有机整合而成,在经过1个RCU层进行权重平衡后,最终输出的结果尺寸与输入空间保持一致。实际上RefineNet也可视为一个功能特殊的特征提取单元(从整体效果上看类似于一种填充充分的卷积操作),不过相较于传统的卷积操作而言这一设计更加注重细节捕捉能力的提升。

2.5 RefineNet整体网络结构
为了介绍RefineNet的整体网络架构,在此之前作者首先对ResNet以及空洞卷 convolutional network的架构进行了详细分析,并如图所示。

基于ResNet架构,在反复进行池化操作后,图像从输入尺寸的1/4被转换为最终输出的1/32尺寸,从而导致大量图像细节信息被丢失。尽管在(b)方案中采用了空洞卷积来替代池化操作以减少参数量,但因为空洞卷积并未缩减图像的空间维度,因此仍需要消耗较大的计算资源。为了优化计算效率,在此基础上作者提出了(c),如图所示:

该系统通过RefineNet模块对图像的不同分辨率进行捕捉,并将这些特征通过多层融合处理。这样既能保持图像信息的大致完整度又具有较低的参数消耗量。可以看出,在整体架构上该网络与U-Net高度相似,并额外引入了RefineNet模块以实现高分辨率特征的精确捕获。

2.6 RefineNet变种结构
作者提出,RefineNet可以通过使用RefineNet模块进行不同的变种来适应不同的场合,如:
① 变种1:

为仅仅使用一个RefineNet模块的结构。
② 变种2:

为使用两个RefineNet模块的结构。
③ 变种3:

该系统采用了两组不同分辨率的图像进行RefineNet网络构建,在具体实现中将其中一个是1.2倍分辨率的输入图像, 另一个是0.6倍分辨率的图像作为基础数据源进行处理, 通过将较低分辨率下的融合特征与较高分辨率的操作模块之间建立关联, 最终实现了两组不同分辨率网络架构的有效结合, 实验结果表明该双分辨率架构相比单一分辨率输入方案在分类精度上提升了约5%
3 部分结果
3.1 分割的数据对比

上图为各网络在Cityscapes测试集的IoU结果。

本图展示了各种不同的网络架构在NYUDv2数据集上的对比实验结果。可以看出RefineNet模块数量越多,则涉及的尺度数目更多时,模型的预测精度更高。
3.1 分割的效果对比

该网络应用于目标解析表现出色,并展示RefineNet算法在Person-Parts数据集上的效果显著。结果显示该算法在Person-Parts数据集上的性能表现优异。
4 结论
该文提出RefineNet模型,在通过融合不同分辨率的图像数据的基础上实现对目标特征的有效提取,并且这种解法与现有的SPP、ASPP等解决多尺度问题的方法不同的是,该模型提供了一种新的解决方案。
4.1 优势
① 适合解决高分辨率图像,能够联系上下文信息,恢复空间分辨率。
② 考虑了多尺度处理问题。
RefineNet模块设计上展现出极高的灵活性与便利性,在现有架构的基础上能够轻松实现无缝集成,并且其可扩展性使其能够在其他主流网络架构中得到广泛应用
4.2 不足
(占个位先)
5 参考资料
图像分割模型
