Advertisement

【ICNet】ICNet for Real-Time Semantic Segmentation on High-Resolution Images

阅读量:

基本情况

2017年4月份的文章,所属领域是Semantic Segmentation.

Abstract

本文旨在针对实时语义分割问题展开研究。通过大量计算的减少提升了效率的方法提出了该方案,该方法基于PSPNet压缩后的图像 Pyramid特征融合网络(ICNet),在合理标签的引导下结合多支预测模块以优化计算效率。随后深入分析了该框架结构并引入级联特征融合机制实现了高效精确的目标分割。实验结果表明,在Cityscapes数据集上该方法取得了令人满意的性能。

Instroduction

当前的研究表明, 大部分的方法都是通过调整网络的深度和宽度来实现更高的分辨率水平, 并且特别关注基于FCNs的技术.

1

基于图像分析的研究表明,实时语义分割技术在多个领域中展现出广泛的应用潜力。

当前实时物体检测技术已取得了一定的进步;然而实时自相似性检测(SS)仍处于起步阶段。为了降低参数量需求,在SegNet的设计中去除了全连接层(FCLayer)。尽管效率有所提升;采用轻量化的网络架构的是ENet但其准确率却难以令人满意。

Speed Analysis

深入探究了PSPNet运行缓慢的根本原因,并提出了相应的改进方案。通过详细分析发现,图像分辨率是影响模型运行速度的关键因素之一。此外,在网络架构中,卷积核的数量同样具有重要影响(其规模与分辨率相当)。作者采用了三种优化策略:降低图像分辨率、实施最大池化降维处理、以及模型结构压缩缩减卷积核数量。但这些措施均未取得显著成效。

0
1
2

ICNet

在上述分析的基础上表明:低分辨率图像能够显著减少处理时间;然而,在细节完整性和边缘清晰度方面却存在明显不足;相比之下,在处理时间上虽然面临较大的挑战——即高分辨率图像导致处理时间过长的问题尤为突出——但这种困境促使我们探索出一种新的解决方案。

1

通过不同分辨率等级的图像辅助实现语义分割,在融合模块中采用了级联特征融合单元(CFF)来逐步优化学习过程。此外,在低、中、高分辨率分支的设计中各有侧重:低分辨率分支包含超过50层卷积层(包含超过50个卷积操作),能够提取丰富的语义信息(inference 18 ms);中分辨率分支拥有17层卷积层(对应17个卷积操作),由于权值共享特性使得整体计算速度提升至6ms;而高分辨率分支仅由3个卷积层构成(仅包含3个卷积操作),其计算开销为9ms。相比之下,在特征融合方式上存在差异:传统的FCN、SegNet、UNet、RefineNet等网络需对所有输入数据进行全局处理以获取高分辨率特征(通常导致较高的计算成本)。而本文方法则通过将低分辨率图像作为主要输入信号,并利用高分辨率图像进行精细调节(refines),成功实现了在保留细节表现的同时显著降低了整体计算开销。

Cascade Feature Fusion and Final Model

1

在融合的基础上完成了对Loss函数的修正,并将其定义为 L = aL_1 + bL_2 + cL_3 。在此基础上完成了模型压缩工作。未采用传统的复杂方案而是采用了更为简便的方式:若希望保留50%的权重,则先保留75%,随后进行微调;再减少至50%,再次微调,并重复此过程以逐步逼近目标。参考文献[13]中的方法提供了另一种思路:若希望保留约66.67%的权重,则先保留80%,随后进行微调;再减少至66.67%,再次微调,并重复此过程以逐步逼近目标。通过上述改进方案的应用,在保证性能的前提下显著降低了计算开销

Experimental Evaluation

框架基于Caffe构建,在其网络架构中采用了PSPNet模式,并对金字塔池模块中的并置操作进行了替换为求和运算的优化处理;经过这一调整使得输出特征向量的维度由4096降至2048

最后的结果:

1

References

  • [1] SegNet

  • [2] deeplabv1

  • [3] deeplabv2

  • 通过剪枝优化卷积神经网络的参数

  • Refinenet采用了多路径精炼网络架构以实现高分辨率语义分割

  • [17] SSD:单人多目标检测器。

    • [18] 该网络通过深度解析架构实现图像语义分割。
    • [19] FCN。
    • [20] DeconvNet。
    • [21] Enet:一种适用于实时语义分割的深层神经网络架构。
    • [24] Yolo9000:在准确率、速度和检测精度方面均有显著提升。
  • [25] 一种实现实时目标检测的深度学习框架:基于区域建议网络的设计思想

  • [32] 多尺度背景融合技术借助膨胀卷积实现效果提升

  • [33] 年份版本的场景解析网络架构:Pyramid Scene Parsing Network

  • [34] crfasrnn(注:此处保持原文不变)

相关资料

全部评论 (0)

还没有任何评论哟~