Advertisement

【论文笔记】2019CVPR 【……for Real-time Semantic Segmentation of Road-driving Images】

阅读量:

In Defense of Pre-trained ImageNet Architectures for Real-time Semantic Segmentation of Road-driving Images

In Defense of Pre-trained ImageNet Architectures for Real-time Semantic Segmentation of Road-driving Images

针对基于预训练的ImageNet架构在实时道路驾驶图像语义分割中的有效性之探讨

  • Abstract: 本研究旨在探讨一种新的图像分割方法及其在实际应用中的可行性。
  • Overview: The paper presents a comprehensive analysis of recent advancements in image segmentation techniques.
  • Related Work: 这一领域的研究主要集中在基于深度学习的方法上, 其中现有的技术存在以下局限性:
  • Proposed Segmentation Method: We introduce a novel approach that integrates multi-scale feature learning with adaptive thresholding to achieve superior segmentation accuracy.
  • Interleaved Pyramid Fusion Model (IPF): This innovative model combines hierarchical feature extraction with spatial attention mechanisms to enhance the representation capability of the fusion process.
  • Experimental Analysis: Through extensive experiments on benchmark datasets, we demonstrate the robustness and effectiveness of our proposed framework.
  • Summary: The study successfully integrates multiple advanced techniques to deliver an efficient and accurate image segmentation solution with practical applicability.

for Real-time Semantic Segmentation of Road-driving Images】笔记)

论文源代码:<https://gitHub.com/O R S I C/S W I F T N E T>.
论文:<http://arXiv.Org.ABS/1903.08469/C S .C V>

摘要部分

最近的语义分割方法在路况驾驶数据集上取得了显著的应用成果,并带动了多个相关领域的快速发展。其中一些应用主要集中在汽车、无人机以及各类移动机器人等端设备上,并实现了实时预测功能的在线处理能力。然而,在面对海量数据时维持实时性仍然面临诸多技术挑战。以往的研究多采取"卸载"的方式来应对这一问题:通过降低模型深度、压缩宽度以及缩减隐藏层通道数等手段来减轻模型负担。本文中提出了一种新型解决方案:在保证计算资源丰富的条件下仍能获得良好的性能表现的选择性方法。具体而言,在研究过程中作者首先采用了轻量级网络作为主要检测架构;其次通过上采样以最经济有效的分辨率存储预测结果;最后采用特征融合策略来扩大感受野范围。
该研究实验表明:在CItyscapes数据集上的平均交并比(mIOU)达到了75.55%;使用GTX1080Ti显卡时,在1024×2048分辨率下实现了每秒39.9个预测的速度表现。

Introduction

语义分割是做到像素级别的分类水平。语义分割准确率比较高的模型都是基于全卷积模型做的,但是却需要花费太多的计算资源来进行计算。一些类似自动巡航,驾驶辅助等应用需要输入非常大的图片,从而得到更多的视野。并且需要低延迟带来的实时性输出。
一些语义分割模型为了能够达到实时性的要求,过多地缩小模型,导致不能够suited for large scale visual recognition。有的模型为了不过拟合,现在ImageNet进行预训练,然而通过这篇论文的试验发现这样的作用实际对过拟合的改进收益很小。
一个语义分割的简单模型往往是从一个全卷积层构成的编码机出发的,逐渐降低分辨率,提高特征图的尺寸来代表输入的特征。如果像素比较小,那么在远处的景象就不能够识别(例如交通指示牌,大约是输入图像尺寸的1/32),另外,如果感受野不大,那么对于大的物体也不能够对其进行正确的像素级的分类。这能够通过很多途径来解决,比如空洞卷积,有学习的上采样,横向连接以及resolution pyramids。但是并不是所有方法都适用于实时处理的模型中。
所以,在这篇论文中,提出了一种能够提高“瘦身之后的模型”的准确度和实时性的方法。提出的这种方法能够增加感受野,based on a resolution pyramid with shared parameters。提出的方法轻微提高了模型的大小,能够让模型检测到big object,最后通过一解码器有效且准确地得到预测结果。本文提出的模型超过了现阶段state-of-the art 的语义分割模型。

前面介绍了解到目前的语义分割模型面临两个主要挑战首先是像素恢复问题其次是扩大感受野的技术尚未完善。在解决像素恢复问题方面最简单的解决方案是采用非下采样池化替代传统步长为2的池化操作同时将空洞卷积应用于后续卷积层以增大空间扩张率这一策略虽然有效但会导致显著的计算开销并可能影响模型性能。针对感受野扩展问题现有研究主要集中在上采样技术上其中基于自动编码器框架的设计特别适合实时处理需求为了实现快速解码过程必须保证特征图的高度轻量化但过轻量化可能导致模型泛化能力下降因此需要在轻量化与泛化之间找到平衡点本文提出的方法在实现上与基于ImageNet预训练模型的设计思路相一致通过引入dilation机制显著提升了感受野规模与现有技术相比本文采用了独特的特征融合策略即在上采样前将不同层级提取的特征进行整合这一改进使得对小样本大目标场景具有更强的表现力文章所提出的优化方案不仅能够有效提高模型效率还能够较好地保持分类精度

前辈的文章中提到扩大感受野的方法主要包括空洞卷积SPP(Spatial Pyramid Pooling)等技术本文在此基础上进行了创新性改进通过引入空间金字塔池化的思想实现了更高效的特征融合这一设计不仅简化了网络结构还能显著提升计算效率与现有方法相比本文的主要创新点在于提出了一个统一的特征融合框架该框架能够在不同深度层之间灵活调配各层信息从而实现信息的最大互补作用此外该方法还特别关注了特征图的空间分布特性通过动态调整各层之间的权重分配实现了更好的表征学习效果实验结果表明所提出的方法在保持分类精度的同时显著提升了模型运行速度并获得了更好的泛化性能

The proposed segmentation method

该方法基于以下前提假设:第一部分阐述了解码器的设计方案及其在图像重建方面的优势;第二部分详细描述了所提出的编码器组件的具体实现方式;第三部分深入探讨了整个网络架构的关键特性及其对性能提升的重要作用

编码器组件采用了ResNet-18与MobileNet V2相结合的设计方案;而解码器组件则采用了基于残差块构建的上采样架构设计;这种组合不仅能够有效提升特征提取能力;还能显著改善图像重建的质量

具体而言;该模块由两个主要组成部分构成:第一部分主要负责特征提取与降维操作;第二部分则专注于高阶重建任务的关键环节

其中;每个模块都包含多个子网络单元;这些单元之间通过深度连接实现了信息的有效传递

解码器残差结构

通过SPP块来扩大感受野的范围

在这里插入图片描述

交错金字塔融合模型(Interleaved pyramid fusion model)

尽管采用较小规模的模型能够提高计算效率(计算速度),然而由于有限的感受野无法满足大规模场景的需求(适用于大场景)。另一方面(此外),共享参数通过公共参数集识别不同尺寸的对象(对象大小),从而可能减少整体模型容量的需求(降低对模型容量的需求)。为了增强各编码器之间的横向连接并改善整体梯度流动状态(梯度流),这可以通过以下方式实现:从不同编码器相邻层级提取特征张量并进行连接(这些层级具有相同的分辨率)。该连接可标记为绿色圆形符号。随后将交织后的编码器特征通过特定卷积层(由11个红色方块表示)投影到解码器特征空间中(卷积投影)。与单尺度架构相似地运行(工作原理相同)的是解码器模块(蓝色部分),同时,在图像金字塔的不同层次上增加了额外的上采样组件

在这里插入图片描述

试验

试验结果在下方的表格中:

在这里插入图片描述

结论

实时性是该领域语义分割模型应用中的一项关键特性。传统的研究大多基于自定义卷积编码器设计,并未采用跨层跳跃连接技术。然而,在权衡速度与精度时,在保持紧凑编码器竞争力的同时加入轻量级解码器横向跳接能够取得更好的性能效果。我们提出了一种交错金字塔融合架构,在Cityscapes数据集上实现了39.9 Hz处理能力,在1024×2048像素图像上的验证均达到了75.5%的mIoU指标值。经测试表明这是目前适用于实时目标检测的最佳解决方案。

在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~