论文笔记-PointSeg: Real-Time Semantic Segmentation Based on 3D LiDAR Point Cloud
PointSeg是一种基于球形图的实时端到端语义分割方法,用于处理3D LiDAR点云数据。该方法将点云转换为球形图后作为输入,并通过改进后的网络结构(包括Fire Layer、Enlargement Layer和Squeeze reweighting layer)实现高效语义分割,在单GPU上达到90帧每秒的高准确率。该模型基于SqueezeNet并扩展了特征提取层,结合反卷积层和空洞卷积层以保持位置信息,并通过全局平均池化层增强特征表达能力。实验结果表明其在KITTI数据集上表现优异,并可以直接应用于自动驾驶系统中。
标题 -PointSeg: Real-Time Semantic Segmentation Based on 3D LiDAR Point Cloud
作者 -Yuan Wang1 Tianyue Shi2 Peng Yun1 Lei Tai1 Ming Liu1
摘要 :
PointSeg,基于球形图的实时端到端语义分割道路物体的方法。球形图是指从3维雷达点云转变成的64 512 5并用于作为CNN的输入来预测每个点的语义。该模型基于SqueezeNet。数据集-KITTI。 在单GPU上可实现90帧每秒的基础上的高准确率。
介绍 :
背景:嵌入式计算设备如Jetson TX2 和 FGPA不能提供跟工作站同样的实时计算表现,所以需要高准确率,低内存消耗,表现好的方法。
贡献:参照SqueezeSeg将SqueezeNet作为根结构。从最好的RGB语义分割方法PSPNet参考了若干想法应用到自己的网络。因为3维点云通常量大且稀疏,所以作者像SqueezeSeg将点云转变成球形图并让PointSeg采用了变形后的数据。
给SqueezeNet和SqueezeSeg扩展了新的特征提取层来提升准确率和效率。
本工作可以直接应用到自动驾驶系统。使用基本的深度学习单元课简单实现。
方法
1.球形图稀疏转稠密 :


在球形图中设置了两个角度参数α与β。通过调整Δα与Δβ的变化范围可以实现特定形状的球面图生成。通过设定参数α−与β−可以在二维球面图上确定点的位置。经过公式1与公式2的数据处理后得到一个具有H×W×C维度的空间数据序列。由于激光雷达具有64个垂直通道采集数据因此我们设定高度维度H=64。鉴于自动驾驶系统主要关注前方视野范围在−45°至+45°之间将其划分为512个等分区间因此宽度维度W被设定为512。输入空间通道数量由C表示本文采用笛卡尔坐标系方法将空间中的点表示为(x,y,z)坐标。

作为5个通道的数据,在经过特定处理后输出的数据维度为64x512x5。相较于直接使用未经处理的三维点云数据,在保持相同性能的前提下显著降低了计算时间。
2.网络结构
主要包含三个关键组件:(1)来自SqueezeNet的 Fire层;(2)用于权重压缩的SqueezeReweight层;(3)尺寸扩展模块. 如下图所示:

Fire层:SequeezeeNet通过研究fire单元,在轻量级网络中实现了与AlexNet相当的性能。基于此,在本研究中我们构建了特征提取层(Fire1至Fire9)。这不仅继承了SequenceNet的优势,并且通过优化设计显著提升了模型的效率与准确性。 Fire模块的设计主要包含两个关键组件:压缩模块与扩展模块。其中压缩模块采用单个1x1卷积核将模型通道数从C压缩至C/4;而扩展模块则由一个1x1卷积核后跟一个3x3卷积核构成,在保证捕捉多尺度特征的同时显著提高了信息表达能力。此外为了提高重建质量同时减少计算开销 在特征重建阶段我们采用了SquenceSeg中的F-deconv替代传统的deconvolutional层 并通过合理的参数配置实现了对不同尺寸输入的有效适应

Enlargement Layer:
池化层用于扩展感受野(receptive field),并舍弃上下文信息的位置编码。然而位置信息在语义分割任务中扮演着不可或缺的角色。因此,在PointSeg架构中减少池化层的数量以保留更多的位置编码。为了解决这一问题,作者在Fire9和SR-3之后引入空洞卷积层(dilated convolutional layer)来扩大感受野的效果,并避免了传统池化层可能带来的位置信息丢失的问题。这种方法类似于ASPP模块,在同一网络深度内通过不同膨胀率(dilation rate)的空洞卷积操作提取多尺度特征(如图5所示)。值得注意的是,在空洞卷积操作中输入特征尺寸为64x64时,默认选择膨胀率分别为6、9、12进行实验研究

- Squeeze reweighting layer:
旨在高效地提取更加鲁棒和高效的特征表达。通过应用全局平均池化层能够获取浓缩的全局信息描述符。两个全连接层分别负责生成基于通道的依赖关系。 




4)细节
鉴于输入尺寸为64×512×5时高度方向的信息量相对有限,在宽度方向上执行下采样操作即可满足需求。为了恢复原始尺度下的每个采样点预测目标,在SR-3和EL层输出特征的基础上应用单一层反卷积完成特征图重建过程。值得注意的是尽管EL层能够有效扩展感受野范围但由于其特性限制无法与其他层次直接共享参数从而导致参数数量急剧增加为此作者在每个池化操作之前引入squeeze reweight layers(SR1-SR3)以促进火块在不同感受野下的鲁棒特征提取并有效减少内存占用问题。由于EL层提取出的不同感受野范围内的特征具有显著差异性因此作者将EL层输出与经过F-deconv激活后的SR各层级输出进行融合操作具体采用concatenate方式以整合多维度信息。值得注意的是为了尽量减少计算开销在此过程中采用了简单的加法操作而不是复杂的concatenate连接方式。
实验
计算环境基于1080Ti GPU,在CUDA 9和CUDNN 7框架上运行。
学习率设置为 learning\ rate = 1 \times 1e^{-3} 。
优化器采用Adagrad算法。
批量大小设置为32
