论文阅读:LaserNet: An Efficient Probabilistic 3D Object Detector for Autonomous Driving
LaserNet:一种用于自动驾驶的高效概率三维物体探测器
下图2是论文中提出算法的主要框架

一、论文的综述
基于传感器固有的视角范围表征的方法生成密集输入图像(第3.1节)。经过完全卷积网络处理后得到一组预测结果(第3.2节)。对于图像中的每一个LiDAR点,在自顶向下的视图层次中对边界框的概率分布进行回归分析(第3.3节)。各点的概率分布通过均值偏移聚类方法结合在一起,并有效降低了各预测阶段的噪声水平(第3.4节)。整个探测器采用端到端训练策略,并在角点区域定义损失函数(第3.5节)。在推论过程中采用了一种新型自适应非最大抑制算法以去除重复检测到的边界框(第3.6节)。
二、个人的一些理解
首先,LiDAR原始数据构成网络输入——密度图,该研究论文中涉及五个通道图像:距离r,高度z,方位角θ,强度e,以及指示单元是否包含点标记位信息.经卷积神经网络提取并聚合特征.随后针对每个采样点,计算该点各类的概率分布(即该点属于不同类别概率),为了减少噪声干扰,引入聚类过程将大量相近采样点归为一类共同推导参数表达式.研究者进一步推导各目标边界框位置及其置信度(边界框分布采用多模态估计方法,置信度用于后续优化筛选),并计算各目标边界框缩放因子对数域的标准差估计值及混合权重系数(其中混合权重系数用于评估各组成部分贡献度).
本文认为,这篇论文最突出的特点在于首次提出了一种基于概率密度函数的方法用于目标物体定位探测系统的设计与实现.该方法的核心思想是在建立物体定位探测模型的过程中,首次实现了对目标物体位置信息多维度、多层次的数据融合.具体而言,该方法主要包含两个关键步骤:一是通过建立基于概率密度函数的目标物体定位探测模型;二是采用贝叶斯推理算法对模型中的参数进行优化求解.
虽然目标是边界框参数本身,在损失函数的回归部分中却仅包含标准差与混合权重两个要素。整个流程大致是通过预测边界框的概率分布来计算出标准差与混合权重,并将这些参数随后作为损失函数的一部分用于反向传播优化这一概率分布模型以提高准确性。这一过程会在达到某个预设的标准后才完成,并基于优化后的概率分布模型推导出最终的边界框参数位置。看起来这种方法确实有一定合理性但具体思路尚不清晰
总结而言,在本文中我们集中于某个特定的表示方法,并得出了相关结论。综上所述,我们相信其他检测方法也能从中受益。
但是这个方法也存在一个不足之处,即需要大量的训练数据才能较好地预测边界框的概率分布情况。如图6所示,在本文中我们分别在KITTI和ATG4D两个数据集上进行了实验验证。结果显示,在KITTI数据集上难以较好地学习概率分布特征,在相对较大的ATG4D数据集上则能够较好地完成这一任务。

