[论文笔记]Multi-View Fusion of Sensor Data for Improved Perception and Prediction in Autonomous Driving
Multi-View Fusion of Sensor Data for Improved Perception and Prediction in Autonomous Driving
本文融合了激光雷达信息和栅格化的高清地图的特征进行端到端目标检测和轨迹预测。改方法建立在最新的BEV网络上。
现在的一些方法将目标检测和运动轨迹预测分为两个部分,并且单独训练。而作者认为这样的多级系统可能会由于缺乏特性共享而增加系统延迟,并存在级联错误。而本文就是使用单个端到端系统来执行这两个任务的联合模型。
现在端到端模型研究工作采用鸟瞰视图(BEV),将原始激光雷达数据投射到以Self-driving vehicle(SDV)为中心的自上而下网格中。激光雷达回波的BEV编码在使目标检测和运动预测任务更容易学习方面有几个优势。这样做的一个优点是,无论距离如何,物体的大小都是恒定的,这就大大简化了问题。使用该方法还能够有效融合历史激光雷达数据,以及高清地图特征的有效融合。然而,这种表示将激光雷达数据离散化为立体像素,丢失了可能用于检测更小物体(如行人和自行车)的细粒度信息。而激光雷达的Range-View (RV)表示能够有效地解决这个问题。若模型学习从RV到BEV的转换再加上感知物体大小的变化。这样会使模型更加复杂,而且需要更大的数据集,而且在RV中融合历史激光雷达数据也具有一定难度,因为球面投影中心的偏移会产生畸变。
而本文的提出的模型,结合了BEV和RV的优点,在BEV和RV数据中分别对激光雷达数据进行多视图编码和处理,然后在一个共同的BEV特征空间中融合两种视图,并且融合相机数据和激光雷达的RV数据。
激光雷达
激光雷达数据用于深度学习,需要将其转换为适合深度模型吸收的特征表示。大体有三种方法:
·将点云中的点作为点方向的特征向量的无序集合。例如PointNet;
·将点云立体像素化到BEV网格上,接着用CNN处理BEV的特征图。例如VoxelNet;
·通过将圆柱形激光雷达扫描信息映射到二维特征地图上,也就是RV表示方法,例如LaserNet。
当然也一些方法结合以上的方法来做特征提取。就比如本文的方法。
激光雷达与相机的融合
由于相机图像无法直接的出每个像素的深度,所以不能简单地将相机像素投射到BEV网格上。
·使用相机图像做二维的检测,再将检测结果对应雷达的3D坐标,来实现三维检测。例如F-PointNet;
·对相机图像做深度估计,生成伪雷达点云,然后利用稀疏的激光雷达信息对伪雷达信息进行校正,接着在伪激光雷达点云上使用3D检测算法。例如PL++;
·将相机图像特征投影到激光雷达的RV特征中,参考 LaserNet++,再与BEV特征相结合。本文的方法。
模型细节
输入 :
激光雷达数据 :使用下面这篇论文的方法将点云转化到BEV视角中,每个时刻t的激光雷达扫描S_t的激光雷达点云表示为(x, y, z)。然后,在以SDV为中心的BEV图像中将扫描S_t立体像素化,体素大小分别为\triangle_L.\triangle_W.\triangle_V分别表示的x、y和z轴。并且将过去T-1时刻的编码映射到同一个BEV框架中,并沿着通道维度堆叠特征映射。
N. Djuric, H. Cui, Z. Su, S. Wu, H. Wang, F.-C. Chou, L. S. Martin, S. Feng, R. Hu, Y . Xu, et al. Multixnet:Multiclass multistage multimodal motion prediction. arXiv preprint arXiv:2006.02000, 2020
使用下面这篇论文的方法将将点云转化为RV表示,每个激光雷达点用距离r,强度e,方位角\theta, IDm 。来描述,转化为RV表示后每个图像像素包含四个通道:距离r,距离地面的高度z,强度e,以及一个二进制值,该值指示单元是否包含有效的传感器读数(对于无效的传感器读数,将其他三个通道的值设置为−1)。
G. P . Meyer, A. Laddha, E. Kee, C. V allespi-Gonzalez, and C. K. Wellington. Lasernet: An efficient probabilistic 3d object detector for autonomous driving. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 12677–12686, 2019.
高清地图 :
通过栅格化形成高清地图的BEV表示。将静态地图元素编码在与BEV激光雷达网格相同的帧中。静态地图元素包括行车路径、人行横道、车道和道路边界、十字路口、车道和停车场。
相机图像 :
使用来自前置摄像头的当前RGB图像帧作为输入。在激光雷达数据稀疏的较远距离,相机有望帮助进行目标检测。
整体框架如下图所示:

系统架构
整个系统由两个主要部分组成,特征提取器和特征投影器。
特征融合
特征投影

其中F_{target},F_{source} 分别为在目标和源视图中的特征映射,x表示目标网络中的单元索引,P_{target},P_{source}为投影操作符,它们将雷达的点L_i投影到相应的视图上,并返回对应的索引值,N为为一次扫描中激光雷达点的总数,1_c为指示函数,当条件c为真时= 1,否则=0。也就是说,将激光雷达点从源视图中提取特征并投影到目标视图中,如果多个激光雷达点投影到同一个目标单元中,则应用平均池化。
BVE分支 :
分别从一边的立体像素化的激光雷达数据和另一边的栅格化高清地图中提取特征。然后对这两组特性进行汇总,然后再发送给MultiXNet。
RV分支 :
融合激光雷达点云数据和RGB相机图像到RV中,然后投影到BEV上。下面这篇论文研究表明,相机特征与RV激光雷达特征的融合是高效有效的。相机特征从相机视图投射到RV视图的畸变比直接投射到BEV视图要小。
G. P . Meyer, J. Charland, D. Hegde, A. Laddha, and C. V allespi-Gonzalez. Sensor fusion for joint 3dobject detection and semantic segmentation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2019
首先使用激光雷达数据构造RV图像,接着用两个卷积层进行简单处理,而RGB相机的图像也使用一个轻量级的6层卷积ImageNet处理,再使用上述特征投影的公式将这些提取的相机特征投影到激光雷达RV上,然后将它们与激光雷达RV特征连接。并使用二进制编码指示RV单元是否包含有效的相机投影(分别使用1和−1表示有效和无效的投影)。然后在这个融合特征中应用一个多尺度的U-Net。最后,利用特征投影的公式将得到的RV特征投影到BEV中。
策略
以上过程将所以特征融合到BEV视图中,其余的模型处理在BEV框架中执行,遵循MultiXNet提出的两阶段架构。在第一阶段,模型输出对每个网格单元的检测,输出存在概率\hat{p},边界框中心(\hat{c}_{x0},\hat{c}_{y0}),框长度\hat{l}和宽度\hat{w},heading \hat{\theta}_{0}。轨迹预测包括路径点中心(\hat{c}_{xh},\hat{c}_{yh})和heading \hat{\theta}_{h}。该单元在预测水平h处的损失函数定义为:

其中\gamma=2,\ell_1为平滑回归损失,l,w,c_{xh},c_{yh},\theta_h都是地面真值。
此外作者还建立了每个路径点的不确定性模型,用兴趣区域裁剪来细化车辆的轨迹,并输出车辆参与者的多模态轨迹预测。模型的最终输出包含了三种主要道路行动者的检测边框和轨迹预测,即车辆、行人和骑自行车的人。
实验
数据集
在TG4D和nuScenes两个自动驾驶数据集上进行了实验。
TG4D 是一个专有的数据集,使用64线激光雷达以10Hz的采集频率捕获数据,前置摄像头捕捉图像在1920 × 1200分辨率与90°水平视野(FOV)。数据包含来自5500个不同场景的超过100万帧,3D边界**框标签最大范围为100米。
nuScenes 是一个公开可用的数据集,使用32束激光雷达以20Hz的采集频率捕获数据,前置摄像头1600 × 900分辨率和水平FOV 70◦。这些数据包含1000个场景和39万个激光雷达扫描帧。
参数设置
对于TG4D数据集,BEV输入使用L= 150m, W= 100m, V= 3.2m,∆L= 0.16m,∆W= 0.16m,∆V= 0.2m,使用T = 10来预测H = 30的未来状态(因此使用历史的1s来预测未来的3s)。RV输入仅使用当前的激光雷达扫描,输入分辨率为2048 × 64。使用与当前激光雷达扫描同步的前相机RGB图像,裁剪顶部的438像素,其中大部分包括天空。
对于nuScenes数据集,使用与TG4D实验相同的超参数和损失函数,只是在输入表示上做了一些改变。BEV输入使用L= 100m, W= 100m, V= 8m,∆L= 0.125m,∆W= 0.125m,∆V= 0.2m,使用T = 10个20Hz的扫描来预测H = 30个10Hz的未来状态(从而使用0.5s的历史来预测未来的3s)。RV的输入尺寸设置为2048 × 32(由于nuScenes使用32束激光雷达,所以比TG4D的行数少)。相机图像直接使用,没有裁剪。
实验结果

MultiXNet 作为对比基线。ContFuse 为作者设计的连续融合投射相机特征到BEV,并将其与MultiXNet骨干融合。L-MV 为本文的方法不加入相机图像输入。LC-MV 为本文的方法。
对比以上方法的平均精度(AP)检测指标,车辆、行人和自行车的IoU阈值分别设置为0.7、0.1、0.3。对于预测指标,使用3s时的位移误差(DE)。
表1给出了在nuScenes数据集的评估结果, 表2给出了ATG4D数据集的评估结果。

上图显示了三个例子,MultiXNet基线未能检测到远的距离的目标物。在这三种情况下,本文方法能够可靠地检测到远距离的目标物,其中包括车辆,行人,和自行车。LC-MV模型还能检测到被MultiXNet遗漏的几个额外的角色,上图用虚线圈表示。可以看到,与ground truth相比,额外检测行动者的轨迹预测也准确。
待补充
**BVE ** Bird’s-Eye View
S. Casas, W. Luo, and R. Urtasun. Intentnet: Learning to predict intention from raw sensor data. In Conference on Robot Learning, pages 947–956, 2018
RV Range-View
G. P . Meyer, A. Laddha, E. Kee, C. V allespi-Gonzalez, and C. K. Wellington. Lasernet: An efficient probabilistic 3d object detector for autonomous driving. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 12677–12686, 2019.
MultiXNet
tor for autonomous driving. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 12677–12686, 2019.
MultiXNet
N. Djuric, H. Cui, Z. Su, S. Wu, H. Wang, F.-C. Chou, L. S. Martin, S. Feng, R. Hu, Y . Xu, et al. Multixnet: Multiclass multistage multimodal motion prediction. arXiv preprint arXiv:2006.02000,
