[论文笔记]Multi-View Fusion of Sensor Data for Improved Perception and Prediction in Autonomous Driving

阅读量：

Multi-View Fusion of Sensor Data for Improved Perception and Prediction in Autonomous Driving

本文融合了激光雷达信息和栅格化的高清地图的特征进行端到端目标检测和轨迹预测。改方法建立在最新的BEV网络上。

现在的一些方法将目标检测和运动轨迹预测分为两个部分，并且单独训练。而作者认为这样的多级系统可能会由于缺乏特性共享而增加系统延迟，并存在级联错误。而本文就是使用单个端到端系统来执行这两个任务的联合模型。

现在端到端模型研究工作采用鸟瞰视图(BEV)，将原始激光雷达数据投射到以Self-driving vehicle（SDV）为中心的自上而下网格中。激光雷达回波的BEV编码在使目标检测和运动预测任务更容易学习方面有几个优势。这样做的一个优点是，无论距离如何，物体的大小都是恒定的，这就大大简化了问题。使用该方法还能够有效融合历史激光雷达数据，以及高清地图特征的有效融合。然而，这种表示将激光雷达数据离散化为立体像素，丢失了可能用于检测更小物体(如行人和自行车)的细粒度信息。而激光雷达的Range-View (RV)表示能够有效地解决这个问题。若模型学习从RV到BEV的转换再加上感知物体大小的变化。这样会使模型更加复杂，而且需要更大的数据集，而且在RV中融合历史激光雷达数据也具有一定难度，因为球面投影中心的偏移会产生畸变。

而本文的提出的模型，结合了BEV和RV的优点，在BEV和RV数据中分别对激光雷达数据进行多视图编码和处理，然后在一个共同的BEV特征空间中融合两种视图，并且融合相机数据和激光雷达的RV数据。

激光雷达

激光雷达数据用于深度学习，需要将其转换为适合深度模型吸收的特征表示。大体有三种方法：

·将点云中的点作为点方向的特征向量的无序集合。例如PointNet；

·将点云立体像素化到BEV网格上，接着用CNN处理BEV的特征图。例如VoxelNet；

·通过将圆柱形激光雷达扫描信息映射到二维特征地图上，也就是RV表示方法，例如LaserNet。

当然也一些方法结合以上的方法来做特征提取。就比如本文的方法。

激光雷达与相机的融合

由于相机图像无法直接的出每个像素的深度，所以不能简单地将相机像素投射到BEV网格上。

·使用相机图像做二维的检测，再将检测结果对应雷达的3D坐标，来实现三维检测。例如F-PointNet；

·对相机图像做深度估计，生成伪雷达点云，然后利用稀疏的激光雷达信息对伪雷达信息进行校正，接着在伪激光雷达点云上使用3D检测算法。例如PL++；

·将相机图像特征投影到激光雷达的RV特征中，参考 LaserNet++，再与BEV特征相结合。本文的方法。

模型细节

输入：

激光雷达数据 ：使用下面这篇论文的方法将点云转化到BEV视角中，每个时刻t的激光雷达扫描 $S_t$ 的激光雷达点云表示为( $x, y, z$ )。然后，在以SDV为中心的BEV图像中将扫描 $S_t$ 立体像素化，体素大小分别为 $\triangle_L.\triangle_W.\triangle_V$ 分别表示的x、y和z轴。并且将过去 $T$ -1时刻的编码映射到同一个BEV框架中，并沿着通道维度堆叠特征映射。

N. Djuric, H. Cui, Z. Su, S. Wu, H. Wang, F.-C. Chou, L. S. Martin, S. Feng, R. Hu, Y . Xu, et al. Multixnet:Multiclass multistage multimodal motion prediction. arXiv preprint arXiv:2006.02000, 2020

使用下面这篇论文的方法将将点云转化为RV表示，每个激光雷达点用距离 $r$ ，强度 $e$ ，方位角 $\theta$ , ID $m$ 。来描述，转化为RV表示后每个图像像素包含四个通道：距离 $r$ ，距离地面的高度 $z$ ，强度 $e$ ，以及一个二进制值，该值指示单元是否包含有效的传感器读数(对于无效的传感器读数，将其他三个通道的值设置为−1)。

G. P . Meyer, A. Laddha, E. Kee, C. V allespi-Gonzalez, and C. K. Wellington. Lasernet: An efficient probabilistic 3d object detector for autonomous driving. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 12677–12686, 2019.

高清地图 ：

通过栅格化形成高清地图的BEV表示。将静态地图元素编码在与BEV激光雷达网格相同的帧中。静态地图元素包括行车路径、人行横道、车道和道路边界、十字路口、车道和停车场。

相机图像 ：

使用来自前置摄像头的当前RGB图像帧作为输入。在激光雷达数据稀疏的较远距离，相机有望帮助进行目标检测。

整体框架如下图所示：
请添加图片描述

系统架构

整个系统由两个主要部分组成，特征提取器和特征投影器。

特征融合

特征投影
请添加图片描述

其中 $F_{target},F_{source}$ 分别为在目标和源视图中的特征映射， $x$ 表示目标网络中的单元索引， $P_{target},P_{source}$ 为投影操作符，它们将雷达的点 $L_i$ 投影到相应的视图上，并返回对应的索引值， $N$ 为为一次扫描中激光雷达点的总数， $1_c$ 为指示函数，当条件c为真时= 1，否则=0。也就是说，将激光雷达点从源视图中提取特征并投影到目标视图中，如果多个激光雷达点投影到同一个目标单元中，则应用平均池化。

BVE分支 ：

分别从一边的立体像素化的激光雷达数据和另一边的栅格化高清地图中提取特征。然后对这两组特性进行汇总，然后再发送给MultiXNet。

RV分支 ：

融合激光雷达点云数据和RGB相机图像到RV中，然后投影到BEV上。下面这篇论文研究表明，相机特征与RV激光雷达特征的融合是高效有效的。相机特征从相机视图投射到RV视图的畸变比直接投射到BEV视图要小。

G. P . Meyer, J. Charland, D. Hegde, A. Laddha, and C. V allespi-Gonzalez. Sensor fusion for joint 3dobject detection and semantic segmentation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2019

首先使用激光雷达数据构造RV图像，接着用两个卷积层进行简单处理，而RGB相机的图像也使用一个轻量级的6层卷积ImageNet处理，再使用上述特征投影的公式将这些提取的相机特征投影到激光雷达RV上，然后将它们与激光雷达RV特征连接。并使用二进制编码指示RV单元是否包含有效的相机投影(分别使用1和−1表示有效和无效的投影)。然后在这个融合特征中应用一个多尺度的U-Net。最后，利用特征投影的公式将得到的RV特征投影到BEV中。

策略

以上过程将所以特征融合到BEV视图中，其余的模型处理在BEV框架中执行，遵循MultiXNet提出的两阶段架构。在第一阶段，模型输出对每个网格单元的检测，输出存在概率 $\hat{p}$ ，边界框中心( $\hat{c}_{x0}$ ， $\hat{c}_{y0}$ )，框长度 $\hat{l}$ 和宽度 $\hat{w}$ ，heading $\hat{\theta}_{0}$ 。轨迹预测包括路径点中心( $\hat{c}_{xh}$ ， $\hat{c}_{yh}$ )和heading $\hat{\theta}_{h}$ 。该单元在预测水平h处的损失函数定义为:
请添加图片描述
其中 $\gamma$ =2, $\ell_1$ 为平滑回归损失， $l,w,c_{xh},c_{yh},\theta_h$ 都是地面真值。

此外作者还建立了每个路径点的不确定性模型，用兴趣区域裁剪来细化车辆的轨迹，并输出车辆参与者的多模态轨迹预测。模型的最终输出包含了三种主要道路行动者的检测边框和轨迹预测，即车辆、行人和骑自行车的人。

实验

数据集

在TG4D和nuScenes两个自动驾驶数据集上进行了实验。

TG4D 是一个专有的数据集，使用64线激光雷达以10Hz的采集频率捕获数据，前置摄像头捕捉图像在1920 × 1200分辨率与90°水平视野(FOV)。数据包含来自5500个不同场景的超过100万帧，3D边界**框标签最大范围为100米。

nuScenes 是一个公开可用的数据集，使用32束激光雷达以20Hz的采集频率捕获数据，前置摄像头1600 × 900分辨率和水平FOV 70◦。这些数据包含1000个场景和39万个激光雷达扫描帧。

参数设置

对于TG4D数据集，BEV输入使用L= 150m, W= 100m, V= 3.2m，∆L= 0.16m，∆W= 0.16m，∆V= 0.2m，使用T = 10来预测H = 30的未来状态(因此使用历史的1s来预测未来的3s)。RV输入仅使用当前的激光雷达扫描，输入分辨率为2048 × 64。使用与当前激光雷达扫描同步的前相机RGB图像，裁剪顶部的438像素，其中大部分包括天空。

对于nuScenes数据集，使用与TG4D实验相同的超参数和损失函数，只是在输入表示上做了一些改变。BEV输入使用L= 100m, W= 100m, V= 8m，∆L= 0.125m，∆W= 0.125m，∆V= 0.2m，使用T = 10个20Hz的扫描来预测H = 30个10Hz的未来状态(从而使用0.5s的历史来预测未来的3s)。RV的输入尺寸设置为2048 × 32(由于nuScenes使用32束激光雷达，所以比TG4D的行数少)。相机图像直接使用，没有裁剪。

实验结果

请添加图片描述
MultiXNet 作为对比基线。ContFuse 为作者设计的连续融合投射相机特征到BEV，并将其与MultiXNet骨干融合。L-MV 为本文的方法不加入相机图像输入。LC-MV 为本文的方法。

对比以上方法的平均精度(AP)检测指标，车辆、行人和自行车的IoU阈值分别设置为0.7、0.1、0.3。对于预测指标，使用3s时的位移误差(DE)。

表1给出了在nuScenes数据集的评估结果，表2给出了ATG4D数据集的评估结果。
请添加图片描述

上图显示了三个例子,MultiXNet基线未能检测到远的距离的目标物。在这三种情况下，本文方法能够可靠地检测到远距离的目标物，其中包括车辆，行人，和自行车。LC-MV模型还能检测到被MultiXNet遗漏的几个额外的角色，上图用虚线圈表示。可以看到，与ground truth相比，额外检测行动者的轨迹预测也准确。

待补充

**BVE ** Bird’s-Eye View

S. Casas, W. Luo, and R. Urtasun. Intentnet: Learning to predict intention from raw sensor data. In Conference on Robot Learning, pages 947–956, 2018

RV Range-View

MultiXNet

tor for autonomous driving. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 12677–12686, 2019.

MultiXNet

N. Djuric, H. Cui, Z. Su, S. Wu, H. Wang, F.-C. Chou, L. S. Martin, S. Feng, R. Hu, Y . Xu, et al. Multixnet: Multiclass multistage multimodal motion prediction. arXiv preprint arXiv:2006.02000,

全部评论 (0)

还没有任何评论哟~

[论文笔记]Multi-View Fusion of Sensor Data for Improved Perception and Prediction in Autonomous Driving

MultiViewFusionofSensorDataforImprovedPerceptionandPredictioninAutonomousDriving 本文融合了激光雷达信息和栅格化的高清地...

论文笔记_CV_AD_Visual Perception for Autonomous Driving

目录 1论文基本信息 2主要内容 2.1贡献与创新点 2.2装备示意图 2.3城市街道行驶时，相机的外部标定 2.4使用立体相机，进行障碍物检测 2.4.1概括 2.4.2当前发展（stateofth...

[论文笔记]Multi-View 3D Object Detection Network for Autonomous Driving

MultiView3DObjectDetectionNetworkforAutonomousDriving 本文提出一种多模态的3D目标检测，融合了视觉和雷达点云信息。和以往基于voxel的方法不同，...

深度学习论文: Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

深度学习论文:MultimodalSensorFusionforAutoDrivingPerception:ASurvey MultimodalSensorFusionforAutoDrivingPe...

CVPR 2023 精选论文学习笔记：Implicit Occupancy Flow Fields for Perception and Prediction in Self-Driving

首先我们给出四个分类标准： 1、应用领域运动预测和预测：这涉及预测对象（如车辆或行人）的未来运动。这项任务对于自动驾驶车辆安全导航其环境至关重要。三维对象检测和跟踪：这涉及识别和跟踪场景中三维对象...

论文笔记_SLAM_Simultaneous Localization And Mapping: A Survey of Current Trends in Autonomous Driving

目录 1论文基本信息 2看本篇论文目的 3内容简介 3.1主要内容 4介绍与问题引出 4.1车辆定位方式对比 4.1.1GNSSGlobalNavigationSatelliteSystem 4.1....

[论文笔记] Enhancements of V2X Communication in Support of Cooperative Autonomous Driving

概要 CODE;000 内涵协同感知的内容，后文对架构和应用层描述较多，通信方面描述较少自动驾驶有两个关键特征：感知和操控（maneuvering）。若想更好的增强这两个功能，将V2X通信技术融入到...

论文翻译：Multi-View 3D Object Detection Network for Autonomous Driving

来源：CVPR2017 Abstract 本文针对自动驾驶场景中的高精度三维物体检测。我们提出了多视点三维网络（MV3D），这是一个感知融合框架，将LIDAR点云和RGB图像作为输入，并预测定向的3D...

【论文笔记】--LiDAR-based Multi-Task Road Perception Network for Autonomous Vehicles

基于激光雷达的自动驾驶汽车多任务道路感知网络摘要对于自动驾驶汽车来说，在动态驾驶环境中实时获取综合的静态道路信息是其重要要求。对周围道路的综合感知应该包括对遮挡下的整个道路区域的准确检测，以及道路...

论文速览 | MobiCom 2024 | Malicious Attacks against Multi-Sensor Fusion in Autonomous Driving | 多传感器融合在自

论文速览MobiCom2024MaliciousAttacksagainstMultiSensorFusioninAutonomousDriving多传感器融合在自动驾驶中的恶意攻击研究 1引言近年...

是否确定退出登录?

[论文笔记]Multi-View Fusion of Sensor Data for Improved Perception and Prediction in Autonomous Driving

Multi-View Fusion of Sensor Data for Improved Perception and Prediction in Autonomous Driving

模型细节

输入 ：

系统架构

特征融合

策略

实验

数据集

实验结果

待补充

全部评论 (0)

相关文章推荐

[论文笔记]Multi-View Fusion of Sensor Data for Improved Perception and Prediction in Autonomous Driving

论文笔记_CV_AD_Visual Perception for Autonomous Driving

[论文笔记]Multi-View 3D Object Detection Network for Autonomous Driving

深度学习论文: Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

CVPR 2023 精选论文学习笔记：Implicit Occupancy Flow Fields for Perception and Prediction in Self-Driving

论文笔记_SLAM_Simultaneous Localization And Mapping: A Survey of Current Trends in Autonomous Driving

[论文笔记] Enhancements of V2X Communication in Support of Cooperative Autonomous Driving

论文翻译：Multi-View 3D Object Detection Network for Autonomous Driving

【论文笔记】--LiDAR-based Multi-Task Road Perception Network for Autonomous Vehicles

论文速览 | MobiCom 2024 | Malicious Attacks against Multi-Sensor Fusion in Autonomous Driving | 多传感器融合在自

输入：