深度学习论文: Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
基于深度学习的多模态传感器融合用于自动驾驶感知的研究综述
1 概述
基于单一模态的数据(如图像或点云)感知不可避免地存在局限性。
该作者就自动驾驶领域中的多模态传感器 fusion 相关论文进行了简明综述,并提出了一个创新性的分类方案。该方案将超过50篇相关论文按照其融合阶段划分为主类别与次类别:主类别包括 strong fusion 和 weak fusion ,次类别则分别为 early fusion 、 deep fusion 、 late fusion 以及 asymmetric fusion 。
2 Tasks, and Open Competitions
2-1 Multi-modal Sensor Fusion Perception Tasks
就自动驾驶感知任务而言,则涉及目标检测、语义分割、深度补全以及预测任务等多个关键环节,在此背景下,则重点研究的目标检测与语义分割成为核心内容。

2-2 Open competitions and Datasets
KITTI开放基准数据集是自动驾驶领域中广泛应用的目标检测基准数据集之一,在二维、三维以及鸟瞰视角检测任务方面具有重要地位。该平台配备了四个高分辨率视频摄像头、一个基于激光雷达的扫描仪以及最先进的定位系统,并通过其获取了7481张训练图像、7518张测试图像及相关点云数据。其中三种目标被明确标记为汽车、行人和自行车类别,并获得了超过20万个三维目标注释数据。这些目标被划分为简单、中等及困难检测难度等级进行分类管理。在评估KITTI目标检测模型性能时通常采用平均精度这一量化指标;同时也可以通过平均方向相似度这一指标来评估联合检测目标并量化其三维方向估计能力的表现程度
Waymo 的公开数据集由五个 LiDAR 传感器和五个高分辨率针孔相机收集。详细说明了训练、验证和测试的场景数量:共包含79个用于训练的场景、202个用于验证的场景以及150个用于测试的场景。每个场景持续拍摄20秒,并对车辆、骑行者以及行人进行了注释。为了评估三维目标检测任务的表现方式多样化的度量方法被引入,并提供了四个评估指标:AP/L1, APH/L1, AP/L2, 和 APH/L2。其中前两个(AP 和 AHP)衡量的是车辆等物体在不同距离下的检测准确性;而后两个(AP/L2 和 AHP/L2)则关注于远距离物体的识别能力。其中后者(APH)通过方向精度加权来区分不同方向的目标定位效果。
NuScenes 开放数据集包含1000个驾驶场景,其中700个用于训练,150个用于验证,150个用于测试。配备了摄像机、LiDAR和雷达传感器,nuScenes在每个关键帧中注释了23种目标类别,包括不同类型的车辆、行人和其他。NuScenes使用AP、TP进行检测性能评估。此外,它提出了一个创新的标量分数作为nuScenes检测分数(NDS),由AP、TP进行计算,分离不同的错误类型。
3 Representations for LiDAR and Image
3-1 Image Representation
一般为RGB通道
3-2 Point-based Point Cloud Representation
大部分LiDAR设备采集的原始数据采用四元数格式(x; y; z; r),其中r代表每个点的反射率。不同的纹理特征则会反映出各自对应的独特反射率分布情况,这对于模型来说是一种宝贵的信息资源。
3-3 Voxel-based Point Cloud Representation
通过应用三维卷积神经网络(3DCNN)将连续的三维空间离散化为有限个三维体素来实现对空间的建模过程。这些体素被建模为一个集合\left\{x_1;x_2;...;x_g\right\}, 其中每一个体素x_i被定义为一个特征向量x_i=\left\{s_i;v_i\right\}。这里的s_i代表每个体素所占据立方体的中心位置,而v_i则代表该位置处基于统计学方法提取的局部特征信息。
3-4 2D-mapping-based Point Cloud Representation
通过2D映射的点云表示将LiDAR数据映射到图像空间中。主要采用两种形式:相机平面图(CPM)和鸟瞰图(BEV)。**相机平面图(CPM)**方面:CPM可通过外参标定获得,并将每个三维点投影至相机坐标系。由于其格式与相机图像一致,因此可将其作为额外通道自然融合。然而由于LiDAR数据在投影后分辨率较低,在CPM中许多像素的特征已受到影响而受损。因此通常采用上采样特征图或留空等方式来改善这一问题。
Bird's eye view (BEV) maps offer a comprehensive overview of the scene from a bird's perspective. These maps are commonly employed for localization and detection tasks. Firstly, in contrast to cameras mounted behind windshields, LiDAR systems are typically installed on the vehicle’s roof, minimizing occlusion issues. Secondly, within the BEV framework, all objects are projected onto the ground plane, enabling the creation of undistort length and width representations for predictive modeling.
4 Fusion Methodology

4-1 Strong-fusion
强融合中的每个次类高度依赖于LiDAR点云,而不是相机数据。
4-1-1 Early-fusion
该方法基于 Early-fusion(基于数据级的 fusion)原理,在通过对不同传感器进行精确的空间对准后实现多模态信息的有效整合。该方法的特点在于,在每一种特定的感知模式中都实现了精确的空间配准与投影变换后的特征叠加。值得注意的是,在多源感知信息整合方面,LiDAR 与 相机 等多模态设备的数据可以在同一层次上进行有效结合。

4-1-2 Deep-fusion
该方法基于深度融合(基于特征级的融合)采用了连接操作或逐位乘法来混合跨模态数据。该方法在LiDAR分支中实现了特征层级上的跨模态数据融合,在图像分支则同时考虑了数据层级和特征层级的融合过程。

4-1-3 Late-fusion
Late-fusion(对象级融合)方法通过整合各模式下的预测输出以作出最终判断。 Late-fusion被视作一种集成策略,在综合考虑多模态数据的基础上能有效提升整体性能。

4-1-4 Asymmetry-fusion
Asymmetry-fusion 通过一个分支整合对象级别的信息,并通过其他分支整合数据级别或特征级别的信息实现的一种不对称融合方法。与传统强融合中的其他方法不同,在非对称融合中至少有一个支配性领域存在,并由其余领域提供辅助信息以完成最终目标任务。

4-2 Weak-fusion
以弱监督的方式进行弱融合的方法通常会采用基于规则的方法来通过一种模态的数据作为监督信号来促进另一种模态的交互

