【多模态融合】FUTR3D: A Unified Sensor Fusion Framework for 3D Detection
该论文提出了一种统一的传感器融合框架,在三维空间检测方面表现出色。
代码位置:该项目的主要代码存储在GitHub仓库Tsinghua-MARS-Lab/futr3d中,默认分支为readme-overview
作者: Xuanyao Chen,Tianyuan Zhang,Yue Wang,Yilun Wang,Hang Zhao
发表单位: 上海期智研究院、复旦大学、CMU、清华大学、MIT、Li Auto
会议/期刊: 无
一、研究背景

多样化的不同自动驾驶汽车配备了多样化的传感器组合与参数设置。
一种先进且高效的统一端到端融合框架专为 3 D 检测而设计。
该框架具备高度灵活性可被广泛应用于各种不同的传感器配置。
包含多种先进的探测设备如2 D 相机、3 D Li
D AR、
4 D 成像雷达等技术组件
实现信息融合是自动感知系统的关键技术之一。在自动驾驶车辆中部署多种先进的传感器技术,在此过程中这些设备能够提供相互补充的数据信息以确保更高水平的安全性能。
本文贡献:
FUTR3D 是首个综合性的传感器融合框架,在处理各种传感器配置时均采用端到端的处理机制;
(2)开发了一个与多模式传感器兼容的特征采集模块 MAFS。该模块能够从摄像头、高分辨率 LiDAR、低分辨率 LiDAR 和雷达等多种传感器中提取并整合特征数据;MAFS使得系统能够以统一的方式处理任意传感器组合及其数据融合方式。该组件设计灵活可靠,在多种复杂场景中均能稳定运行。
(3)在多组传感器配合下表现卓越的是FUTR3D系统。例如,PointPainting系统被特意构建来处理高分辨率LiDAR数据以及图像信息,然而在同一输入条件下,FUTR3D展现出更优异的表现
(4)FUTR3D凭借多种传感器配置展示了卓越的灵活性,并采用了一种适用于自动驾驶场景的低成本感知系统。在nuScenes数据集上的实证结果表明,在相同的硬件条件下,FUTR3D能够以4个激光雷达光束和摄像头图像捕捉空间环境,并在该数据集上达到了58.0 mAP。值得注意的是,其性能优于仅使用32个激光雷达光束的传统方法。
二、整体框架

FUTR3D 概述如下:每个传感器模态独立地采用自身坐标进行编码。随后通过MAFS模块,在每个查询点处从所有传感器模态中提取特征。最终阶段中,解码器模块利用查询信息生成3D边界框预测;随后将该预测结果作为反馈输入至MAFS模块以及解码器模块中以进一步优化。
FUTR3D整体框架可以分为四个部分:
由不同传感器模态产生的数据可以利用它们各自特有的特征编码器来进行处理;
本研究采用基于查询的模态独立特征采样器(MAFS)来依据查询启动点完成所有模态特征的采样与聚合。
(3)随后使用共享的Transformer解码器头,并结合迭代优化模块基于融合特征优化边界框定位;
(4)整体损失是基于预测和GT之间的集合到集合匹配。
三、核心方法
3.1 Modality-specific Feature Encoding
FUTR3D自适应地从每种模式中学习特征。基于该框架无需对所使用的模态或其模型架构做出任何假设,从而使得该模型能够灵活适应各种特征编码器的选择。主要关注的是以下三种数据类型:LiDAR 点云、雷达点云以及多视图相机图像。
该系统采用VoxelNet对该类Lidar点云数据进行编码处理。通过上述网络架构处理后,在不同尺度下生成多维度BEV特征图:

其中,C是输出通道,

是第j个BEV特征图的大小。
对于 Radar 数据,由于其通常较为稀疏且分辨率较低,进而 FUTR3D 通过将雷达点聚合成固定尺寸的柱状体 (pillars),接着利用多层感知机 (MLP) 对每一个柱状体进行特征提取,具体而言

柱状化为0.8米的柱体,采用MLP Φrad 获得每个柱子的特征

,其中Cro表示编码Radar特征的数量,得到Radar的BEV特征图:

对于多种摄像头视角的数据而言,在ResNet或VoVNet模型基础上结合FPN网络进行图像特征提取操作后,在每个输入图像中生成不同尺度的特征表示

表示第k个图像。
3.2 Modality-Agnostic Feature Sampler
FUTR3D的核心模块是特征采样过程这一技术环节,并被命名为MAFS的技术模块。用于检测的对象集合作为输入。

(每个查询对应一个潜在的目标对象),以及来自各个传感器的特征信息。MAFS被设计为从每个传感器要素中采样相应的特征并融合它们以更新各个查询。具体来说,这个过程分为以下几个步骤:
初始化3D参考点:首先使用

个3D参考点

随机初始化查询,其中
表示3D空间中的相对坐标。然后,此 3D 参考点用作从多个源收集特征的锚点。
初始参考点不受任何传感器采集的信息影响,并且会在综合多种信息源后持续进行调整。
每个查询的3D参考点

是在3D空间中随机初始化的,通常这些参考点的坐标值落在一个单位立方体
内。这意味着每个点的x、y、z坐标都是从0到1的随机数。
这种初始化方法确保了参考点在空间中的均匀散布,并使模型能够根据实际情况动态调节这些关键点的位置。
在初始化阶段所设定的关键位置被称为'锚定点'(anchor),其主要作用是收集和提取来自不同传感器数据的各种特征信息。
LiDAR 点特征采样:经过3D backbone和FPN之后的点云特征表示为

然后借助可变形注意力机制,在各个比例下的特征图中提取K个采样点,并将其汇总起来;对于每个查询的3D参考点

,采样公式如下:

其中,

是参考点在BEV上的投影,

表示第i个参考点的采样Lidar点特征,

分别是预测的采样偏移和注意力权重,

表示来自 BEV 特征图的双线性采样。
Radar点特征采样:与 LiDAR 特征采样类似:

其中,

分别表示预测的采样偏移量和注意力权重。
Camera图像特征采样:基于相机内部和外部参数将参考点c投射至相机图像k上,并记录投影后参考点的位置信息。

其中,

其中那个指的是将3D参考点ci投射至第k个摄像头图像平面的过程所得之坐标值;即该值对应于第k个摄像头所处位置下的第j层特征图。
对于每一个3D参考点(例如,在前面的处理步骤如MAFS初始化或已经更新过的点),必须将其投影至二维图像平面。这个过程涉及将三维空间中的点转换为二维图像中的位置信息,并考虑相机内部参数(如焦距f和光心坐标cx, cy)以及外部参数(即相机在世界坐标系中的位置和平移方向)。
在将三维参考点投射至二维图像平面后,在相应的二维特征图中提取采样特征,并通过插值方法(如双线性插值)实现这一过程以确保精确地从连续的特征图中提取出所需特征值。
与模态无关的特征融合:是指在完成对各模态采样后的特征提取后进行非线性组合以更新查询信息的过程。具体而言,在各子空间中分别获取对应的样本表示之后,在每个子空间中分别获取对应的样本表示之后,在每个子空间中分别获取对应的样本表示之后,在每个子空间中分别获取对应的样本表示之后

其中,

在融合后的每个query特征中采用concat连接的方式进行处理后
然后,将参考点的位置编码

加入到融合特征中,使得具有位置感知能力,最后通过

不断更新query。其中,

然后,使用自注意力模块和 FFN 更新对象查询。
3.3 Iterative 3D Box Refinement
该系统采用transformer架构的解码器模块,并将其设计为多层结构。每层都可以接收上一层的输出结果,并对查询和预测进行逐步细化。
对于每个对象查询

采用一个共享的多层感知机(MLP)Φreg模块来计算box中心坐标的偏移量、box尺寸变化量以及方向和速度的变化量;另一个分支网络Φcls则专注于预测物体分类标签的偏移量。
采用最后一层中间位置坐标的预测作为每个查询的三维参考点,并非第一层的情况。它直接解码并作为输入对象进行查询。下一层的参考点由以下公式给出:

3.4 Loss
每一次预测都会与其真实标注数据进行比较,并用于计算出每个预测样本与其真实标签之间的匹配程度。其中包含分类相关的Focal Loss以及边界框回归用的L1 Loss。
集合到集合的匹配损失函数采用了匈牙利算法这一组合优化技术,在最低成本下实现资源最优分配问题的求解;该算法旨在通过系统性方法将任务与代理之间建立最优配对关系(或者将预测结果与实际目标进行精确配准)。
在目标检测任务中,该算法的工作模式包括设定一个成本矩阵...其中该矩阵中的每一个元素都对应着一个预测框与一个真实标注之间的匹配成本...这种匹配关系本质上是将预测结果映射到真实对象的过程...而计算这一匹配成本时,则主要考虑的因素包括预测框与真实框在位置上的差异、尺寸上的偏差以及类别识别的错误情况等
匈牙利算法旨在寻找这样一个最优匹配方案,在保证系统效率的同时实现整体的最低匹配成本。其结果表明每个预测样本都能唯一映射到其对应的标注样本上,并最终达到全局最优解时所具有的最低总成本。
四、实验结果

nuScenes 测试集结果

nuScenes va上相机结合低分辨率 LiDAR 结果
FUTR3D 在性能上显著优于使用低分辨率LiDAr的CenterPoint和PointPainting;不仅在摄像头加4光束LiDAr配置下实现了58.0 mAP(mAP代表平均精度),还超越了配备32光束LiDAr(56.6 mAP)的最大先进LiDAr探测器CenterPoint。

nuScenes val 集上的摄像机-雷达融合结果

FUTR3D 的定性评估结果。通过将LiDAR点投射至图像中以呈现透视视角图。(a) 在远处可见一辆被红色圆圈标识的汽车;基于具有32波束激光雷达探测器无法检测到该车辆。(b) 当仅凭视觉观察时,在使用红色标出的部分会被误判为人行道上的行人;这一现象可通过单光束LiDAR技术加以纠正。

基于 nuScenes 测试集实现摄像机 backbone 的消融效果。结果显示第一行仅呈现了 LiDAR 版本的 FUTR3D 结果。

基于nuScenes验证集对辅助LiDAR头部实施消融效果的研究。该头部仅参与lidar分支的训练过程,并作为联合训练的一部分运行。其损失权重设置为0.5

按对象类别划分的性能细分

按物体距离划分的性能细分

按对象大小划分的性能细分
