Advertisement

【多模态融合】SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection

阅读量:

论文链接:SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection

代码链接: 暂无

作者: Hongcheng Zhang, Liu Liang, Pengxin Zeng, Xiao Song, Zhe Wang

发表单位: 商汤科技、四川大学

会议/期刊:

一、研究背景

人们提出了各种方法来彻底探索激光雷达和相机模式中的补偿信息。传统的多模态 3D 对象检测方法通常将两种模态转换为统一的空间以进行特征融合。例如,PointPainting及其变体用图像像素特征装饰原始点云(统一转换为点云 的形式)。 BEVFusion将图像视图特征转换为密集的 BEV 空间,以与 LiDAR 特征融合(统一转换为BEV空间的形式)。密集范式近年来取得了显着的成功,但面临着繁琐的视图转换,导致高延迟、有限的检测距离和有限的上限性能。

最近的工作引入了一种基于稀疏查询的范例 ,无需显式视图转换。一些开创性的稀疏检测器使用全局注意力在一个 或两个阶段聚合多模态特征。然而,详尽的全局注意力掩盖了稀疏范式的优势,使其难以从长期时间信息中受益。最近,一系列工作探索了完全稀疏范式该范式不使用全局注意力和密集 BEV 查询。例如,像 FUTR3D 和 DeepInteraction 这样的工作使用参考点从两种模式 中采样特征。尽管取得了巨大进步,这些方法仍然落后于其密集的工作。因此,与密集检测器相比,完全稀疏的多模态检测器是否能够实现卓越的性能仍然是一个悬而未决的问题。

本文介绍了 SparseLIF,这是一种高性能完全稀疏多模态 3D 物体检测器,其性能优于所有其他密集对应检测器和稀疏检测器。 SparseLIF 通过在查询生成、特征采样和多模态融合 三个方面增强丰富 LiDAR 和相机表示的感知来弥补性能差距。

本文的贡献如下:

(1)发现弥补稀疏检测器和密集检测器的性能差异关键在于查询生成、特征采样和多模态融合这3个方面增强对激光雷达和相机特征空间丰富表示的感知;

(2)提出一种高性能全稀疏检测器。用于基于 LiDAR 相机的 3D 物体检测。所提出的框架包含三个关键设计:透视感知查询生成(PAQG),它增强了查询建议对高分辨率图像中丰富上下文的透视感知; RoI-Aware Sampling (RIAS),通过跨两种模态采样互补的 RoI 特征来有效地细化先前的查询; 不确定性感知融合(UAF),在量化模态不确定性的指导下进行最终的多模态融合;

(3)进行了全面的实验来证明提出的方法的有效性。SparseLIF 在 nuScenes 数据集上的性能优于所有最先进的 3D 对象检测器,在验证集和测试基准上均排名第一。

二、整体框架

SparseLIF 的整体架构

这是一种基于LiDAR和相机的完全稀疏 3D 物体检测器。

该框架包含一个用于处理多视图的相机主干和一个用于编码原始点云的激光雷达主干。然后,将图像特征输入到透视感知查询生成(PAQG)模块中以生成查询。查询将通过 RoI 感知采样 (RIAS) 模块与相机和 LiDAR 功能进行交互,以提取补充功能以进一步细化。接下来,不确定性感知融合(UAF)模块量化两种模态的 RoI 特征的不确定性,并自适应地进行最终的多模态融合。解码器重复L次得到最终的检测结果。

对于相机特征提取主干,采用常见的ResNet、V2-99和FPN提取多视图、多尺度和多帧的特征,可以表示为 X_{athrm{cam}}=athcal{X}{athrm{cam}}^{psilon mt}{psilon=1,m=1,t=1}^{V,M,T},其中V、M和T表示为摄像机视图的数量、特征尺度和时间帧。

对于激光雷达特征提取主干,采用常见的VoxelNet和FPN提取多尺度Lidar特征,表示为 X_{athrm{lid}}=eftx_{athrm{lid}}{r}\right}_{r=1}{R},其中R表示激光雷达特征尺度。

以相机特征作为输入,透视感知查询生成(PAQG)模块(第 3.1 节)采用耦合的 2D 和单目 3D 图像检测器来预测和生成具有透视先验的高质量 3D 查询。然后,这些查询将通过 RoI 感知采样 (RIAS) 模块与相机和 LiDAR 功能进行交互,以提取 RoI 功能以进一步细化。接下来,不确定性感知融合(UAF)模块(第 3.3 节)量化两种模态的 RoI 特征的不确定性,并自适应地进行多模态融合以进行最终 3D 对象预测。

三、核心方法

3.1 Perspective-Aware Query Generation

最近的工作通常基于 3D 空间中随机分布的参考点、锚框或支柱生成查询,并作为网络参数进行优化,而不管输入数据如何。然而,在 2D 检测中已经证明,这种与输入无关的查询将需要额外的努力来学习将查询建议移向GT对象目标。如下图所示,可视化基于查询的 3D 检测器和 2D 检测器的预测,其中 2D 检测器通常对远处和小物体表现出出色的感知能力。受2D检测优势的驱动,PAQG模块充分利用感知能力生成3D查询,从而辅助最终3D检测。

(a) 3D 探测器在探测远距离和小物体时,灵敏度较低。 (b) 2D 探测器在此类物体上表现出出色的像素感知能力。 (c) PAQG 模块采用耦合的 2D 和单目 3D 子网络在透视损失的监督下预测密集框。然后,选择排名靠前的框来提出高质量的查询,然后通过交叉注意模块与相机功能进行交互。

PAQG的具体方法如下:

使用2D(FCOS)和单目3D子网络(FCOS3D)在多视图多尺度图像特征 𝑥𝑐𝑎𝑚 上进行操作。3D子网络预测每个视角中物体的3D属性,如深度d、旋转角度、尺寸和速度。同时,2D子网络预测对应的2D属性,如中心坐标、置信度和类别标签。对于每个视图v,结合摄像机的外参E和内参I,将2D框中心投影到3D空间中:
athbf{c{3D}}=E_{v}{-1}I_{v}^{-1}.

3D 中心 c^{3D} 将与预测的大小、旋转角度和速度结合形成 3D 框。然后,在 3D 空间中执行非极大值抑制(NMS)来过滤相交框,并选择按置信度得分排名靠前的 𝑁𝑘 框,并作为查询的初始点。
q_{i}=rac{1}{|athcal{V}|}um_{vnathcal{V}}um_{m=1}^{M}athcal{BS}

其中, athcal{P}_{athrm{cam}}^{v}使用相应的相机参数将3D中心点c_{i}^{3D} 投影到第v个图像。此外,v表示"命中视图"的集合,即在这些视图中3D目标有对应的2D投影。这是选择那些在给定视角下可以"看到"某个3D对象的视图的过程。BS表示双线性采样函数,这是一种在图像处理中常用的插值方法,可以用来从2D图像中根据给定坐标获取精确的像素值。在这里,它用于从2D图像的特定位置采样特征,这些位置对应于从3D空间投影下来的点。

由于有些对象可能在查询生成过程中被忽视,因此PAQG模块保留了𝑁𝑟个随机初始化的查询盒,以增加检测的全面性和鲁棒性。这意味着除了基于透视信息生成的查询外,还随机添加了一些查询点,以尝试捕获可能被常规方法遗漏的对象。

最终,PAQG模块生成的总查询提案数为 𝑁𝑞 = 𝑁𝑘 + 𝑁𝑟,其中𝑁𝑘是基于透视信息生成的查询数目,𝑁𝑟是随机初始化查询数目。这种方法结合了基于数据生成和随机化方法,旨在提高检测算法对于远距离和小型目标的感知能力。

3.2 RoI-Aware Sampling

RoI 感知采样 (RIAS) 模块负责对每种模态的 RoI 特征进行采样,以细化通过 PAQG 模块使用透视先验初始化的查询 Q=q_i_{i=1}{N_q}\subset\mathbb{R}C。目标是定位感兴趣区域(RoI)来采样特征,而不需要借助繁琐的全局注意力,从而享受低复杂性并受益于长期时间信息。

对于激光雷达部分:

受 Deformable Attention的启发,仅对每个查询 𝑞𝑖 参考点,以从 LiDAR 特征图 𝑥𝑙𝑖𝑑中检索 RoI 特征 F_{athrm{lid}}{ik}}_{k=1}{K}
F_{athrm{lid}}^{ik}=um_{r = 1}^{R} BSigigdotigma_{athrm{lid}}^{irk},

其中,ci是全局3D空间种查询qi的边界框中心,p lid将中心投影到Lidar的BEV空间,BS表示双线性采样函数,此外, elta_{athrm{lid}}^{irk} igma ^{irk} _{lid}分别表示查询qi预测的采样偏移量和注意力权重,以覆盖敏感对象上的ROI,这里和全局注意力不一样,因为仅仅与参考点的几个特征进行交互,从而采样完全稀疏的范式。

对于相机部分:

采用K=4参考点进行采样(K值为4意味着对于每一个生成的查询,系统会从与3D查询相关的2D图像特征图中选取四个参考点来提取特征),从相机视图Xcam的hit视图v中检索RoI特征:
F_{athrm{cam}}{itk}=\frac{1}{|\mathcal{V}|}\sum_{\upsilon\in\mathcal{V}}\sum_{m=1}{M}BSigigdotigma_{athrm{cam}}^{ipsilon mtk},

其中, P_{cam}^{vt}是使用相机参数和时间对齐从全局3D空间到特征坐标的投影函数。此外,也有类似上文的采样偏移和注意力权重。

总结如下:

(1)查询与特征图的对应: 首先,将3D查询(3D中心点)通过相应的投影变换映射到各个模态的特征图上。这一步骤确保了查询与特征图之间的空间对应关系。

(2)选择参考点: 在每个查询对应的特征图区域内,系统会选择K个参考点。这些点的选择基于特定的策略,如均匀分布、基于注意力的选择或其他启发式方法。

(3)特征提取: 从每个参考点提取特征。这通常涉及到在参考点周围采样并应用双线性插值(或其他插值方法)来获取精确的特征值。

(4)特征聚合: 提取的特征经过聚合(如加权平均、最大池化等),形成一个代表整个查询区域的综合特征向量。

RoI-Aware Sampling过程

同时,作者还采用了Channel-Spatial Correlation Aware Mixing,通过同时考虑特征的通道和空间相关性,优化模型处理特征的方式。具体过程如下:

(1)通道关系建模: 首先通过一个线性变换(如全连接层或1x1卷积)来映射输入特征,以建立特征之间的通道关系。这一步的目的是重新组织和加强特征在通道维度上的表达,使得每个通道能够捕捉到更丰富的语义信息。
egin{aligned} W_c& =athrm{Linear}nathbb{R}^{Cimes C}   athbf{M}_{c}& =athrm{ReLU}igig, nd{aligned}

其中,检索得到的RoI特征会被组织成 fnathbb{R}^{Simes C} ,其中S=K或者S=TxK用于Lidar或相机特征,T是时间,K是采样点。查询是qi,转换特征是f。Wc是不同时间戳和不同采样点之间共享的通道相关性。接着使用转置特征将空间相关性建模到其空间维度。

(2)空间关系建模: 随后,通过另一个线性变换来建模特征在空间上的相关性。这通常涉及到特征矩阵的转置和再次应用线性变换,以此来强化特征在各个空间位置上的互动。
egin{aligned} W_{s}& =athrm{Linear}nathbb{R}^{Simes S}   athbf{M}_{s}& =athrm{ReLU}igig, nd{aligned}

其中,Ws是不同通道共享的空间相关性。

(3)特征混合: 通过这两步的处理,每个特征不仅在通道内部得到了加强,而且在空间布局上也更加紧密相关。这些特征随后通过激活函数(如ReLU)和归一化层(如LayerNorm)进行非线性变换和标准化,以进一步提升模型的表达能力。

(4)特征聚合: 最后,经过通道和空间增强的特征通过池化或其他聚合方式合成最终的特征表示,用于下一步的目标检测或分类任务。

3.3 Uncertainty-Aware Fusion

自动驾驶 3D 物体检测中传感器噪声的可视化。 (a) 有限的视场角:以正面方式安装的激光雷达产生有限的视场角,例如 120度 (b) 物体故障:某些物体(例如黑色汽车)的反射率低于激光雷达的阈值,因此没有反射激光雷达点。 (c) 相机遮挡:相机模块通常容易受到遮挡(例如灰尘)。

考虑到2种模态的RoI特征,不确定感知模块UAF旨在赋予融合模块针对传感器噪声的鲁棒性,如图所示。为此,将对每种模态的不确定性的认识注入到融合模块中,即
q_i=f_{UA},

其中𝑞𝑖和𝑓 𝑈⁢𝐴分别是精炼查询特征和不确定性感知融合函数。此外,𝑈 cam和𝑈 lid是两种模态的不确定性。

论文这部分内容写的很玄乎,可以简化如下:

(1)不确定性量化:

使用 𝑈𝑠 表示某传感器,比如相机和激光雷达的不确定性;

不确定性 𝑈𝑠 是通过是通过比较预测的3D边界框和真实的3D边界框的距离来计算的。具体地,使用欧几里得距离 𝐷𝑥𝑦 来测量预测框和真实框在水平平面(BEV)上的距离差异;

公式可以表示为 U_s=1-expig,Bigig,

其中,f reg是一个回归函数,用于从特征Fs预测边界框,B是真实框。

(2)不确定性修正:

因为在模型运行时通常无法访问真实的边界框 B,所以不确定性的计算需要用到一个距离预测器 f dist​ 来估算 𝐷𝑥𝑦​。

修正后的不确定性估计公式为: at{U}_{s}=1-xpeftight,

这里 f dist​ 是一个基于多层感知机(MLP)的距离预测模型,用来估计特征 Fs​ 和目标的距离。

(3)不确定性感知融合:

最后,融合函数 f UA 使用加权的方式结合不同传感器的特征,权重由不确定性U决定。

融合的特征表示为: q_{i}=FFNig,F_{athrm{lid}}dotigig,

其中,Cat 表示连接操作,FFN 表示前馈神经网络,用于最终融合处理。通过这种方式,不确定性较低的模态将对融合结果产生更大的影响。

不确定性感知示意图

四、实验结果

实验细节:使用基于 PyTorch 的开源 MMDetection3D实现 SparseLIF。 XY 轴和 Z 轴的检测范围为[−54⁢𝑚,54⁢𝑚]和[−5⁢𝑚,3⁢𝑚]。采用 FCOS3D 预训练的 V2-99作为输入图像尺寸1600×640的图像主干。采用 VoxelNet作为体素大小(0.075⁢𝑚,0.075⁢𝑚,0.2⁢𝑚)的 LiDAR 主干网。总查询数𝑁𝑞为900,包括 PAQG 模块生成的𝑁𝑘=200个查询。透视检测器由耦合的 FCOS和 FCOS3D子网络实现。轻量级距离预测器𝑓𝑑⁢𝑖⁢𝑠⁢𝑡由两层FFN实现。解码器重复𝐿=6次。在以下实验中,报告了两个 SparseLIF 检测器的最先进性能:单帧检测器 SparseLIF-S (𝑉=6、𝑀=4、𝑅=4、T=1),时间多帧检测器 SparseLIF-T (𝑉=6、𝑀=4、𝑅=4和 T=13)。V是相机视图数量、M是相机特征尺度、R是激光雷达特征尺度、T是时间帧。

每个模型均使用 AdamW 优化器在8个 NVIDIA Tesla-A100 GPU 上进行端到端训练,总批量大小为8。为了公平比较,应用稀疏检测头中常用的查询去噪策略来解决不稳定的匹配问题。每个模型都训练24个epoch ,学习率为2⁢𝑒−4。

表 1:SparseLIF 与 nuScenes 测试基准上所有最先进的 3D 检测器的定量比较。模态的概念:相机 (C)、激光雷达 (L) 和时间 (T)。 † :使用外部训练数据; ‡ :使用 TTA 和复杂模型集成(例如具有不同体素大小、BEV 大小、主干/FPN/头的模型); § :对于 SparseLIF-T,只使用非常简单的自模型集成,

表 2:SparseLIF 与 nuScenes 验证集上所有最先进的 3D 检测器的定量比较。模态的概念:相机 (C)、激光雷达 (L) 和时间 (T)。 † :具有额外的 CBGS 训练策略。请注意,所有方法都使用相应的最佳单一模型,无需 TTA 或模型集成进行比较。

表 3:SparseLIF 在 nuScenes 验证集上的消融研究。

表 4:基于 SparseLIF-S,PAQG 模块在检测距离和小目标类别方面的性能分析。由于相应的注释不可用, 𝐴⁢𝑃 锥形交通路标 (T.C.) 和 30⁢𝑚 处障碍物的分数缺失。

表 5:多模态探测器在具有挑战性的场景下的鲁棒性研究:LiDAR 故障、相机故障和不同步。缩写:施工车辆 (C.V.)、行人 (Ped.) 和交通锥 (T.C.)。

LiDAR FoV 角度 120 有限场景下的鲁棒性可视化。将每个框涂成绿色和红色以进行预测和GT。

特别解释一下表5的内容:

Fov: 在这个测试场景中,模拟LiDAR传感器的视野角度(Field of View, FOV)被限制。具体地,通过过滤掉LiDAR点数据来模拟120°和180°的视野角度,这意味着只有在这些角度范围内的点被保留,其余的点被视为不可见。测试系统在视野受限时对物体的检测能力,这对于评估系统在不同驾驶环境(如狭窄的街道或拥挤的交通)中的表现至关重要。

Object Failure: 在这种情况下,选择50%的帧,并在这些帧中随机丢弃50%的对象点。这可以通过在选定帧的数据中随机删除一定比例的目标点来实现。模拟在实际操作中可能遇到的传感器失效或数据损失情况,比如由于环境因素或传感器故障导致的数据丢失。

Front Occlusion: 通过将前置摄像头的图像全部设为零值来模拟视觉传感器被完全遮挡的情况。这意味着前置摄像机捕获的所有图像数据都无法使用。测试系统在摄像头视野被遮挡(如被泥土、雨滴或其他物体遮挡)的情况下的表现。

Stuck: 模拟传感器数据不同步的情况,即在50%的帧中,系统错误地接收到了前一时刻的数据。例如,本应在时间 𝑡 接收的数据,却接收到了时间 𝑡−1的数据。评估系统在传感器数据时序错误时的处理能力,这种情况在实际应用中可能由于传感器硬件问题或通信延迟导致。

全部评论 (0)

还没有任何评论哟~