Advertisement

【论文笔记】SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection

阅读量:

原文链接:https://arxiv.org/abs/2403.07284

简介:由于无需密集BEV特征表达而具有低延迟特性的稀疏3D检测器受到了广泛关注,但其性能略逊于密集检测器。本文提出的SparseLIF是一种完全稀疏的端到端多模态3D目标检测器,并包含以下三个主要创新设计:(1)基于透视先验的高质量3D查询生成(PAQG),通过利用透视感知生成精确且丰富的查询;(2)RoI感知采样的RIAS机制,在各模态中从区域采样特征以细化先验查询;(3)不确定性感知融合UAF模块,在各模态之间量化并自适应融合不确定性信息以增强传感器鲁棒性表现。实验结果表明,在NuScenes数据集上SparseLIF实现了最优性能。

0. SparseLIF概述

在这里插入图片描述

通过图像主干网络及FPN架构提取多视图、多层次以及多帧的信息,并将其表示为矩阵形式 X_{cam} = \{x_v^m_t\}_{v=1,m=1,t=1}^{V,M,T} 其中 V 代表相机的不同视图数目 M对应于各个尺度上的特征数量 T表示时间上的不同帧。此外 通过3D LiDAR主体架构及其FPN模块抽取多层次的空间信息 并将其表示为 X_{lid}= \{x_r\}_{r=1}^R} 其中 R 表示激光雷达的不同尺度数目

该系统中的透视感知模块(PAQG)集成了一种二维与单目三维图像探测器组合,在应用中能够有效获取并处理二维图像数据以及单目三维空间数据之间的关联信息以实现精确的目标识别任务需求。随后引入RoI感知采样机制(RIAS),该机制将获取到的目标区域信息与图像像素数据以及激光雷达测得的空间信息进行交互进而从目标区域中提取并细化相关区域特征。最后引入不确定性感知融合机制(UAF),该机制通过量化目标区域特征求 uncertainty 的同时实现了多源感知信息的最佳融合以提升三维目标检测性能

1. 透视感知的查询生成

当前的方法普遍采用可学习查询机制,在这种情况下将难以将无法直接关联于输入的真实值的相关查询项引导至其近邻位置。通过可视化结果可以看出,在二维检测中对远处目标及小型物体具有更好的识别能力。基于这一观察发现,在本研究中我们通过二维检测所获得的透视关系作为基础,在此基础上构建三维搜索索引以实现三维空间中的精确定位

在这里插入图片描述

PAQG中的轻量级透视检测器由融合的二维和单目三维子网络构成,在图像处理过程中同时完成对目标物体中心点坐标(c_x,c_y)及其置信分数和分类标签的估计;与此同时,在不同视角下分别计算深度d、旋转角、尺寸参数以及运动速度信息。根据相机的内外参数矩阵E_vI_v进行逆变换后将检测到的框中心点映射至三维空间中以实现精确定位

该区域提取出三维特征c^{3D}后会与预估尺寸、旋转角度以及速度参数进行组合运算以生成完整的三维边界框。随后将执行非极大值抑制操作并基于置信度分数筛选出前N_k个候选边界框接着利用交叉注意力机制对图像特征进行初始化以形成查询向量:
q_i=\frac{1}{|\mathcal{V}|}\sum_{v\in \mathcal{V}}\sum_{m=1}^{MBS}(X_{cam}^{vm},P_{cam}^v(c_i^{3D}))

通过将3D中心c_i^{3D}经过投影到视图v上,在图像空间中生成对应的二维坐标点集。其中\mathcal V代表可视为有效的投影视图数量,并且该过程确保了不同视角下的几何一致性。具体地,则定义BS()函数用于双线性采样以恢复丢失的细节信息。为了捕捉被忽视的物体特征,在这一阶段我们还引入了额外的随机初始化框来覆盖潜在的目标区域。从而总共生成了新的查询候选框集合,并计算出最终的总数量为 N_q = N_k + N_r 个候选区域。

实验表明,PAQG模块能明显提高小物体的远距离物体的检测性能。

2. RoI感知的采样

输入查询Q=\{q_i\in\mathbb R^C\}_{i=1}^{N_q},需要采样各模态的RoI特征以进行细化。

本研究将激光雷达分支定义为基于可变形注意力机制的技术框架。在此框架下,我们通过可变形注意力机制,在每个查询q_i的基础上采样四个关键点,并提取对应的区域-of-interest RoI 特征\{F_{lid}^{ik}\}_{k=1}^K,其中参数c_i+\Delta_{lid}^{irk}用于定位所需关注区域,并结合加权函数\sigma_{lid}^{irk}进行特征融合计算得到最终结果

其中c_i代表查询q_i在三维空间中的中心位置,而P_{lid}则将该中心点投影至激光雷达的鸟瞰图(BEV)空间中。\n\n此外,在预测过程中所使用的采样偏移量与注意力权重均以特定的方式被建模,并通过贝叶斯推断框架进行联合估计。\n\n具体而言,在贝叶斯推断框架下所得到的结果表明:通过引入自适应采样策略能够有效提升整体性能。\n\n值得注意的是,在贝叶斯推断过程中引入了自适应采样策略后系统的性能得到了显著提升。\n\n最后,在贝叶斯推断过程中引入自适应采样策略后系统的性能得到了显著提升

图像分支部分中,请注意以下几点:(a)每个查询q_i都会从特征图中检索相关RoI特征;(b)通过采样四个关键点来增强特征提取效果;(c)所有计算均基于预定义的参数设置;(d)实验结果表明该方法能够有效提升识别准确率

其中P^{vt}_{cam}为3D空间到特征空间的投影函数(进行时间对齐后)。

通道与空间相关性的融合:将检索的RoI特征记为f\in\mathbb R^{S\times C}, 其中S=K(激光雷达)或S=T\times K(图像)。

通过q_i建模通道相关性来提升f的语义特征:
数学公式如下:
W_c=\text{Linear}(q_i)\in\mathbb R^{C\times C}
以及

M_c(f)=\text{ReLU}(\text{LayerNorm}(fW_c))

其中变量W_c代表时空帧与采样位置间的通道关联关系。继而构建空间相关模型:

\text{Linear}(q_i) \rightarrow \mathbb R^{S \times S}

M_s(f) = \text{ReLU}(\text{LayerNorm}(f^\top W_s))

其中W_s为跨通道的空间相关性。最后,将特征拉直,并通过线性层聚合。

3. 不确定性感知的融合

在这里插入图片描述

针对各模态的RoI特征F_{cam}F_{lid}进行提取后,在UAF融合过程中旨在通过该方法实现模型对传感器失效状态的抗性增强(如图所示)。

融合可记为:
\bar Q=f_{UA}(F_{cam},U_{cam},F_{lid},U_{lid})

具体来说,在这种情况下

在精确定位方面具有重要意义的基础上

我们采用f_{reg}作为边界框的映射关系,并将D^{xy}定义为基于BEV的欧式距离指标。由于实际边界框难以获得数据支持,在这种情况下,默认通过使用距离预测器来估计这些参数,并根据RoI(区域-of-interest)特征提取的信息来推断出相应的距离值。通过使用f_{dist}(F_s)作为计算U_s的核心函数部分,在方程中应用指数运算以求得最终结果。

其中f_{dist}为距离预测器(MLP)。

该函数用于不确定性感知,并采用不确定性加权拼接的方式进行融合。即该函数即为此类基于不确定性的加权拼接融合方法。
\bar q_i=FFN(Cat(F_{cam}(1-\hat U_{cam}),F_{lid}(1-\hat U_{lid})))

这样,UAF量化了各模态的不确定性,指导模型关注更可靠的模态。

具体实施流程:采用查询去噪策略进行处理。
延迟分析:实验结果表明,在核心组件部分(包括PAQG、RIAS、UAF模块等)中所消耗的时间非常有限。

全部评论 (0)

还没有任何评论哟~