Advertisement

【CVPR2024】RCBEVDet: Radar-camera Fusion in Bird’s Eye View for 3D Object Detection

阅读量:

原文链接:https://arxiv.org/abs/2403.16440

简介:为了降低成本,在实际应用中通常会选择多视角摄像头来实现对3D目标的检测;然而单一摄像头难以满足高精度与鲁棒性的要求。本研究提出了一种将毫米波雷达与摄像头相结合的方法,并命名为RCBEVDet(Bird's Eye View多模态3D目标检测)。该方法首先设计了RadarBEVNet模型用于提取雷达回波特征;该模型包含两个分支:一是基于点状特征的传统编码器;二是基于Transformer架构的设计;两部分通过注入与提取机制促进各编码器间的交互;同时,在另一分支中利用RCS信息作为物体尺寸的先验知识,并将其作用于点特征的空间分布;最后采用了一种基于可变形注意力机制的多层交叉融合模块来完成各模态特征的信息整合。实验结果表明,在标准数据集NuScenes与Vision of Driving (VoD)上所提出的RCBEVDet方法均达到了当前最优性能(State-of-the-Art, SotA),并且在运行效率上有明显提升。

0. 概述

如图所示,在图像分支中包含了图像编码模块、视角转换以及BEV编码器,并生成输出BEV特征。

1. RadarBEVNet

现有雷达-摄像头融合方法主要基于激光雷达点云设计的雷达编码器。本研究引入RadarBEVNet框架,实现高效提取雷达BEV特征。

1.1 双分支雷达主干

包含基于点的主干基于Transformer的主干

基于点集的主干部分提取局部特征,在其基本结构单元上与PointNet架构相似(通过MLP网络结合最大池化操作获取全局特征,并随后将各点处的特征信息进行拼接融合):

f=\text{Concat}[\text{MLP}(f),\text{MaxPool}(\text{MLP}(f))]

主要通过Transformer架构提取整体特征的信息,并将其分解为包含注意力机制、前馈网络以及归一化层的标准结构单元。鉴于自动驾驶应用范围较为广泛的需求,在本研究中我们提出了一种距离调制的自注意力机制(DMSA),在早期阶段整合邻域信息以提高模型收敛性。

基于给定数据集中的N个雷达点坐标信息,在后续步骤中首先计算所有样本间的两两之间距离矩阵D\in\mathbb R^{N\times N};随后构建具有类高斯分布特性的加权图G

G_{i,j}=\exp(-D^2_{i,j}/\sigma^2)

其中\sigma被定义为一个可训练参数,在调节类高斯分布的带宽方面发挥重要作用。该权重图则负责将接近位置的位置赋予更高的权重。

\begin{aligned}\textit{DMSA}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = & \textit{Softmax}\left(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{n}} + \ln G\right)\mathbf{V} \\ = & \textit{{Softmax}}\left(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{n}} - \frac{{D}^{2}}{{σ}^{2}}\right)\mathbf{V}\end{aligned}

在训练过程中,本文将β=1/σ²视为可调节参数,并指出当β取零值时DMSA退化为自注意力机制。每一个多头分支模型均具有独立设定的β参数值:

\texttt{\textbackslash texttt{\unicode{lthree}}MegaHD-DMCSA}函数通过将各个分支单元的结果进行拼接来实现多维特征融合机制。\其中每个分支单元\mathcal{lthree}_i通过应用\texttt{\textbackslash texttt{\unicode{lthree}}}MegaHD-DMCSA操作从对应的特征子空间中提取特征并进行非线性变换。\具体而言,在第i个分支单元中\mathcal{lthree}_i = \mathcal{lthree}\left(\bm{x}_i;\theta_l{(i)}\right)$经过激活函数处理后与全局语义表示向量$\bm{s}_g{(l)}进行加权融合。\最后将所有分支单元的输出按列向量形式拼接形成最终的特征表示向量\bm{o} \in \mathbb{lthree}^{C\times D}$。

此外,在研究过程中我们还开发了一个基于交叉注意力的融合提取机制 ,旨在促进各主干之间的信息交互与知识共享。其中令f_p^if_t^i分别代表两个主干第i层的输出特征向量,在于融合阶段时将前者作为查询信号、后者作为键与值信号进行操作后会将传统的Transformer特征表示融入到点特征之中:

f_p^i=f_p^i+\gamma\times\text{CrossAttn}(\text{LN}(f_p^i),\text{LN}(f_t^i))

其中\text{LN}为层归一化,\gamma为可学习缩放参数。

类似地,提取操作 会使用交叉注意力提取点特征:

f_t^i=\text{FFN}(f_t^i+\text{CrossAttn}(\text{LN}(f_t^i),\text{LN}(f_p^i)))

1.2 RCS感知的BEV编码器

当前雷达的BEV编码器通常基于坐标将点特征投影至体素网格中,并通过垂直维度的压缩来获取BEV特征。然而这会使得得到的BEV特征较为稀疏。不断叠加更多的BEV编码层将会导致较小物体的特征会被过度模糊至背景区域。

本文开发了基于雷达信号处理(RCS)感知的BEV编码器系统,在该系统中, RCS反映了被探测目标的质量特性. 一般来说,较大质量的目标会产生更高的雷达回波强度, 因此在大多数情况下,RCS大致表示了目标物的大致尺寸.

本文重点讨论了基于RCS感知的BEV编码器的设计与实现过程。该编码器的关键创新在于对单个空间点进行智能分配策略,在满足精度要求的前提下实现了对多维信息的有效融合。具体而言,在特征提取阶段,系统通过计算每个空间点对应的RCS值作为权重系数,在二维投影平面上构建多分辨率采样网络;在编码优化环节,则采用动态调整机制以平衡空间分辨率与计算复杂度之间的关系

给定某雷达点的坐标c=(c_x,c_y)、RCS值v_{RCS}、特征f和BEV像素坐标p=(p_x,p_y),本研究将特征f扩散到该点p及其邻近区域(c_x^2+c_y^2)\times v_{RCS}范围内的像素上。如果一个像素被分配了多个特征,则执行求和池化操作以合并结果。这样能够生成对应的BEV特征f_{RCS}

此外,对每个点,还引入类高斯的BEV权重图:

G_{x,y}=\exp(-\frac{(c_x-p_x)^2+(c_y-p_y)^2}{\frac13(c_x^2+c_y^2)\times v_{RCS}})

通过计算所有点的BEV权重图的最大值后,则能够获得最终的BEV权重图G_{RCS};基于此,在下述公式中可以获取RCS感知的BEV特征

f'_{RCS}=\text{MLP}(\text{Concat}[f_{RCS},G_{RCS}])

最后一步将该特征量与原始BEV特征进行融合运算,并输入至BEV编码器中。

2. 交叉注意力多层融合模块

2.1 使用交叉注意力进行多模态特征对齐

因雷达点云的水平角偏差较大,在实际应用中可能会导致检测到的点位位于物体外部区域。本研究中采用交叉注意力机制来实现多模态特征的动态对齐。

本文使用可变形交叉注意力来捕捉雷达特征的位置偏差并减小计算。

考虑给定图像I及其对应的鸟视图(BEV)特征表示\{F_c, F_r\}其中F_c\in\mathbb R^{C_c\times H\times W}表示类别特征图而F_r\in\mathbb R^{C\times H\times W}表示雷达特征图随后,在其基础上添加位置编码信息随后将雷达特征转换为两个独立的向量即查询向量q_r = z_{q_r}} 和 参考向量p_{q_r}} 同时将其视为关键路径上的关键点与背景区域之间的关系模型构建过程在这一过程中主要关注于如何通过可变宽度自适应注意力机制(如图中所示的绿色分支模块)实现跨模态信息的有效融合最终得到更新后的雷达BEV特征表示\hat{F}_r = f(F_c, F_r)

\text{DefromAttn}(z_{q_r},p_{q_r},F_c)=\sum_{m=1}^MW_m[\sum_{k=1}^KA_{mqk}\cdot W'_mF_c(p_{q_r}+\Delta p_{mqk})]

具体而言,M代表注意力头部的数量,K代表取样点数,Δp_mqk代表取样偏移值,A_mqk代表注意力权重值,根据z_q_r和F_c进行计算

类似地,交换F_rF_c,再进行一次可变形交叉注意力,更新F_c图中蓝色分支)。

2.2 通道和空间融合

如图中棕色分支所示。

综上所述

全部评论 (0)

还没有任何评论哟~