【CVPR2024】RCBEVDet: Radar-camera Fusion in Bird’s Eye View for 3D Object Detection

阅读量：

简介：为了降低成本，在实际应用中通常会选择多视角摄像头来实现对3D目标的检测；然而单一摄像头难以满足高精度与鲁棒性的要求。本研究提出了一种将毫米波雷达与摄像头相结合的方法，并命名为RCBEVDet（Bird's Eye View多模态3D目标检测）。该方法首先设计了RadarBEVNet模型用于提取雷达回波特征；该模型包含两个分支：一是基于点状特征的传统编码器；二是基于Transformer架构的设计；两部分通过注入与提取机制促进各编码器间的交互；同时，在另一分支中利用RCS信息作为物体尺寸的先验知识，并将其作用于点特征的空间分布；最后采用了一种基于可变形注意力机制的多层交叉融合模块来完成各模态特征的信息整合。实验结果表明，在标准数据集NuScenes与Vision of Driving (VoD)上所提出的RCBEVDet方法均达到了当前最优性能（State-of-the-Art, SotA），并且在运行效率上有明显提升。

0. 概述

如图所示，在图像分支中包含了图像编码模块、视角转换以及BEV编码器，并生成输出BEV特征。

1. RadarBEVNet

现有雷达-摄像头融合方法主要基于激光雷达点云设计的雷达编码器。本研究引入RadarBEVNet框架，实现高效提取雷达BEV特征。

1.1 双分支雷达主干

包含基于点的主干 和基于Transformer的主干 。

基于点集的主干部分提取局部特征，在其基本结构单元上与PointNet架构相似（通过MLP网络结合最大池化操作获取全局特征，并随后将各点处的特征信息进行拼接融合）：

$f=\text{Concat}[\text{MLP}(f),\text{MaxPool}(\text{MLP}(f))]$

主要通过Transformer架构提取整体特征的信息，并将其分解为包含注意力机制、前馈网络以及归一化层的标准结构单元。鉴于自动驾驶应用范围较为广泛的需求，在本研究中我们提出了一种距离调制的自注意力机制（DMSA），在早期阶段整合邻域信息以提高模型收敛性。

基于给定数据集中的 $N$ 个雷达点坐标信息，在后续步骤中首先计算所有样本间的两两之间距离矩阵 $D\in\mathbb R^{N\times N}$ ；随后构建具有类高斯分布特性的加权图 $G$

$G_{i,j}=\exp(-D^2_{i,j}/\sigma^2)$

其中 $\sigma$ 被定义为一个可训练参数，在调节类高斯分布的带宽方面发挥重要作用。该权重图则负责将接近位置的位置赋予更高的权重。

$\begin{aligned}\textit{DMSA}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = & \textit{Softmax}\left(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{n}} + \ln G\right)\mathbf{V} \\ = & \textit{{Softmax}}\left(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{n}} - \frac{{D}^{2}}{{σ}^{2}}\right)\mathbf{V}\end{aligned}$

在训练过程中，本文将β=1/σ²视为可调节参数，并指出当β取零值时DMSA退化为自注意力机制。每一个多头分支模型均具有独立设定的β参数值：

$\texttt{\textbackslash texttt{\unicode{lthree}}MegaHD-DMCSA}$ 函数通过将各个分支单元的结果进行拼接来实现多维特征融合机制。\其中每个分支单元 $\mathcal{lthree}_i$ 通过应用 $\texttt{\textbackslash texttt{\unicode{lthree}}}MegaHD-DMCSA$ 操作从对应的特征子空间中提取特征并进行非线性变换。\具体而言，在第 $i$ 个分支单元中\mathcal{lthree}_i = \mathcal{lthree}\left(\bm{x}_i;\theta_l^{{(i)}\right)$经过激活函数处理后与全局语义表示向量$\bm{s}_g}{(l)} $进行加权融合。\最后将所有分支单元的输出按列向量形式拼接形成最终的特征表示向量$ \bm{o} \in \mathbb{lthree}^{C\times D}$。

此外，在研究过程中我们还开发了一个基于交叉注意力的融合提取机制 ，旨在促进各主干之间的信息交互与知识共享。其中令 $f_p^i$ 和 $f_t^i$ 分别代表两个主干第 $i$ 层的输出特征向量，在于融合阶段时将前者作为查询信号、后者作为键与值信号进行操作后会将传统的Transformer特征表示融入到点特征之中：

$f_p^i=f_p^i+\gamma\times\text{CrossAttn}(\text{LN}(f_p^i),\text{LN}(f_t^i))$

其中 $\text{LN}$ 为层归一化， $\gamma$ 为可学习缩放参数。

类似地，提取操作 会使用交叉注意力提取点特征：

$f_t^i=\text{FFN}(f_t^i+\text{CrossAttn}(\text{LN}(f_t^i),\text{LN}(f_p^i)))$

1.2 RCS感知的BEV编码器

当前雷达的BEV编码器通常基于坐标将点特征投影至体素网格中，并通过垂直维度的压缩来获取BEV特征。然而这会使得得到的BEV特征较为稀疏。不断叠加更多的BEV编码层将会导致较小物体的特征会被过度模糊至背景区域。

本文开发了基于雷达信号处理（RCS）感知的BEV编码器系统，在该系统中, RCS反映了被探测目标的质量特性. 一般来说,较大质量的目标会产生更高的雷达回波强度, 因此在大多数情况下,RCS大致表示了目标物的大致尺寸.

本文重点讨论了基于RCS感知的BEV编码器的设计与实现过程。该编码器的关键创新在于对单个空间点进行智能分配策略，在满足精度要求的前提下实现了对多维信息的有效融合。具体而言，在特征提取阶段，系统通过计算每个空间点对应的RCS值作为权重系数，在二维投影平面上构建多分辨率采样网络；在编码优化环节，则采用动态调整机制以平衡空间分辨率与计算复杂度之间的关系

给定某雷达点的坐标 $c=(c_x,c_y)$ 、RCS值 $v_{RCS}$ 、特征 $f$ 和BEV像素坐标 $p=(p_x,p_y)$ ，本研究将特征 $f$ 扩散到该点 $p$ 及其邻近区域 $(c_x^2+c_y^2)\times v_{RCS}$ 范围内的像素上。如果一个像素被分配了多个特征，则执行求和池化操作以合并结果。这样能够生成对应的BEV特征 $f_{RCS}$ 。

此外，对每个点，还引入类高斯的BEV权重图：

$G_{x,y}=\exp(-\frac{(c_x-p_x)^2+(c_y-p_y)^2}{\frac13(c_x^2+c_y^2)\times v_{RCS}})$

通过计算所有点的BEV权重图的最大值后，则能够获得最终的BEV权重图 $G_{RCS}$ ；基于此，在下述公式中可以获取RCS感知的BEV特征

$f'_{RCS}=\text{MLP}(\text{Concat}[f_{RCS},G_{RCS}])$

最后一步将该特征量与原始BEV特征进行融合运算，并输入至BEV编码器中。

2. 交叉注意力多层融合模块

2.1 使用交叉注意力进行多模态特征对齐

因雷达点云的水平角偏差较大，在实际应用中可能会导致检测到的点位位于物体外部区域。本研究中采用交叉注意力机制来实现多模态特征的动态对齐。

本文使用可变形交叉注意力来捕捉雷达特征的位置偏差并减小计算。

考虑给定图像 $I$ 及其对应的鸟视图（BEV）特征表示 $\{F_c, F_r\}$ 其中 $F_c\in\mathbb R^{C_c\times H\times W}$ 表示类别特征图而 $F_r\in\mathbb R^{C\times H\times W}$ 表示雷达特征图随后，在其基础上添加位置编码信息随后将雷达特征转换为两个独立的向量即查询向量 $q_r = z_{q_r}} 和参考向量$ p_{q_r}} 同时将其视为关键路径上的关键点与背景区域之间的关系模型构建过程在这一过程中主要关注于如何通过可变宽度自适应注意力机制（如图中所示的绿色分支模块）实现跨模态信息的有效融合最终得到更新后的雷达BEV特征表示 $\hat{F}_r = f(F_c, F_r)$

$\text{DefromAttn}(z_{q_r},p_{q_r},F_c)=\sum_{m=1}^MW_m[\sum_{k=1}^KA_{mqk}\cdot W'_mF_c(p_{q_r}+\Delta p_{mqk})]$

具体而言,M代表注意力头部的数量,K代表取样点数,Δp_mqk代表取样偏移值,A_mqk代表注意力权重值,根据z_q_r和F_c进行计算

类似地，交换 $F_r$ 与 $F_c$ ，再进行一次可变形交叉注意力，更新 $F_c$ （图中蓝色分支）。

2.2 通道和空间融合

如图中棕色分支所示。

综上所述

全部评论 (0)

还没有任何评论哟~

【CVPR2024】RCBEVDet: Radar-camera Fusion in Bird’s Eye View for 3D Object Detection

原文链接：<https://arxiv.org/abs/2403.16440 简介：为减小成本，实践中往往使用多视角摄像头进行3D目标检测，但仅依赖摄像头难以达到高精度和鲁棒性。本文将毫米波雷达与摄像...

论文速览 | CVPR 2024 | RCBEVDet: Radar-camera Fusion in Bird‘s Eye View for 3D Object Detection | 雷达-摄像头

论文速览CVPR2024RCBEVDet:RadarcameraFusioninBird’sEyeViewfor3DObjectDetection雷达摄像头融合鸟瞰视图3D目标检测的深度解析关键词：...

BEVSimDet：Simulated Multi-modal Distillation in Bird’s-Eye View for Multi-view 3D Object Detection

参考代码：BEVSimDet 1\.概述介绍：在模型实际部署过程中由于实际传感器缺失、计算资源限制等因素，导致对实际部署的模型裁剪，自然性能也会存在下降。

CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection

动机 Toexploittheradarinformationinthissetting,radarbasedfeaturesneedtobemappedtothecenteroftheircorre...

DG-BEV：Towards Domain Generalization for Multi-view 3D Object Detection in Bird-Eye-View

参考代码：[暂无] 1\.概述介绍：BEV算法部署过程中会遇到camera的变化，这个变化包含了相机内外参数，其中内参决定了成像物体在图像中的大小，外参决定了物体成像的位置。

点云检测之TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object Detection

TransCAR是密歇根州立大学在2023年发表在IROS上的一篇论文论文地址：TransCAR 文章目录前言一、TransCAR 二、CameraNetwork 三、RadarNetwork ...

【论文速读】BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

文章目录概要整体架构流程创新点模型性能概要 BEVDet，提出了一种在鸟瞰图（BEV）中执行3D目标检测的新范式，以应对这一挑战。BEVDet能够高效地处理多相机数据，并直接在BEV空间中进...

【CV论文精读】EarlyBird: Early-Fusion for Multi-View Tracking in the Bird’s Eye View

【CV论文精读】EarlyBird:EarlyFusionforMultiViewTrackingintheBird’sEyeView 0.论文摘要多视图聚合有望克服多目标检测和跟踪中的遮挡和漏检挑...

【论文笔记】Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers

原文链接：<https://arxiv.org/abs/2312.14919 1\.引言多模态融合时，由于不同模态有不同的过拟合和泛化能力，联合训练不同模态可能会导致弱模态的不充分利用，甚至会导致比...

【CVPR2024】CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distillation

原文链接：<https://arxiv.org/abs/2403.19104 简介：3D目标检测任务中，目前性能最优的传感器配置为激光雷达+摄像头（LC），但激光雷达的成本较高。毫米波雷达与摄像头（C...

是否确定退出登录?

【CVPR2024】RCBEVDet: Radar-camera Fusion in Bird’s Eye View for 3D Object Detection

0. 概述

1. RadarBEVNet

1.1 双分支雷达主干

1.2 RCS感知的BEV编码器

2. 交叉注意力多层融合模块

2.1 使用交叉注意力进行多模态特征对齐

2.2 通道和空间融合

全部评论 (0)

相关文章推荐

【CVPR2024】RCBEVDet: Radar-camera Fusion in Bird’s Eye View for 3D Object Detection

论文速览 | CVPR 2024 | RCBEVDet: Radar-camera Fusion in Bird‘s Eye View for 3D Object Detection | 雷达-摄像头

BEVSimDet：Simulated Multi-modal Distillation in Bird’s-Eye View for Multi-view 3D Object Detection

CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection

DG-BEV：Towards Domain Generalization for Multi-view 3D Object Detection in Bird-Eye-View

点云检测之TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object Detection

【论文速读】BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

【CV论文精读】EarlyBird: Early-Fusion for Multi-View Tracking in the Bird’s Eye View

【论文笔记】Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers

【CVPR2024】CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distillation