论文速览 | CVPR 2024 | RCBEVDet: Radar-camera Fusion in Bird‘s Eye View for 3D Object Detection | 雷达-摄像头
本文提出了一种名为RCBEVDet的多模态融合方法,结合了多视角摄像头和毫米波雷达,用于鸟瞰视图下的3D目标检测。该方法通过设计的RadarBEVNet提取雷达特征,并利用跨注意力多层融合模块(CAMF)对齐和融合多模态特征,显著提高了检测精度和鲁棒性。实验结果表明,RCBEVDet在nuScenes和VoD数据集上表现优异,展示了高精度和实时性。尽管在计算复杂度和数据依赖性方面存在不足,但该方法为3D目标检测提供了新的解决方案。
论文速览 | CVPR 2024 | RCBEVDet: Radar-Camera Fusion in Bird’s Eye View for 3D Object Detection | 雷达-摄像头融合鸟瞰视图3D目标检测的深度解析
关键词:雷达-摄像头融合 、3D目标检测 、鸟瞰视图 、多模态融合

1 引言
在自动驾驶技术发展中,三维目标检测被视为一个关键任务,已取得显著进展。过去,该任务主要依赖于昂贵的LiDAR传感器,但随着成本问题日益突出,研究者们开始探索使用多视角摄像头作为替代方案。值得注意的是,仅凭摄像头难以实现高精度且鲁棒的三维目标检测。因此,本文提出了一种结合多视角摄像头和毫米波雷达的多模态融合方法,旨在提高3D目标检测的准确性和鲁棒性。

2 动机
相机能够精准捕获物体的颜色、纹理等细节信息,并提供高分辨率的语义数据。然而,在深度信息获取和恶劣天气、低光环境等条件下,其表现则相对受限。相比之下,毫米波雷达则在距离测量和速度估计方面表现出色,无论是在哪种天气条件或光照环境下,都能稳定可靠地运行。基于这两种传感器的协同优势,我们能够实现更加全面、可靠且高效的多模态3D目标检测。
3 方法
3.1 RCBEVDet的整体架构
改写说明

3.2 RadarBEVNet
RadarBEVNet由两大核心模块构成:双路雷达主干网络和基于RCS的BEV编码器。
3.2.1 双流雷达骨干网
双流雷达骨干网主要由点基编码器和变压器基编码器构成。点基编码器通过多层前馈网络(MLP)处理每个雷达点,而变压器基编码器则通过分析雷达点间的交互关系来更新其特征。为了更有效地融合这两种特征信息,我们设计并引入了特征注入模块和特征提取模块。

具体来说,点基编码器的处理过程可以表示为:
f = \text{Concat}[\text{MLP}(f), \text{MaxPool}(\text{MLP}(f))].
变压器基编码器采用距离调制自注意力机制(DMSA) ,其公式为:
\text{DMSA}(Q, K, V) = \text{Softmax}\left(\frac{QK^\top}{\sqrt{d}} - \frac{1}{\sigma^2} D^2\right)V.

3.2.2 RCS感知BEV编码器

RCS感知BEV编码器基于雷达横截面(RCS)作为估计物体尺寸的基础信息,将雷达点的特征信息扩散到多个BEV像素区域中。具体的RCS感知散射操作公式为:
G_{x,y} = \exp\left(-\frac{(c_x - x)^2 + (c_y - y)^2}{\frac{1}{3}(c_x^2 + c_y^2) \cdot v_{RCS}}\right).
最终的RCS感知BEV特征通过MLP得到:
f'_{RCS} = \text{MLP}(\text{Concat}(f_{RCS}, G_{RCS})).
3.3 跨注意力多层融合模块(CAMF)

考虑到在实际应用中,雷达点云数据往往伴随着方位误差,我们通过引入可变形跨注意力机制,动态实现多模态特征的对齐,其计算公式如下:
变形注意力机制\text{DeformAttn}被定义为:\text{DeformAttn}(z_{qr}, p_{qr}, F_c) \triangleq \sum_{m=1}^{M} \sum_{k=1}^{K} A_{mqk} \cdot W'_m F_c (p_{qr} + \Delta p_{mqk})。
然后,我们使用通道和空间融合层 聚合多模态BEV特征。
4 实验和结果
4.1 实验设置
基于BEVDepth构建RCBEVDet模型,相机数据继承第一阶段的权重,后续阶段融合雷达与相机数据进行训练。所有模型均在RTX 3090显卡上进行推理,采用单批次处理并采用FP16精度计算。
4.2 主要结果
在nuScenes 数据集中,RCBEVDet在不同骨干网架构下展现出显著的竞争力,尤其是在整体性能指标(NDS)和速度误差(mAVE)方面(表1)。在**视频对象检测数据集(VoD)**上,RCBEVDet实现了最新的基准水平(表3)。



4.3 消融实验
在RCBEVDet的主要组件中,我们进行了消融实验(见表4)。每个组件均显著提升了3D检测性能。


4.4 鲁棒性分析
我们对传感器失效情况下的鲁棒性分析进行了深入研究(见表7)。RCBEVDet在所有传感器失效情况下均展现出显著的鲁棒性。

5 不足和未来展望
改写说明:将"尽管"改为"然而",使句子结构更简洁;将"取得了显著进展"改为"展现出显著的性能优势",使表达更加专业;将"存在一些不足之处"改为"仍存在一些需要改进的地方",使表达更加丰富。改写后句子保持了原意,同时降低了重复率。
- 计算负荷:双流雷达骨干网和多头自注意力机制显著提升了计算负荷,可能对实时性产生一定影响。
- 数据敏感性:模型性能高度依赖于训练数据的质量和多样性。
未来的研究方向可以包括:
- 提升计算效率:研究融合与特征提取的高效方法。
- 提升模型的鲁棒性:采用多样化的数据增强技术和无监督学习方法,以提升模型在多场景适应性上的能力。
6 总结
本研究开发了一种名为RCBEVDet的新方法,通过集成使用多视角摄像头和毫米波雷达,成功实现了高精度且具有良好鲁棒性的3D目标检测。该方法通过开发RadarBEVNet 有效提取雷达BEV特征,并结合使用CAMF模块 实现了动态对齐和特征融合。实验结果表明,RCBEVDet在两个数据集上均实现了最新的先进水平,同时具有较高的实时性和鲁棒性。
