【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection
该框架旨在构建鲁棒的三维物体建模方法,并通过多源传感器数据融合实现精确识别与重构。
研究者开发了一种创新性方法来解决传统扩散模型在雷达与相机之间数据对齐的问题。
文中提出了一种新的多尺度特征提取机制以提升模型的泛化能力。
实验结果表明所提出的框架能够有效提高检测与建模性能。
1. 引言
本文采用概率去噪扩散模型的方法详细阐述了基于概率去噪扩散模型的可微雷达-相机融合框架。通过校正矩阵将雷达点云投影至图像平面后,在基于特征编码器和BEV的Transformer检测与解码架构中实现了信息降噪。
在雷达-图像编码器系统中,在线处理过程中首先运用去噪扩散模型(DDM)对准好的雷达信号进行处理,在随后的过程中通过检索高级语义信息来进行关键点匹配。经过语义信息嵌入后,在后续阶段DDM能够借助前景引导完成相应的关联工作。随后将整合得到的相关联的雷达数据与图像信息输入到解码器系统中,在解码器系统中同样会在二维空间以及深度方向上引入查询去噪机制以优化整体性能
3. 方法

本文的工作分为两个主要模块:(1)基于雷达与图像的一一对应配准机制,在实现两者的有效关联过程中应用全局注意力机制提取语义信息,并结合带有语义嵌入的去噪扩散模型实现全可微性地关联这两者的信息;(2)针对BEV解码器设计,在物体定位信息上施加去噪操作后引入多轮贝叶斯推理过程以恢复物体的空间位置信息
3.1 雷达-图像关联
该图像经主干提取出其特征I_F\in\mathbb{R}^{N\times C\times H\times W}。
因雷达缺乏高度测量而无法直接获取三维信息,在CenterFusion中采用柱体扩张技术沿着z轴方向扩展雷达点云。
随后经过多雷达和车辆运动补偿的多帧累积处理,并将结果叠加至图像上生成R_F.
3.2 使用DDM进行全局感知的关联

带语义嵌入的设计思路(DDM) 的架构如图所示。首先构建从投影扩展雷达特征至噪声特征图的扩散过程,并随后训练模型执行逆向传播任务。其中去噪模型 \epsilon_\theta 由两组高效轻量设计(基于2D卷积层、ReLU激活函数及批量归一化层)构成。此外,在整合到雷达信号的过程中,默认基于图像生成并结合目标检测框架以获取目标信息。为了提升性能表现,在训练过程中通过优化马尔科夫链的负对数似然函数来实现参数更新目标
其中具体而言就是\bar\alpha_t=\prod_{i=1}^t,\alpha_t=1-\beta_t, 而\beta_t则代表前向扩散过程中第t步所对应的方差值. 模型中的映射函数\phi_e负责将语义信息转化为低维嵌入表示: 首先将图像空间中的特征经过最大池化操作并将其数值范围限定在(0,1)区间内; 接着将这些特征按照均匀分割后的某个数量级范围进行分组, 并通过字典编码将其映射起来.
此外
其中\sigma_t为与步长相关的、无需训练的常数;t>1时,z\sim N(0,I),t=1时z=0。
基于语义关联查询:以图像语义特征作为查询与键,在去噪雷达特征基础上进行提取;输入注意力模块:
其中\psi^a_{att}表示注意力机制 + 输出变形,P^a_{q,k,v}表示拉直 + 投影。
随后,在对变量X进行操作时
其中变量X, X_S, X_C均属于\mathbb{R}^{N\times C\times H\times W}空间中的元素。随后通过加权求和的方式计算融合特征X_{fu}:
3.3 带定位去噪的BEV解码器
对于使用Transformer解码器的模型,引入3D边界框中心回归的查询去噪。
基于从带高斯噪声的物体标签采样的数据集生成的 D 组去噪查询,在每个批次中配置足够的去噪查询数量 N_D ,类似于针对去噪查询训练参数掩蔽注意力的操作。仅采用常规可学习查询机制解码 3D 边界框。令初始物体查询初始化为 Q_0, 对应的噪声定位基线位置编码查询记作 Q_0^{xyz}, 设定 Transformer 网络第 i 层的操作符定义为 \phi_i, 则下一层次状态信息计算式可表示为:
Q_{i+1} = \phi_i\left(\psi_{\text{enc}}(X_{\text{fu}}), Q_i, Q_i^{\text{xyz}}\right)
其中\psi_{enc}为特征投影。
该模型采用Transformer架构设计了解码器模块(如图所示)。其输入包含两部分信息:去噪组信息与可学习信息。具体而言,在注意力机制中:来自加噪真实值的去噪信息在处理时仅能关注到可学习信息以及本组内的去噪信息;而单独存在的可学习信息则在注意力计算中仅能关注到自身同类的信息。通过更新优化后的去噪信息进行重构恢复以恢复原始真实值,并利用更新后的可学习特征进行3D边界框预测任务;整个过程所采用的损失函数计算方法与传统Transformer架构下的解码器完全一致。

3.4 去噪框架的损失函数
在降噪准备阶段通过一对一匹配初始化得到的去噪查询组与常规可学习查询一样,在融合特征交互的同时也实现了相似度计算功能。总损失为:
\mathcal{L}=\gamma_1\mathcal{L}_{DDM}+\gamma_2\mathcal{L}_{reg}+\gamma_3\mathcal{L}_{cls}+\gamma_4\mathcal{L}_{xyz}
在分类任务中采用了focal损失,在回归模块则基于L1损失函数设计。同时,在xyz方向的重建方面源自于DN-DETR模型中的重建机制。
4. 实验与结果
4.3 与基准方案比较
加入本文提出的降噪手段,在基于BEVDet、PETR与BEVFormer(均为图像单一模态方法)的基础上,并均有所提升,在速度估计精度方面表现突出。
4.4 与SotA比较
相较于仅依赖相机单一模态或融合雷达与相机的数据进行监督的传统方法,本文提出的方法在NDS评估指标中位居榜首,并不仅显著超越了现有的两阶段融合方法CenterFusion及CRAFT
4.5 网络分析
降噪雷达与相机结合的系统框架的分析:通过实验研究发现,在基于PETR方法论的情况下依次增加雷达关联模块、DDM技术以及语义嵌入模型,并分别实施2D和3D查询降噪策略后能够显著提升整体性能。
带语义嵌入的DDM模型分析:当DDM模型的输入由未经噪声处理的雷达特征转为加入噪声后的特征时,其性能会有所降低。这反映出雷达传感器固有的模糊特性。
关于雷达特征的分析:基于雷达的距离信息和速度信息能够有效辅助实现3D目标检测的效果;然而,在此基础之上进一步引入RCS(散射截面积)信息并未带来显著性能提升。
