论文速览 | CVPR 2024 | RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Dis
论文速览 | CVPR 2024 | RadarDistill: Improving Radar-based Object Detection Performance via Knowledge Extraction from LiDAR Features | 通过从LiDAR特征中提取知识以提升基于雷达的目标检测性能
关键词 :雷达 、3D目标检测 、知识蒸馏 、LiDAR 、多模态融合

1 引言
在现代自动驾驶和机器人技术领域中,环境感知占据核心地位。尽管基于相机和LiDAR的三维感知技术已取得显著进展,并已在诸多应用场景中得到广泛应用[1]、[2]、[3]等文献报道显示其优异性能]。然而,在智能交通系统等实际应用中发现[4]指出其局限性在于价格高昂且易受外界环境干扰,在极端天气条件下表现欠佳;相比之下,在成本效益与可靠性方面具有明显优势的雷达传感器逐渐受到关注并得到广泛应用[5]、[6]等研究支持这一观点
本研究开发了一种名为RadarDistill的知识蒸馏方法。该方法基于LiDAR数据来增强雷达数据的表示能力。具体而言,RadarDistill整合了跨模态对齐机制(CMA)、基于激活的特征蒸馏策略(AFD)以及基于提案的特征蒸馏方法(PFD)。这三者协同作用实现了从源域与目标域之间的有效特征映射。
2 动机
雷达传感器尽管在复杂天气环境中表现优异(即恶劣天气条件下),但在图像清晰度方面却存在明显局限性,并容易受到多径效应的影响。传统的基于手工模型的目标识别方法虽然部分缓解了这些问题(即通过人工模型减少部分问题),但在相机和深度学习框架(如基于深度神经网络的DNN)以及LiDAR技术取得显著成果的情况下(即相机与LiDAR等技术结合深度学习取得了显著成果),雷达数据的技术进步仍然较为有限。
2.1 知识蒸馏的潜力
近年来,在跨模态知识迁移领域中,知识蒸馏(Knowledge Distillation, KD)技术取得了显著进展,并展现出显著的应用前景。例如,BEVDistill和DistillBEV等方法已取得显著成效,成功地将LiDAR特征转换为相机感知空间中的表征。尽管如此,将其应用于雷达数据仍然面临诸多挑战,特别是在考虑雷达数据所具有的稀疏特性和噪声干扰特性时,如何实现有效信息提取仍是一个待突破的关键环节。

3 方法

3.1 基线模型
基于PillarNet这一基准模型进行研究,在融合雷达与LiDAR点云数据的基础上构建了二维柱状特征表示方法。具体而言,在该框架中我们首先通过稀疏卷积编码器(SparseEnc)提取低层BEV特征信息;随后再结合密集卷积编码器(DenseEnc)对高层BEV特征进行提取;最后经过中心头网络整合后输出分类结果、回归信息以及IoU评估热图
3.2 跨模态对齐(CMA)

该方法通过多层扩张卷积操作来显著提升雷达BEV特征的空间密度,并旨在通过多层扩张卷积操作来实现LiDAR知识在雷达特征中的有效迁移。为了弥补 radar 数据与 LiDAR 数据在 non-zero column 数量上的显著差异, 该方法能够通过多层扩张卷积操作来显著提升 radar BEV 特征的空间密度
其中F_{mod}代表模态(雷达或LiDAR)类型,并由稀疏卷积编码器模块进行处理
3.3 基于激活的特征蒸馏(AFD)
Adaptive Feature Distillation (AFD) 在低层特征上实现了感知级的特征激活匹配。其激活掩码的定义基于以下公式:
M_{mod,i,j}^{(l')} = \begin{cases} 1, & \text{当 } F_{mod,i,j}^{(l')} > 0 \\ 0, & \text{其余情况} \end{cases}
在此框架下,Adaptive Feature Distillation (AFD) 基于激活区域(AR)与非激活区域(IR),实现了选择性蒸馏过程;同时通过调整各区域所占的比例来优化损失权重,并给出了相应的数学表达式:
W_{sep,i,j}^{(ln)} = \begin{cases} 
\alpha, & \text{若位置 }(i,j)\text{ 属于 activate 区域 AR(ln)} \\
\rho(ln) \times \beta, & \text{若位置 }(i,j)\text{ 属于 nonActivate 区域 IR(ln)} \\
0, & \text{其余情况}
\end{cases}
最终计算得到的 Adaptive Feature Distillation (AFD) 损失函数为:
L_{AFD} = \frac{1}{2} \sum_{n=1}^{2} L_{low}^{(n)}
3.4 基于提案的特征蒸馏(PFD)
PFD 基于高级层次的特征匹配实现提案级别的精确识别。该系统通过对比预测的雷达热图与实际观测数据来识别核心目标区域(即真阳性TP、假阳性FP及假阴性FN),并在此基础上完成相应的信号配准工作;特别地,在FP区域中抑制雷达信号的影响以提高检测准确性。
公式如下:
W_{proposal,i,j} = \begin{cases} \frac{\lambda_1}{N_{TP} + N_{FN}}, & \text{if } (i,j) \in (TP \cup FN) \\ \frac{\lambda_2}{N_{FP}}, & \text{if } (i,j) \in FP \\ 0, & \text{otherwise} \end{cases}
最终PFD损失为:
L_{PFD} = \frac{1}{2} \sum_{m=1}^{2} L_{high}^{(m)}
3.5 损失函数
总损失函数为:
L_{total} = L_{det} + \gamma L_{AFD} + \delta L_{PFD}
4 实验和结果
通过在nuScenes数据集上的实验,我们观察到的结果显示,在所有评价指标上的性能表现优于现有基于雷达的目标检测方法。
4.1 实验设置
采用nuScenes作为数据集进行研究,并基于mAP(平均精度)和NDS(Normalized Distance Score)两个指标进行评估。其中 PillarNet-18 作为基准模型,在该任务上取得了显著的性能表现。具体而言,在优化器的选择上,本研究采用了 Adam 优化器配合学习率设置为 0.001 的策略,并经过 40 个 epoch 的训练过程达到了预期效果。
4.2 性能比较
在nuScenes测试集上的性能对比如下:


4.3 消融实验
该系统还展开了消融实验分析,在深入评估各个组件对模型性能的影响程度时发现



5 不足和未来展望
虽然RadarDistill在基于雷达的目标检测方面展现出了卓越的效果,但该系统仍存在一定的局限性。
- 复杂性:从计算复杂度的角度来看,RadarDistill的学习过程具有较高的计算复杂度。
- 泛化性:建议对其在不同场景和数据集下的性能表现进行评估。
 
 
未来可以通过以下几个方向改进:
- 优化训练过程:通过精简训练环节并降低计算复杂度来提升效率。
 - 多模态融合:研究多种多样融合策略以提高检测的准确性。
 
6 总结
本文引入了RadarDistill系统,该系统借助于知识蒸馏技术,在雷达信号处理方面显著提升了基于雷达的3D目标检测能力。其中包含的关键组件包括CMA模块(覆盖复杂场景分析)、AFD算法(专注于频率域处理)以及PFD框架(支持多模态融合),这些模块成功地完成了从LiDAR特征到雷达信号处理中的关键特征迁移。经过一系列严谨的实验测试,在nuScenes数据集上的卓越性能验证了该方法达到了行业领先水平。
