论文速览 | CVPR 2024 | CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distil
论文预览 | CVPR 2024 | CRKD为:改进型相机-雷达目标检测方法及其知识蒸馏技术研究
摘要

Project Page: https://song-jingyu.github.io/CRKD/
1 引言
在自动驾驶领域中,3D目标检测被视为实现安全自主导航的关键核心技术之一。然而,在现有的传感器配置中,激光雷达-相机融合系统(LiDAR-Camera, LC)尽管表现出色,但由于高昂的成本限制了其在普通消费市场的应用范围。相比之下,相机-雷达融合系统(Camera-Radar, CR)凭借其较低的成本和广泛的应用场景成为研究的热点焦点,但目前该系统的性能仍明显落后于LC系统。针对这一技术瓶颈问题,本文提出了一种创新性的基于跨模态知识蒸馏方法(Cross-modality Knowledge Distillation, CRKD)的新框架设计,旨在缩小LC与CR检测系统的性能差异

2 动机
在自动驾驶感知系统中,多种传感器集成技术显著提升了检测精度与抗干扰能力。尽管LC方案最优但其高昂的成本限制了普通市场的应用。相比之下相机-雷达方案因其卓越的抗恶劣天气与光照变化的能力以及经济性逐渐成为主流选择然而由于雷达数据稀疏度与噪声污染等问题仍面临设计高性能CR探测器的重大挑战本文正是源自于此通过运用跨模态知识蒸馏方法从优异的LC探测器中萃取专业知识从而助力CR探测器性能提升
3 方法

3.1 模型架构改进
在此前的BEVFusion 架构上进行了优化,并引入了自适应门控机制来实现各模态信息的有效融合。具体而言,在门控网络中所使用的特征生成公式如下:
\tilde{F}_{M1} = F_{M1} \times \sigma(\text{Conv}_{M1} (\text{Concat}(F_{M1}, F_{M2})))
\tilde{F}_{M2} = F_{M2} \times \sigma(\text{Conv}_{M2} (\text{Concat}(F_{M1}, F_{M2})))
其中,
\tilde{F}_{M1} 和 \tilde{F}_{M2} 分别对应着模态结构 M1 和 M2 的控制特性,
而 F_{M1} 和 F_{M2} 则分别对应于这两个模态结构中输入通道的空间映射关系。
其中,
\sigma 被定义为 Sigmoid 函数,
并且 \text{Conv}_{M1} 和 \text{Conv}_{M2} 分别对应于两个独立实现的卷积操作过程。
3.2 跨阶段雷达蒸馏(CSRD)
通常以稀疏形式呈现的雷达点云数据主要涉及物体级别的信息,在此基础之上激光雷达能够捕获更加详尽的几何细节。针对这一差异性问题我们开发了一种跨阶段蒸馏架构通过将LC教师网络预测的场景级物体热图引入作为监督信号以此指导雷达编码器优化其对场景级物体分布的学习能力。
CSRD损失函数 定义如下:
L_{csrd} = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} \left| \hat{Y}_{T, i,j} - \hat{F}_{S, r, i,j} \right|_1
其中,
代表将教师模型预测的热图在类别维度上进行平均处理的结果;
经过校准处理后得到的雷达特征图。
3.3 掩码缩放特征蒸馏(MSFD)
针对直接特征模仿在前景与背景不平衡场景下的局限性问题,在深入分析现有技术特点的基础上,我们创新性地提出了一个新的掩码缩放策略.该策略通过动态调节基于物体与目标之间的距离以及运动特性的前景区域尺寸,从而实现了更为精准的有效特征蒸馏过程.其损失函数的具体形式如下:
L_{msfd} = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} M_{i,j} \left\| F_{T, i,j} - F_{S, i,j} \right\|_2
3.4 关系蒸馏(RelD)
基于特征图构建余弦相似度矩阵的方法旨在以保持场景级几何关系的一致性为目标进行数据处理与分析,并通过优化算法实现对目标一致性的达成。其对应的损失函数定义为如下公式:
L_{reld} = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} \left| C_{T, i,j} - C_{S, i,j} \right|_1
其中,C_{i,j}表示特征图第(i)和第(j)位置的余弦相似度值。
3.5 响应蒸馏(RespD)
我们采用了响应蒸馏方法,并对各类别赋予不同的权重系数以区分不同目标的重要性。其损失函数的具体形式如下所示:
分类损失:
L_{cls} = \sum_{i=1}^{K} \text{QFL}(P_{T, Ci}, P_{S, Ci}) \times w_i
回归损失:
L_{reg} = \sum_{i=1}^{K} \text{SmoothL1}(P_{T, Bi}, P_{S, Bi}) \times w_i
4 实验和结果
基于nuScenes数据集展开了一系列实验研究。实验结果表明,在提升CR检测器性能方面,所提出的CRKD方案表现尤为突出。其中,在mAP和NDS两个关键指标上,所提出的方案较 baseline实现了分别3.5%和3.2%的提升。此外,在消融实验中发现各子模块均展现出显著的价值。
4.1 总体结果
在nuScenes验证集上的结果如下:


4.2 消融实验
我们对各个模块进行了消融实验,结果如下:

4.2.1 跨阶段雷达蒸馏(CSRD)

4.2.2 掩码缩放特征蒸馏(MSFD)


4.3 定性结果
我们呈现了相关检测结果于nuScenes数据集上,并突显了CRKD在减少误报和提高物体定位精度方面的显著优势。以下是两个具体的案例。
- 示例1:相较于学生模型,在检测物体的准确性方面CRKD表现出更高的水平,并且其误报率显著低于后者。
- 示例2:该算法在某些特定场景下表现优于基于教师模型的方法,并成功识别了教师模型漏检的车辆以及减少了其对应的误报数量。

5 不足和未来展望
尽管CRKD在提升CR检测器性能方面取得了显著成果,但仍存在一些不足:
- 实时性:当前方法在计算复杂度方面仍存在优化空间,在满足实时处理需求方面仍有提升余地。
- 鲁棒性:尽管CRKD框架在常规条件下表现优异,在极端天气和复杂环境条件下仍需进一步验证其鲁棒性。
- 扩展性:未来有望将其框架扩展至其他感知任务领域,并具体应用于如占用图绘制等场景中。
6 总结
本文创新性地构建了一种基于跨模态知识蒸馏的新型相机-雷达目标检测框架CRKD,在方法论上实现了技术突破。通过融合自适应注意力机制与多分支蒸馏损失函数,在提升检测器性能的同时显著增强了鲁棒性特征。实证研究表明该框架在提高检测器性能和鲁棒性方面具有显著优势。展望未来,随着相关技术的不断发展完善,CRKD有望进一步推动低成本、高可靠性自动驾驶感知系统的智能化发展。
