【论文笔记】DPFT: Dual Perspective Fusion Transformer for Camera-Radar-based Object Detection
原文链接:https://arxiv.org/abs/2404.03015
简介:我们设计了一种称为双视角融合Transformer(DPFT)的方法。通过低分辨率雷达观测数据(即雷达张量),我们能够有效存储更多的信息。同时利用四维雷达信号,在相机成像域及其地面投影区域进行数据整合。该模型在K-Radar基准测试中表现出最优性能,并且对极端天气状况表现出高度鲁棒性,并且推理速度显著加快。

0. 方法概述
DPFT应对多模态融合的主要障碍在于其在传感器感知空间维度、数据表示层面以及分辨率层次感方面的限制。

首先采用包含更多信息的雷达张量,并缩小了其与图像分辨率之间的差距。随后基于4D雷达张量构建两个投影:一个是沿着图像平面方向设计的投影矩阵用于实现图像与雷达数据的有效融合;另一个则是垂直于该方向的投影矩阵以便能够捕获其他维度的独特信息。同时在任何一个模式失效的情况下也不会影响整体性能
1. 数据准备
传统雷达信号在与图像平面垂直的BEV表示中出现融合困难。鉴于此问题本文采用4D雷达张量模型进行处理;然而该方法的数据处理计算量较大且将图像空间提升至三维后与雷达数据融合仍面临较大挑战。为此本研究将雷达信号投影至距离-水平角(RA)和平面以及水平角-俯仰角(AE)平面进行分析。
基于文献及对数据子集的敏感性研究,在投影过程中选取了幅值与多普勒值的最大值、中值与方差作为特征参数。同时将雷达张量中头三个与尾部三个单元格进行排除处理,以此来消除在AE投影过程中由离散快速傅里叶变换(DFFT)产生的伪影影响
此外,使用双线性插值将图像缩小,以减小计算量。
2. 特征提取
各输入分别输入三个主干和颈部网络。
雷达系统采用的两个投影视角分别用于图像处理与三维重建(其中图像所用主干架构均为经过了基于ImageNet的数据预训练;此外,在主干网络之前设置了1\times1卷积层以调整通道数量)。
颈部网络(FPN)负责对齐多尺度特征和原始数据的通道维度,并交换信息。
3. 传感器融合
该模块能够直接从单一输入提取融合特征。因此无需构建统一的特征空间。采用多头可变形注意力机制后,在每个参考点周围固定数量的关注键上进行操作,并通过线性层将捕获到的关注特征进行融合以实现目标检索。
参考点被定义为其在二维视图中的投影位置;同时,在三维空间中作为查询节点的锚定点,则初始化为极坐标系下的均匀分布样本点,并且这些特征通过从均匀分布中随机采样获得。
4. 目标检测
预测边界框中心的位置将通过迭代机制传递到注意力层,并与之前提取的查询特征一起以便进一步细化定位区域。
检测头由三个线性层以及特定的激活函数组成。其中用于处理三维中心点的激活函数为恒等函数;用于处理边界框尺寸的激活函数为ReLU;用于处理俯仰角的激活函数为双曲正切函数(该参数实际预测的是其正弦与余弦值);用于分类任务的激活函数为Sigmoid,并将输出的最大值对应的类别作为预测结果。
5. 模型训练
使用DETR方法的集合之间的映射关系涉及两个主要方面的结合:一方面通过focal分类损失项进行类别区分度优化;另一方面通过L1回归损失项实现目标定位的精确性提升。
总结
