点云检测之TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object Detection
TransCAR是由密歇根州立大学于今年基于IROS发表的一篇论文
论文地址:TransCAR
文章目录
前言
- 
五、Box Encoding and Loss Function
 - 
- Box Encoding
 - Loss
 
 - 
总结
 
前言
DETR3D是一种基于三维目标检测的技术发展,在二维目标检测技术的基础上实现了空间维度的拓展。该系统通过相机内外参数获取将三维点投影至图像平面的能力,并结合输入图像提取相应的特征表示。为了进一步提升检测精度与鲁棒性,DETR3D采用了借鉴自Deformable DETR中的迭代边界框优化策略。相关技术细节可参考:DETR3D原理分析与代码解读、DETR3D:将DETR用于3D目标检测任务。
一、TransCAR
相机网络基于环视图像生成更新后的vision object queries, 雷达网络通过对点云实施特征提取和位置编码, 将更新后的vision object queries与点云特征结合以实现融合.该网络架构如图所示.

二、Camera Network
本文基于nuScenes数据集展开研究,在输入端采用六个摄像头收集主车周围360度环视图像,并结合初始3D物体查询信息后输出更新后的3D物体查询结果。该网络架构利用ResNet-101模型与特征金字塔网络(FPN)提取多尺度图像特征,并通过六层Transformer解码器模块生成更新后的3D物体查询信息。每一层解码器均基于前一层输出进行操作并传递信息以提升检测精度。
为了实现目标,在第一层Transformer解码器中初始化900个可学习的初始3D物体查询集合Q⁰={q₀₁,q₀₂,…,q₀_N}(其中N=900),并利用Transformer解码器层数对物体查询进行编码更新以获取空间分布信息
对于后续各层Transformer解码器模块,则采用上一层解码器输出结果作为输入并对其进行编码处理以获取目标三维位置坐标P_i
由于nuScenes数据集由六个独立传感器构成,在将三维位置点投影至各传感器图像时需要考虑不同视角下的成像特性
通过双线性插值方法对图像特征图进行采样并结合特征金字塔网络提取多尺度特征信息
为避免视角外区域无法捕获的问题在不可见区域采用零填充策略以保证系统完整性
每一层Transformer解码器模块均会将当前空间位置信息与提取到的目标特征相结合从而实现对三维物体状态的有效更新
最终经过多层解码器迭代更新后系统能够准确预测各目标对象对应的三维边界框及其类别标签
这种设计思路源于对比现有方法的优势分析即通过环视图像能够更全面地捕捉目标物环境从而提升检测性能
三、Radar Network
雷达网络系统致力于提取有效的雷达特征,并通过编码机制实现三维空间中的位置信息融合。该系统的网络架构如图所示。

随后对BEV空间中的雷达点云进行筛选处理,在整合最近5帧数据的基础上完成一系列预处理工作以增强信息密度,并将原始雷达数据扩展为36个特征通道
四、TransCAR Fusion
TransCAR Fusion 是一种通过之前步骤中的 vision-updated 立体物体查询及点云特征作为输入,并输出用于预测立体边界框的融合立体物体查询的方法。 多个 Transformer decoder 在 TransCAR Fusion 模块中以迭代方式协同工作。 提出了一种 query-radar 注意力掩码是为了帮助交叉注意力机制更好地理解和学习立体物体查询及点云特征之间的互动关系。
Query-Radar Attention Mask
当输入的K、Q、V规模较大时,此时计算量会显著增大。因此无需捕获各组之间的全部交互信息。对于每个查询向量q_i而言,在其所在的局部区域内的点云特征才是具有检索意义的,并非全局所有区域都需要考虑关联关系。基于此我们只需关注这些局部区域内的点云特征进行交互即可,并无需让q_i与其他区域的点云特征进行交互。为了实现这一目标,在TransCAR融合模块中采用了二进制化的N×M query-radar attention mask M机制,在两个位置(i,j)之间只有当第i个查询q_i与第j个雷达特征f_j之间的欧几里德距离小于设定阈值时才允许信息关注流动发生。该机制整合到TransCAR架构中后会生成三个不同的query-radar attention mask分别对应于三个Transformer decoder分支单元,并且这三个掩模分别具有2米、2米和1米的有效范围
Transformer Camera and Radar Cross-Attention
三个 Transformer 的交叉注意力解码器进行级联连接后处理信息,在 Trans-CAR 模型中融合了更新版的三维物体查询数据与点云特征间的关联关系。该架构的具体实现如上图所示

对于初始 decoder ,从相机网络输出的 vision-updated 3D object queries 作为输入 Q_{img},点云特征作为K、V。query-radar attention mask M1 用于防止关注某些不必要的对。 decoder 内的交叉注意力层将输出注意力分数矩阵 A_1。对于 A_1第 i 行中的M个元素,它们代表第 i 个object queries与所有M个点云特征之间的注意力分数。输出结果为 F^∗_{rad1} = (A_1 · F_{rad}),将 F^∗_{rad1} 通过前馈网络 Φ_{FFN1},形成 initial fused 3D object queries Q_{f1} = Φ_{FFN1}(Q_{img}+F^∗_{rad1})。对应 TransCAR 网络架构图中的 Q_{f1}。
接下来的两层与第一层相似。但是这两层的输入为上一层生成的 fused 3D object queries,通过重新计算 query-radar attention mask M_i,同时对新生成的 object queries 重新在图像中采样对应的位置的图像特征 f_{f_i},与初始解码器类似,注意力加权的点云特征为 F^∗_{radi} = (A_i · F_{rad}),通过前馈网络输出 fused object queries Q_{fi} = Φ_{FFN_i}(Q_{f_{i-1} }+ F^*_{ rad_i} + f_{f_i})。
五、Box Encoding and Loss Function
Box Encoding
我们将3D边界框 3D编码为11位向量b_{3D}:

其中 cls=\{c₁,…,cₙ\} 表示各分类类别;x、y和z分别代表物体的三维中心坐标;h、w和l分别表示物体在三维空间中的高度、宽度和长度;θ即为物体的姿态角;沿x轴和y轴的速度分量分别为v_x和v_y。针对每一个输出的目标查询q,请网络预测其类别分数c以及对应的3D边界框参数$b:

其中∆x、∆y和∆z是预测值与上一层query positions之间的位移量。我们直接采用3D笛卡尔坐标中的位置偏移进行回归计算。DETR3D采用Sigmoid空间来限制输出范围[0,1]以保证查询位置位于有效区域。而TransCAR则从优化视角出发采用了视觉更新查询策略,并且其定位精度更高。因此,在这一过程中我们能够避免可能干扰学习过程的冗余非线性激活过程。
Loss
在方法中,我们遵循set-to-set Hungarian匹配框架对预测输出的多标签信息与ground truth进行匹配。其中,在回归任务中我们采用L1损失函数,在分类任务中采用Focal Loss作为损失函数。

θ 代表排列集合;\widehat{p}_{σ(i)}(c_i)对应于排列索引为σ(i)的类c_i的概率;其中L_{box}计算的是边界框之间的L1距离;而b_i与\widehat{b}_{σ(i)}分别代表ground truth框与预测框。

总结
本文提出了TransCAR系统,并通过视觉更新的摄像头获取了基于时间更新的三维物体查询(vision-updated 3D object queries)。研究发现,在雷达数据中提取并学习了点云特征及其与vision-updated 3D object queries之间的交互关系,并在此基础上构建了完整的模型框架。
本文是自己对论文的理解,如有不同见解,欢迎讨论、指正。
