【论文笔记】BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation
原文链接:https://arxiv.org/abs/2403.11761
0. 概述
本文提出了一种基于环视图像与雷达融合的贝索夫空间(BEV)目标检测及地图分割的新体系框架。如图所示,在该系统中,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况

1. 传感器数据编码
摄像头:采用冻结状态下的DINOv2 ViT-B/14架构(基于 learnable weights 的ViT adapter),生成多尺度图像特征。
雷达:类似于SparseFusion3D的方法,在本文中所使用的雷达点原始特征包含三维位置(x,y,z)、未经过速度补偿的速度分量(v_x,v_y)以及表征表面可检测程度的RCS值(即表面反射系数)。在对点云进行体素化处理后(即将连续空间中的点转换为离散的空间单元),经由下图所示的特征编码模块进行信息提取(其中FCN表示全连接层),其结构与PointNet相似。随后将各体素化的特征表达输入到体素编码器中,在此过程中对高度信息进行压缩处理以获取雷达BEV空间中的特征f_{rad}。

2. 图像特征提升
借鉴了BEVFormer的思路,在此基础上提出了基于稀疏雷达点的初始化方法。
查询初始化:即基于雷达提供的3D信息对图像特征进行初步提升至BEV图。随后以前视摄像头为中心生成3D体素网格,并将每个体素与其相关联的一个或两个视图建立关联关系;接着通过射线投射技术将图像特征提升到3D空间(对于多个视图相关联的体素节点,则取其特征值的平均值作为最终表示)。
注:此步骤与LSS的方法不同,因其考虑了每个像素的大小(如图,射线经过区域的部分相邻区域也被标记为同一颜色)。因此,实际上该方法更接近Simple-BEV(其中双线性采样被替换为最近邻采样)。
最后经过深度卷积操作压缩高度信息,并提取出对应的空间特征矩阵\mathbf{Z}\in\mathbb{R}^{X\times Y\times F}。随后通过基于雷达引导的空间可变形注意力机制生成对应的初始化查询矩阵\mathbf{Q}_{img}^L \in\mathbb{R}^{Y'\times F'}。

提升过程:通过累加初始化查询 Q_{img}^L、可学习位置编码 Q_{pos}^L 以及可学习查询 Q_{bev}^L 生成综合查询信息 Q^L。随后利用可变形注意力机制从图像中提取特征采样点,并最终产出图像 BEV 特征。
如何确定变形注意力机制中的查询参考点?文中所述方法中提及需要重新构建X \times Y \times Z的空间网格结构,请问在同一贝 V(Bird's Eye View)视角下但不同高度层次的空间单元所对应的查询关系是否一致(即与各自关联的具体贝 V 视角相对应),而其参考点则对应于该空间单元在图像平面上的具体投影位置?
3. 传感器融合
借鉴TransFusion的思路,在本研究中我们关注了雷达点周围的空间信息,并借助可变形注意力机制来提取具有语义特化的特征表示。具体而言,在实现这一目标的过程中,我们计算并融合了三个关键组件:其对应的可学习位置编码向量和可学习BEV查询向量;随后通过求和操作得到融合后的表示向量。在此基础上,在关注对象上应用交叉注意力机制以捕捉空间语义关联关系,并将最终的表示信息传递至BEV编码器进行进一步处理。
4. BEV分割头
本文采用多类BEV分割基于单一任务头的方法。具体来说,卷积网络输出一个物体类别以及M个地图元素类别, 输出的尺寸是(M+1)×X×Y (注意一个像素可能属于多个类别)。
目标检测 :本文考虑所有车辆。使用二元交叉熵损失监督:
L_{BCE}=-\frac1N\sum_{i=1}^N\log(p_{i,t})
其中
p_{i,t}=\begin{cases}p_i&若y_i=1\\ 1-p_i&否则\end{cases}
y_i\in\{0,1\}表示像素i是否属于车辆类别,p_i为预测y_i=1的概率。
地图分割 :本文使用\alpha平衡的多类别focal损失:
F_{FOC}=\sum_{c=1}^C-\frac1N\sum_{i=1}^N\alpha_{i,t}(1-p_{i,t})^\gamma\log(p_{i,t})
其中c为语义类别编号,\gamma为区分简单/困难样本的聚焦参数。\alpha_{i,t}类似p_{i,t}的定义:
\alpha_{i,t}=\begin{cases}\alpha&若y_i=1\\ 1-\alpha&否则\end{cases}
其中\alpha处理前景/背景的不平衡性。
