【论文笔记】Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers
原文链接:https://arxiv.org/abs/2312.14919
1. 引言
在多模态融合的过程中,
因为各模式具有不同的过拟合与泛化能力差异较大,
在对各模式进行联合训练的过程中,
可能导致弱模式无法得到充分优化,
这可能使得整体性能低于单一模式方法。
现有相机与激光雷达融合的方法大多以Lift-Splat为基础。该方法通过将图像特征经深度估计投影至BEV平面,并结合激光雷达提供的特征进行融合来实现对环境的感知。然而这一过程对_depth_estimation_的质量极为敏感。研究发现,在现有模型中使用基于_depth_estimation_的方法并无显著优势。实验结果表明,在某些情况下将模型中的_depth_estimation_替换为其由_lidar_提供的信息或者直接移除后都不会影响整体性能
该文中提出了一种名为Lift-Attend-Splat的方法,并非依赖于单目深度估计的技术。该方法通过Transformer模型进行特征选择和融合相机与激光雷达数据。与基于深度估计的传统方法相比,在相机的利用方面更为出色,并且其性能表现更为突出。
3. Lift-Splat中的单目深度估计
LiftSplat通过单目深度估计实现图像特征的投射至BEV:
\texttt{Proj}_{\texttt{LiftSplat}} = \texttt{Splat}(F'^{\texttt{cam}} \otimes D)
其中]F'^{cam}∈ℝ^{C_c×H×W}是从图像特征]F^{cam}∈ℝ^{C×H×W}中提取出的背景信息;该矩阵]D∈ℝ^{N_D×H×W}是在预先设定深度范围内进行归一化的概率分布;Splat操作用于将三维点投影至二维平面z=0的位置;融合后的特征图既可以与激光雷达生成的特征图直接连接;也可以通过门控注意力机制进行优化结合;值得注意的是,在此模块中我们将其转化为一个分类任务来进行处理。
Lift-Splat深度预测通常不足 :本文对比了BEVFusion中的预测深度与激光雷达获取的真实深度图,并发现其对复杂场景的重建精度存在局限性。研究者观察到,在真实数据集上评估后发现这一问题较为突出
促进_depth estimation_无法提升object detection performance. 进一步研究是否能够通过提升_depth estimation_效果来增强object detection performance. 我们引入laser雷达提供的_depth_作为_depth supervision(cross-entropy loss). 实验结果表明,在增加用于_depth estimation_权重时,并未观察到预期中的detection performance提升. 这一发现表明模型无法有效利用更为精确的_depth estimation_结果. 为此我们进行了两项实验:第一项采用预训练的_depth estimation_模块;第二项则直接使用laser point cloud以规避Depth Estimation module. 实验显示前者同样能够显著提升_depth estimation_精度但导致object detection performance下降;而后者与基准方案相比表现相当尽管所有Depth Estimation指标均接近零.
单目深度估计的去除不影响检测性能 :本研究发现基于Lift-Splat的方法无法有效利用精确的深度信息。完全去除单目深度估计后会使投影公式转化为:
\text{Proj}_\text{no-depth}=\text{Splat}(F'^{cam}\otimes 1)
其中数值1与变量D具有相同的大小,并且所有取值均为1。实验结果表明该方法并未削弱性能水平,并由此可得出结论:depth_estimation_并非此_算法的核心要素。这一现象可能源于激光雷达的存在:由于其提供更为精确的空间信息以及对投影误差的有效抑制能力,在此场景下其重要性得到显著降低。因此依赖于单目深度估计是不必要的,并可能导致相机资源未被充分利用
4. 无单目深度估计的相机-激光雷达融合
本文采用了相对简单的Transformer架构来绕过单目深度估计的方法获得BEV表示。尽管全局Transformer具有较高的计算复杂度(O(N^2)),但基于此我们通过几何约束来限定注意力机制的作用域(A \subseteq V)。值得注意的是,在处理激光雷达数据时会考虑其特定的空间属性(s \in S)。具体而言,在图像序列与激光雷达生成的BEV网格极射线之间引入了交叉注意力机制(C_{ij}),这一设计不仅能够有效捕捉空间关系(\theta_c)还能提升对远距离目标的识别能力(\theta_o)。

除了基于投影的方式外,在本文中我们采用的方法与Lift-Splat存在显著差异,并如图所示进行对比分析。该系统由相机和激光雷达主干构成主体框架,在此基础上整合了投影模块用于三维信息传递以及融合模块实现数据优化,并最终通过检测头完成目标识别任务
投影平面 :对于每个相机而言,我们分析并关注通过图像中心点的一条水平线及其对应的平面,统称为投影平面.通过齐次坐标,我们可以描述所有满足条件的点x∈ℝ⁴,并存在u∈ℝ使得下式成立:
Cx∼(u,h/2,1)
设相机投影矩阵 C \in \mathbb{R}^{3 \times 4} 包含内外参数信息,在该系统中考虑一个由图像高度 h 决定的空间坐标系。值得注意的是,在此方案中所涉及的平面并不严格平行于 BEV 平面(Bird's Eye View 平面),而是受到相机外参数的影响而产生一定角度偏差。在水平投影面上,则通过追踪水平线条与特征列边缘交点处的射线方向,并设定深度范围作为划分依据(即将该区域划分为规则网格区域 G \subseteq \mathbb{R}^{N_D \times W}),其中每一行对应于图像特征中的一列(如图1所示)。
投影水平面与BEV网格之间的对应关系:沿着z轴进行投影操作后能够相对容易地建立起这两个几何体之间的映射关系。在三维空间中选择一个特定位置作为参考点,并将其沿着另一方向进行双线性采样处理,则可实现激光雷达采集的数据从BEV空间转换至相机所在的投影视图上(这一过程被称作'Lift')。相反地,在图像平面上选择特定区域并完成相应的逆变换操作,则可以将该区域对应的三维空间中的点云信息还原至全尺寸的空间中(这一过程则被称为'Splat')。
Lift-Attend-Splat :本文所述投影模块如图所示。具体来说,在第一步中, 我们将BEV激光雷达特征B^{\text{lid}}提升到相机i对应的投影平面上, 得到"增强"后的激光雷达特征\tilde B_i^{\text{lid}}. 接着, 通过Transformer编码器和解码器对"增强"后的激光雷达特征与图像对应列进行注意力交互, 生成融合后的\tilde B_i^{\text{fus}}. 最后, 通过Splat操作将提取到的信息映射回BEV平面, 得到最终结果B_i^{\text{fus}}. 在这一系列操作中, 注意力机制的作用是使图像各列中的特征能够被有效地捕捉并整合. 这一过程可以简明地表示为: B_i^{\text{fus}} = \textit{Splat}_i\left(D\left(\mathcal{T}_{\theta}(\tilde B_i^{\text{lif}}, F_{i}^{\texttt{cam}})\right)\right)
在此处, 采用了一种更为专业的融合机制, 将各相机的投影特征进行求和运算, 并与激光雷达提取的特征进行组合, 最终通过卷积层生成完整的BEV特征图. 在这一操作过程中, 我们针对每一个相机所获取的所有图像帧, 并采用统一的Transformer参数矩阵完成数据处理.
注意力vs深度预测:通过深度估计技术,在不同BEV网格中会将图像特征进行多方位投射。然而由于深度分布进行了归一化处理,则会使得沿深度方向分散的投影特征强度降低。而本研究提出的方法可以让同一图像特征在多个BEV网格上产生相同的影响;这是因为基于注意力机制的不同计算方式——关注键(即像素高度)而非关注射线(即射线对应的空间深度)。此外,在本研究中我们还能够利用激光雷达捕捉到的三维点云数据来辅助确定其在不同视角下的投影位置
5. 实验
5.1 3D目标检测
本文对激光雷达主干进行冻结处理,并与Lift-Splat方法进行对比分析。通过实验结果可以看出,所提出的方法较之基线方法具有显著优势。此外,在相机特征提取方面表现出色的特性进一步体现了本文方法在该领域的卓越表现
根据物体的大小与距离进行分类处理后发现,在远距离及小尺寸的物体上取得了显著提升。这些场景恰好是单目深度估计中的挑战性问题。即便在远处或小型物体的情况下该方法仍能有效地提取图像特征
5.2 定性分析
展示本文方法最后一层交叉注意力图(所有注意力头平均)以及BEVFusion深度估计结果(详细过程可在附录B.2中查看),以便观察图像特征如何被投影到BEV空间中。本文方法倾向于将图像特征放置在真实边界框附近,这表明能够有效地利用激光雷达的上下文信息,并将其投影至最相关的位置。与BEVFusion方法相比,本文方法中的特征分布更为集中。这是因为该方法未采用沿射线归一化权重,在一定程度上增加了灵活性。对于那些投影到边界框外部的图像特征,在融合模块中能够有效抑制这些特征的激活。
通过使用显著性图分析图像的各个像素分布情况时,在给定物体查询索引i以及预测概率z的前提下,在预测类别c上对输入图像I_j计算梯度后可得到显著度:
该方法可清晰展示单个像素对特定物体预测结果的贡献程度。通过可视化可以看出,在结合摄像头与激光雷达的训练中,在结合摄像头与激光雷达进行联合优化的情况下,在结合摄像头与激光雷达进行联合优化的情况下,在结合摄像头与激光雷达进行联合优化的情况下,在结合摄像头与激光雷达进行联合优化的情况下,在结合摄像头与激光雷达进行联合优化的情况下,在结合摄像头与激光雷达进行联合优化的情况下,在结合摄像头与激光雷达进行联合优化的情况下,在结合摄像头与激光雷达进行联合优化的情况下,在结合摄像头与激光雷达进行联合优化的情况下,在结合摄像头与激光雷达进行联合优化的情况下
5.3 时间特征聚合
可以整合不同时间点的BEV特征数据中的关键信息,并采用时间特征聚合(TFA)的方法提取核心内容。具体操作如下:首先记录下不同时间点的BEV特征数据;然后通过双线性插值法对目标帧进行校准以与当前帧对齐;最后将拼接后的BEV特征图利用3×3卷积进行进一步处理以增强细节提取能力。
在对模型进行微调时,在主架构的基础上采用了预先训练好的主体网络,并将其固定后实验结果表明时间特征聚合能够显著提升性能水平。
5.4 消融实验
- 分析不同类型的融合机制(如加性融合、连接并存型融合以及带有门控Sigmoid模块的不同方法),这些方法在性能上表现相近。
- 通过在注意力机制中增加Transformer解码器层的数量,在提升性能的同时也能获得更好的效果。
- 在时间特征聚合过程中适当增加帧数能够有效提升模型的整体性能。
补充材料
A. Lift-Splat中的单目深度
A.1 从激光雷达计算真实深度
将激光雷达生成的点云数据投射至图像平面,在每个像元区域内选择最邻近的一组激光雷达探测数据,并确定该区域对应的深度信息。对于那些没有对应激光雷达探测结果以及深度超出预设范围的位置,则忽略其真实深度信息。在监督学习场景中进一步处理这些深度值并将其转化为对应的目标编码形式D^{gt}
A.2 深度图的可视化
对于预测的深度分布图,使用其期望深度进行可视化。
A.3 使用激光雷达作为深度预测的监督
针对具有真实深度信息的像素点集合而言,在预测其深度分布时可将其视为一个分类问题,并采用交叉熵损失函数作为优化目标
B. 详细的实验结果
B.2 详细的定性结果
为了获得5.2节中所述的注意力可视化结果,请按照以下方法从BEV视角生成相应的注意力图:\text{Attn}^{\text{cam}_i\rightarrow \text{bev}}\in\mathbb{R}^{H\times W\times N\times M}
从各解码器的最后一层各个注意力头中获取其对应的注意力图,并对这些图进行求平均运算得到一个反映各关注点在不同空间维度上的整体分布情况的矩阵\text{Attn}^{\text{cam}_i\rightarrow \text{frustum}}\in\mathbb{R}^{H\times W\times D\times W'}。这里D×W'表示视锥的空间维度。随后将这些权重信息映射至贝格视角(BEV)空间中以获得\text{Attn}^{\text{cam}_i\rightarrow \text{bev}}。基于输入图像I_i进行处理后,在二维空间上构建一个二值遮罩矩阵\text{Mask}^{(i)}\in\{0,1\}^{H\times W}来标识目标区域。接着,在贝格视角网格上仅考虑被遮罩区域内的特征向量,并对这些特征向量进行最大值池化运算得到最终结果:\text{Attn}^{(\text{bev})}=\max_{i,h,w}\left(\text{Attn}^{\text{cam}_i\rightarrow \text{bev}}_{h,w}\cdot\text{Mask}^{(i)}_{h,w}\right)
在Lift-Splat投影的可视化表示中,在该方法中我们采用\text{Mask}^{(i)}作为投影输入替代I_i. 利用深度分布机制将二值掩膜转换为高维的空间点云数据,并对这些三维坐标进行降维处理至z=0平面. 最后经过最大池化处理后得到最终结果
B.3 集成与测试时数据增广
采用加权框融合技术将各模型与增强数据整合。具体而言,在第一阶段中, 我们运用加权框融合技术处理各模型的所有增强数据结果; 在第二阶段中, 我们再对所有模型所得结果执行一次加权框融合.
