Advertisement

【论文笔记】FlatFusion: Delving into Details of Sparse Transformer-based Camera-LiDAR Fusion for Autonomou

阅读量:

FlatFusion: A Comprehensive Examination of Sparse Transformer-based Camera-LiDAR Fusion in Autonomous Driving

简介:从稀疏数据中整合信息的点云Transformer展现出极高的效率。然而,在与摄像头融合的过程中面临着诸多挑战:由于摄像头捕捉到的是密集但深度模糊的图像像素信息这一特性带来了困难。
本文提出了一种基于Transformer的稀疏摄像头-激光雷达融合方法:该方法主要包含图像到3D空间以及激光雷达到2D平面的信息映射机制、通过将注意力机制应用于邻近区域实现了有效的特征聚合、引入了一种单模态token化策略以提高模型性能以及通过微结构设计提升了模型的整体架构。
实验结果表明通过合理选择各子模块组合能够显著提升融合效果并在此基础上提出了名为FlatFusion的新方法其性能超越了现有基于稀疏Transformer的研究成果(包括UniTR CMT以及SparseFusion)。

1. 通用框架

在这里插入图片描述

如图所示,在摄像头与激光雷达数据融合的基础上进行处理的过程中,则形成了一个以基于稀疏Transformer模型为核心的关键技术架构。该框架不仅实现了各模态输入的有效token化处理,并且在2D图像平面和3D空间之间实现了多模态信息的有效融合;同时通过自适应划分空间区域来实现特征间的关联;最后则引入了具有独特功能设计的人工智能计算模块以完成整个系统的智能推理任务。

2. 主干

原始传感器数据需经转译成为tokens方能在Transformer之前进入系统。为求权衡准确性与效能之间之最佳平衡点,并非必要使网络主体结构过于复杂化。

研究表明,在图像处理模块中选择ResNet18结合FPN结构,在点云处理模块采用Transformer结构能够实现性能与速度之间的最佳平衡。

3. 融合&投影

为了协调像素级别的细节与三维体素信息的一致性需求,在实际应用中常采用激光雷达特征向二维视觉域进行映射(即从三维降到二维)的方法;同时也可以通过将图像特征扩展至三维域(二维升至三维)来实现信息互补。值得注意的是,在此过程中由于全局注意力机制存在较大的计算开销且难以捕捉局部特征信息的特点,在实际应用中往往倾向于采用基于局部邻域的融合策略。

3D到2D :柱体特征的投影缺乏高度信息,因此使用体素特征的投影更优。

在将二维(2D)数据转换为三维(3D)空间的过程中需要注意以下几点:由于每个像素仅携带二维空间中的位置信息而缺乏深度数据,在实现三维重建时必须经过详细规划以设计合适的投影策略。对于三维重建而言有两种主要的方法:一种是基于最近邻插值的直接投影方法(即把体素直接投射到图像平面),另一种是部分投射方法(仅将那些对应于激光雷达采集到的点的空间位置对应的像素进行投射)。尽管部分投射方法在保持较高精度的同时仍然能够达到与基于深度估计的方法(如基于学习的单应矩阵估计法LSS)相当的效果但其计算效率更高。值得注意的是,在实际应用中通常会进行图像下采样处理因此大部分图像特征都会被投射到目标空间从而保证了重建过程中的信息完整性几乎不受损失

顺序 &必要性

4. 划分

3D数据呈现出稀疏分布特征,在实际应用中往往需要依赖基于局部窗口机制的注意力模型进行处理。本文对...进行了系统性的对比分析:第一类方法采用...(通过padding处理与mask机制结合实现不同长度序列的有效对齐);第二类方案则以...(仅专注于固定数量的空间关系建模),在此过程中不可避免地会放弃一些重要的局部特性;第三类创新方法采用...(几何曲线模型用于遍历空间中的各个点),相较于前两种方法,在保持较高计算效率的同时能够更好地维持数据间的邻近关系

在这里插入图片描述

通过实验结果可以看出,在前两个指标上表现相近;然而,在动态集合方面运行速度明显较慢;在空间填充曲线中表现同样欠佳。

组大小 :过小的组会导致感受野受限,而过大的组则会导致较差的局部性。

5. Transformer结构

本文使用预归一化+3D位置编码。

6. 最终模型

本文采用ResNet18-FPN结构作为图像主干,并构建基于动态VFE和展平窗口Transformer的点云主干架构,分别生成token化的图像特征和点云特征。随后,在展平窗口Transformer层中将激光雷达特征与图像token同步投影至同一空间进行3D到2D特征融合。接着,在展平窗口Transformer层中采用部分投影策略将图像token投射至三维空间并完成二维至三维特征的融合过程。最后,在检测头中集成卷积处理后的密集化激光雷达特征(可选地结合LSS投影生成的高精度二维图象特征与精密度更高的三维点云特性进行拼接)。整个过程中,激光雷达信号通过多级注意力机制逐步精简高度维度。

全部评论 (0)

还没有任何评论哟~