Advertisement

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection总结

阅读量:

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

说明

摘要总结

背景

  • 现状:激光雷达与摄像头作为核心传感器,在自动驾驶系统中为三维检测提供必要的补充信息。
  • 问题:当前流行的多模态方法主要通过将相机特性和原始激光雷达点云进行整合来提取信息;然而我们研究表明,在深度雷达特性和相机特性的直接融合中存在显著优势;尽管如此,在实际应用中由于这些特性通常经过增强与聚合处理,在融合过程中如何实现精准地对齐两组模态转换后的特性仍是一个重要的技术难题。

方法

总括:在本文中,我们提出了两种新技术:InverseAug 和 LearnableAlign

具体说明:

  • InverseAug是一种反转几何增强技术,如旋转操作,旨在实现激光雷达点与图像像素间的精确对齐;
  • LearnableAlign是一种基于交叉注意力机制的技术,用于动态捕获图像间相关性融合过程中的激光雷达特征。

结果

该系统依托InverseAug和LearnableAlign构建了系列命名为DeepFusion的通用多模式3D检测模型。

  • 该系统相较于以往的技术表现出更高的准确性。
    例如,在Waymo开放数据集上的测试中, 我们的模型不仅展现出超越前人的成绩, 并且成功地应对了各种极端情况。

具体方法

具体架构描述

框架图片

我们提出了一种基于深度特征融合的技术框架,在输入层面上实现了多模态数据的有效整合。该方法通过逆向增强(InverseAug)算法实现了特征间的精准匹配,并引入了可学习的对齐机制(LearnableAlign),从而显著提升了模型的性能表现。

我们采用卷积神经网络模块来提取 camera 的特征表示,并通过端到端训练策略整合这些模块与其他网络组件之间的关联关系。如图 1(b)所示:首先将激光雷达点云输入现有的激光雷达特征提取模块(如 PointPillars[17]),从而生成具有代表性的激光雷达感知特征;随后将来自相机的图像信号经过 2D 特征提取网络(如 ResNet[11])处理得到相机感知空间中的表征;接着通过设计合理的融合机制将两种不同源感知数据进行深度结合;最后将融合后的全局表征传递至所选检测框架的相关子系统(如 PointPillars[17] 的主干网络及其检测头),完成最终的目标检测任务

概括说明

挑战:现有文献中对融合激光雷达与相机的方法主要采用两类策略(如图所示):一类是基于早期阶段的特征融合方式(如利用相机捕获的特征覆盖到激光雷达生成的点云中[34, 36]),另一类是基于中间级的特征综合法(即在提取各子体征后进行综合融合)。尽管如此,在确定激光雷达与相机之间体征对应关系这一关键问题上仍存在诸多挑战。

为了解决这一问题 我们提出了一种创新性的解决方案 即InverseAug与LearnableAlign 这两种新方法旨在实现中等级别的融合效果。具体而言 第一种方法InverseAug通过反转几何相关数据进行增强操作 例如采用RandomRotation [46]的方法 然后利用原始相机与激光雷达参数来建立两种模式之间的关联关系 第二种方法LearnableAlign则采用了动态学习机制 利用交叉注意力机制去探索并学习激光雷达特征与其对应相机特征之间的深层关联性 在整合这些精确对齐后的多模态特征后 经过这种精确对齐处理后相机捕捉到的高分辨率信息显著提升了模型在识别与定位方面的性能水平 这一优势尤其体现在远距离物体检测任务中 因此该方案相较于现有技术具有更高的实用价值

贡献:

  • 基于我们的研究发现,在3D多模态检测领域中,我们较早开展系统性研究并取得重要贡献者地位;
  • 我们开发出InverseAug 和LearnableAlign ,成功实现了深度特征级对齐技术,并以此 basis 达到了在3D对象检测中既准确又稳健的效果;
  • 我们开发出的模型 DeepFusions 已经在Waymo开放数据集上展示了超越当前基准模型的最佳性能。

增强对齐效果

对比表格

考虑到不同模态之间的深度关联性, 我们开发了两项先进的技术和 LearnableAlign, 从而实现了从不同模态深度特征的有效对齐.

InverseAug
InverseAug流程图

为了在现有基准上获得最佳性能并取得显著进展**(即)大多数现有方法依赖于强大的数据增强技术(因为)在传统的深度学习框架中(通常会导致)模型在训练过程中出现过拟合现象。表 1 显示出数据增强对于提升模型性能的重要性(其中)单模态模型的最高准确度提升可达5.0(此外)Cheng 等人[6]强调了数据增强在3D对象检测中的关键作用。然而,在这种背景下针对DeepFusion流水线而言(其需求)**的数据增强需求带来了较大的技术挑战。(例如)来自两种模式的数据通常需要采用不同的强化策略进行处理以达到最佳效果

具体方法:InverseAug 在几何数据增强应用中首先记录增强参数(如RandomRotate[46] 所使用的旋转度)。在融合阶段中,则反向处理所有这些数据增强操作以推导出3D关键点的原始坐标(如图2(c)所示),随后在相机空间中进一步推导出其对应的2D坐标。值得注意的是我们的方法具有通用性因为它能够对应不同类型的关键点(如体素中心)然而为了简化起见我们仅采用了图2中的激光雷达点并且该方法还可以处理两种模式均被增强的情况

LearnableAlign

背景:针对输入级的增强方法(如PointPainting[34]和PointAugmenting[36]),每个来自3D激光雷达的点都会唯一对应一个相机像素,并可以在单一映射关系下实现精确定位。相比之下,在我们的DeepFusion管道中融合深度特征时(当我们融合深度特征于我们的DeepFusion管道中时),每个激光雷达特征会对应一个包含子集的体素单元(因此其对应的相机像素则位于多边形区域内部)。这种对齐问题本质上是一个单体素到多像素的映射问题。一种简单的策略是将与给定体素相关联的所有相机像素进行平均计算(例如某些像素可能包含关键检测信息如目标对象);然而直觉上来说,并非所有这些像素在重要性上是均等的(正如我们的可视化结果所证实的那样),因为来自激光雷达深度信息的空间对齐与各个相机像素之间存在不均衡性)。例如,在一些场景中(如道路、植物遮挡等背景区域),某些相机 pixels 可能携带较少关键检测信息;而另一些 pixels 则可能携带丰富的关键检测信息

为了更有效地对齐来自不同源的激光雷达特征与最相关的相机特征,在本研究中我们开发了一个称为LearnableAlign的新方法。该方法通过交叉注意力机制动态捕获两种模态之间的相关性(如图1所示)。具体而言,在输入中包含一个体素单元及其所有对应的N个相机特征时,LearnableAlign分别将体素编码为查询q^l、将相机特征转换为键k^c和值v^c。对于每个查询(即体素单元),我们在查询与键之间计算内积以获得包含其与其所有对应的N个相机特征之间1×N的相关性矩阵。随后通过softmax算子进行归一化处理,并利用此attention affinity矩阵加权聚合包含相机信息的值v^c。最终聚合后的相机信息经全连接层处理后与原始激光雷达特征进行结合,并将输出结果随后被应用于标准3D检测框架(例如用于模型训练的PointPillars或CenterPoint)。

探究点

  • InverseAug在应用上是否具备同时处理深度图与RGB图像的能力?两者之间的配准关系是否存在差异?这种配准模式相较于雷达配准问题有哪些共性与差异。
    • 研究背景可描述为配准需从单一像素扩展至多像素范围。论文中提及LearnableAlign的技术基础是这一理论框架,在实际应用中该方法是否同样适用于处理深度图与RGB图像的配准任务?

全部评论 (0)

还没有任何评论哟~