Advertisement

【多模态融合】DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

阅读量:

论文链接:DeepFusion: Deep fusion between lidar and camera data for multi-modal 3D object detection

代码链接:官方GitHub存储库

作者: Yingwei Li, Adams Wei Yu, Tianjian Meng, Ben Caine, Jiquan Ngiam, Daiyi Peng, Junyang Shen, Bo Wu, Yifeng Lu, Denny Zhou, Quoc V. Le, Alan Yuille, Mingxing Tan

发表单位: Johns Hopkins University、Google

会议/期刊: CVPR2022

一、研究背景

在实现自动驾驶中的三维物体检测时,融合激光雷达与摄像头的数据是一项具有挑战性的任务。现有的绝大多数先进检测算法基本上都是基于单一激光雷达的数据。本研究发现,在原始点云数据基础上通过将相机捕获的特征信息与深度激光雷达提取的特征进行精确对齐并融合能够显著地提升了检测性能。然而由于不同感知模态(视觉与深度感知)的数据融合机制尚不一致这一特性导致其在实际应用中面临着诸多技术难题

过去的方法如PointPainting主要局限于在扫描过程中利用相机捕捉的三维信息对激光雷达数据进行覆盖处理。据作者所述,结合激光雷达与相机等多源感知信息进行特征融合具有显著提升扫描效果的优势,然而这一技术方案面临三个关键挑战

(1)特征对齐:激光雷达和相机数据在几何空间中的表达形式不同

(2)数据增强的不一致性:为了提升模型的泛化能力,在实际应用中通常会采用多种数据增强手段来处理输入数据。然而,在实际应用中,基于激光雷达所得的点云数据和来自相机捕捉到的画面图像往往各自采用不同的增强方法以适应其特定特征

(3)信息融合的有效性:即使在实现精准对准后仍需探索如何有效地整合这些特征以充分运用其互补特性这一领域仍存在诸多挑战

本文贡献:

(1)第一个系统研究深度特征对齐对3D多模态检测器的影响

(2)我们开发了InverseAug和LearnableAlign,并通过深度特征级别的对齐实现了精确且可靠的3D对象检测器。

(3)DeepFusions 在 Waymo 开放数据集上实现了最先进的性能

DeepFusions和PointPainting方法的区别

二、整体框架

该方法被本文提出,其核心在于对激光雷达数据与相机数据进行深度特征融合。不同于以往在输入层阶段将激光雷达点位信息与相机提取出的特征进行结合的技术,DeepFusion则采取了在特征层进行操作的方式,从而规避了由于不同增强技术可能导致的不一致问题。其核心技术体系整合了两项创新性解决方案:

(1)InverseAug:逆转与几何相关的增强,以实现准确的几何对齐;

LearnableAlign:一种实时捕捉图像与激光雷达特征间关联性的交叉注意力机制

三、核心方法

3.1 深度特征融合Pipeline

过去PointPainting方法基于经过预先训练的二维特征提取网络来获取相机特征,并对处理后的点云数据进行3D检测框架的输入处理。然而,这样的流程存在两大关键缺陷:

(1)相机特征的处理方式不适当

(2)相机特征提取器的问题:在相机特征提取器中存在领域间的不匹配性问题;注释工作量显著增加;带来了不必要的计算开销;导致特征提取效果无法达到最佳状态

因此,在整合深度相机与激光雷达的特征时,则以防止相机信号在用于生成点云时依赖于特定于点云的设计部分

此外,使用卷积层来提取相机特征,并以端到端的方式与网络的其他组件一起训练这些卷积层。

然而,深度特征融合虽然显著,但由两种模态异构数据增强所导致的数据错配将会影响性能。

3.2 InverseAug

InverseAug 主要功能在于将经过数据增强的关键特征(如 (a) 到 (b) 的映射)准确地映射至 2D相机空间。举例而言,在展示过程中所使用的是一种简化效果图;然而,在实际应用中则是基于二维特征重构三维模型。

InverseAug意为反向增强技术,在融合过程中旨在提升激光雷达与相机数据的配准质量。

其方法的核心思路在于,在特征融合阶段消除之前应用于数据的几何转换(如旋转和平移),从而恢复数据至其原始未受任何转换影响的状态。这样处理后可使来自激光雷达的数据与来自相机的数据实现精确对准。

在数据预处理环节中对激光雷达点云和相机图像进行了系统的数据增强操作包括旋转变换、尺度缩放等技术应用这些操作的具体参数如旋转角度缩放比例都被详细记录下来

(2)逆向增强(InverseAug):在特征融合之前,InverseAug技术利用之前存储的增强参数,并通过反向的方式消除这些变换的影响。例如,在点云预处理阶段旋转了30度的情况下,在特征融合之前InverseAug将它旋转-30度以恢复原始状态。

点云数据是怎么点对点投影到图像上?

此过程实现了将三维点云坐标系转换为二维图像像素坐标的转化。该转换过程受相机的内参数(intrinsic parameters)与外参数(extrinsic parameters)的影响。其中内参数涉及相机固有属性如焦距、主点等特性;而外参数则描述了相机在世界坐标系中的位置及其姿态信息。

3.2.1 从激光雷达坐标系到相机坐标系

首先

P_{lidar} =

,则该点在相机坐标系中的坐标

P_{Camera}

可以通过下式计算:

P_{Camera} = R dot P_{lidar} + T
3.2.2 从相机坐标系到图像平面

下一步骤将是将点投影至图像平面。此步骤需利用相机的内参参数K进行处理。

P_{camera}=

被投影到图像平面的坐标 (u, v)可以通过下式计算:

egin{bmatrix} u   v   1 nd{bmatrix} = rac{1}{Z} K{P}_{camera}

其中,在图像平面中用齐次坐标表示各点的位置参数。内参矩阵K被定义为包含焦距及主点坐标的参数矩阵。Z值代表相机坐标系中各点的深度信息,则通过将深度值归一化处理得到1/Z

应用 InverseAug 前后的相机-激光雷达对准质量比较。

如图(a)所示,在未启用InverseAug的情况下,在相机视图中无法良好地对齐激光雷达上的白色点(即行人与柱子)。相比之下,在图(b)中实现了更好的对齐效果。值得注意的是,在这个对比实验中仅增加了少量数据增强项以提升模型性能。此外,在训练过程中若禁用InverseAug技术,则会导致定位误差更加显著

3.3 LearnableAlign

为了更有效地实现特征对齐的过程, 作者采用了交叉注意力机制, 并使其能够动态地捕捉到两种模态之间的相关性

在输入层级的装饰技术(如PointPainting和PointAugmenting)中,在激光雷达与相机之间建立了精确的一一对应的直接关联关系。然而,在DeepFusion框架中,则呈现出不同的特点:每个激光雷达特征所代表的体素(voxel)实际上包含了多个原始点数据,在这种情况下对应的相机像素分布将形成一个多边形区域范围内的投影关系。这使得原本的一对一匹配问题转变为一个单对多的对齐挑战:即每一个体素单元将负责对应多个分散在不同位置的相机像素点数据

基于视觉效果而言,并非每个相机像素在反映对应的激光雷达特征上有等价值的作用。其中某些像素可能携带了对检测任务至关重要的信息(例如目标物体),而另一些则可能仅包含相对较少的相关信息(例如背景中的道路表面、绿色植物以及遮挡物)。因此,在仅仅对对应于同一传感器单元的所有 pixels 进行简单的平均运算以获取融合图像的方法上存在明显不足。

为了优化激光雷达特征与最相关的相机特征的对齐效果,“LearnableAlign”方法引入了交叉注意力机制。该方法能够通过这一机制实现动态捕获两种模态之间的相关性。

对于输入中的体素单元以及与之相关的N个相机特征(将体素投影至相机图像并确定其覆盖的图像区域以获取结果):

特征映射:LearnableAlign通过三组全连接层分别将体素转化为查询项,并将相机特征映射为键和值项。

(2)确定注意力权重:对于每一个体素单元(即体素单元),通过对每一个体素单元的查询与相应的键进行点积运算来求取其对应的注意力相似矩阵。该矩阵反映了各个体素单元与其所对应的相机特征之间的关联程度。

(3)权重归一化:The weight normalization process involves applying the softmax operation to the attention similarity matrix, ensuring that the output becomes a set of normalized weights that represent the relative importance of different elements in the sequence.

(4)聚合相机信息:利用这些权重对值(含有相机信息的部分)进行加权和聚合。

将聚合后的相机信息通过一个全连接层进行处理后,随后将其与原始的激光雷达特征进行融合。作为输入特征传递至主流的标准3D检测架构中(如PointPillars或CenterPoint)进行模型训练

四、实验结果

Waymo 测试数据集实验结果

Waymo验证集

基于Waymo验证集将DeepFusion整合至多种单模态基准以验证其通用能力

DeepFusion显著提高对远距离目标(如超过50米)的检测性能。

消融研究,,发现InverseAug提高的比重更大。

与其他融合策略的比较

模型对输入噪声的鲁棒性

该模型在处理分布外数据时表现出良好的鲁棒性。基于内部验证集(Default)与外部验证集(Kirkland),分别进行了基于单一雷达模式与融合雷达与摄像头的多模式模型评估。

多模态融合带来的性能提升随着随机翻转幅度增大时逐渐减小,并且这也凸显了精确对齐的重要性

其可视化注意力图如图(a)和(b)所示,在该算法中主要关注行人头部区域。这一现象可能源于以下原因:从相机图像中识别头部是识别人类的关键特征(由于激光雷达数据在细节识别上存在局限性)。此外,在图(c)和(d)中可以看到的是算法同时聚焦于目标的末端部分(例如背部),通过高分辨率摄像头获取边界信息后能够进一步优化目标尺寸估计

全部评论 (0)

还没有任何评论哟~