Advertisement

LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion(CVPR2023)

阅读量:

LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion(CVPR2023)

  • 太长不看版
  • 目录
    • 摘要

    • 1.背景

    • 2.相关工作

      • 基于图像的3D检测
      • 基于激光雷达的三维检测
      • 多模态三维检测
    • 3.方法

      • 3.1 概览
      • 3.2 全局融合模块
      • 3.3 局部融合模块
      • 3.4 特征动态聚合模块
      • 3.5 训练损失
    • 4.实验

      • 4.1 结果
      • 4.2 消融实验
    • 5.总结

太长不看版

背景:目前3维目标检测可以分为基于图像、基于激光雷达、融合图像和激光雷达这三种方法,区别在于输入数据的形式。融合图像和激光雷达数据的这种方法主要困难点在于不同类型数据的配准,即如何高效融合点云和图像的特征。
动机:过去的方法大多进行全局融合,但通常在一个场景中我们关注的仅仅是几个类别(行人、车辆、自行车),全局融合大多数都是不关注的背景信息,代价大收效甚微。基于此,考虑提出一个LoGoNet,包括全局融合(GoF)、局部融合(LoF)和特征动态聚合(FDA)三个模块(见图2)。
要点:

  • GoF中设计了中心点动态融合(CDF)模块,在全局体素特征空间中将点云特征与图像特征进行自适应融合(见图3)。
  • LoF中设计了带有网格点动态融合(GDF)的局部融合(LoF)模块,可在候选框(proposal)级别动态融合点云特征和图像特征,在多模态融合过程中提供更加局部和精细的几何融合信息(见图4)。
  • 特征动态聚合(FDA)模块,来对前面独立产生的几个模块信息进行交互和聚合(见图5)。

目录

原文:LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross-Modal Fusion
代码:https://github.com/sankin97/LoGoNet
作者机构:Xin Li1 Tao Ma2 Yuenan Hou3 Botian Shi3 Yuchen Yang4 Youquan Liu5 Xingjiao Wu4
Qin Chen1 Yikang Li3* Yu Qiao3 Liang He1,6* 1East China Normal University 2The Chinese University of Hong Kong 3Shanghai AI Laboratory 4Fudan University 5Hochschule Bremerhaven 6Shanghai Key Laboratory of Multidimensional Information Processing {sankin0528,wuxingjiao2885}@gmail.com
{qchen, lhe}@cs.ecnu.edu.cn{matao, shibotian, houyuenan, youquanliu, liyikang, qiaoyu}@pjlab.org.cn.

摘要

激光雷达-相机融合(LiDAR-camera fusion)方法在三维物体检测中表现出了令人印象深刻的性能。最近的先进多模态方法主要执行全局融合(global fusion),即在整个场景中融合图像特征和点云特征。这种做法缺乏细粒度的区域级信息(fine-grained region- level information),导致融合性能不理想。在本文中,我们提出了新颖的局部到全局融合网络(Local-to-Global, LoGoNet),它可以在局部和全局两个层次上执行激光雷达-相机融合。具体来说,LoGoNet的全局融合(GoF)建立在以往文献的基础上 ,而我们只使用点中心点来更精确地表示体素特征的位置,从而实现更好的跨模态配准。至于局部融合(LoF),我们首先将每个提案(proposal)划分为统一的网格(grids),然后将这些网格中心投影到图像上 。对投影网格点周围的图像特征进行采样,与位置点云特征进行融合,最大限度地利用提案周围丰富的上下文信息。进一步提出特征动态聚合(FDA)模块,以实现这些局部和全局融合特征之间的信息交互 ,从而产生信息量更大的多模态特征。在Waymo开放数据集(WOD)和KITTI数据集上的广泛实验表明,LoGoNet优于所有最先进的3D检测方法。值得注意的是,LoGoNet在Waymo三维物体检测排行榜上名列第一,并获得了81.02 mAPH(L2)的检测性能。值得注意的是,三个类别的检测性能首次同时超过80 APH (L2)。

1.背景

3D目标检测作为一个重要的感知任务,在安全为重的自动驾驶中扮演着重要的角色[1,20,58],旨在3D空间中定位和分类目标。激光雷达和点云是两种广泛使用的感知器。由于雷达提供精确的深度和几何信息,因此已经有大量方法[24, 48, 63, 68, 72, 73] 被提出来并在各种基准下,取得了有竞争力的性能。然而,由于激光雷达感知器的固有限制,点云通常是稀疏且不能提供足够的上下文来区分远距离的区域,因此导致了性能的不理想。
为提高3D目标检测的性能,一种自然的方法是利用图片中丰富的语义和纹理信息来补充点云。如图1(a)所示,最近先进的方法引入全局的信息来提高点云和图像特征[2, 5, 7, 8, 22, 23, 25, 27, 34, 54, 55, 60, 69, 71].他们通常将整个场景的点云和图像特征融合。尽管取得了一定的进展,这种方法还是缺乏细粒度的局部信息。对于3D点云,前景目标只占了整个场景的一小部分。仅进行全局融合带来的收益微乎其微。
为了解决上面提到的问题,我们提出了一种新的局部到全局融合(Local-to-Global, LoGoNet)的网络,叫做LoGoNet,在全局和局部两个层级进行激光雷达-点云的融合,如图1(b)所示。我们的LoGoNet由三个新的部分组成,全局融合Global Fusion (GoF), 局部融合Local Fusion (LoF)和特征动态聚合 Feature Dynamic Aggregation (FDA). 特别的,我们的GoF模块建立在以往文献[8,25,34,54,55]的基础上,在整个场景上融合了点云特征和图像特征,其中我们使用点云中心来更精确的表示每个体素特征的位置,实现更好的跨模态配准。并且我们利用中心点定位的全局体素特征,通过可变形交叉注意力[75]来适应性的融合图像信息,采用ROI池化[9,48]来产生ROI-网格特征。
为了给不同距离的目标提供更细粒度区域级的信息,在更细粒度的范围内保留原始的位置信息,我们提出了带有位置信息编码(PIE)的局部融合模块(LoF),将原始点云的位置信息编码到每个提案中均匀统一划分的网格中,然后把这个网格中心投影到图像平面上来采样图像特征。然后,我们通过交叉注意力模块[53]融合采样的图像特征和编码的局部网格特征。为了实现全局融合特征和每个提案中局部融合ROI网格特征的信息交互,我们提出了FDA模块,通过自注意力[53]来生成更多的多模态信息用于第二阶段的细化
我们的LoGoNet在两个3D检测基准上,Waymo Open Dataset (WOD) 和 KITTI 数据集上实现了最佳的性能。值得注意的是,LoGoNet在Waymo 3D物体检测排行榜上名列第一,检测性能达到81.02 mAPH (L2),三个类别的检测性能首次同时超过80 APH (L2)。我们工作的贡献总结如下:

  • 我们提出了一种新的局部到全局融合到网络,即LoGoNet , 可在全局和局部范围内进行激光雷达-相机融合。
  • 我们的LoGoNet由三个新组件组成,即GoF、LoF和FDA模块。LoF提供细粒度的区域级信息以补充GoF。FDA实现了全局特征和局部融合特征之间的信息交互,产生了更具信息量的多模态特征。
  • LoGoNet在WOD和KITTI数据集上取得了最先进的性能。值得注意的是,我们的Lo-GoNet以81.02 mAPH (L2)的成绩在Waymo 3D检测排行榜上名列第一。
    在这里插入图片描述
    图1. (a)全局融合与(b)局部融合的比较。全局融合方法对整个场景的点云特征和图像特征进行融合,缺乏细粒度的区域级信息。所提出的局部融合方法在每个提案上融合两种模式的特征,是对全局融合方法的补充。© Waymo三维检测排行榜[51]中各种方法的性能比较。我们的LoGoNet获得了最高的三维检测性能,明显优于所有基于全局融合的先进检测器和纯激光雷达检测器。与更多方法的详细比较请参见表1。

2.相关工作

基于图像的3D检测

由于相机比LiDAR传感器便宜得多,许多研究人员将图像作为唯一输入信号来进行3D物体检测[14, 17, 35, 36, 70]。对于基于图像的3D物体检测,由于深度信息无法直接从图像中获取,一些研究[40, 45, 56, 70]首先进行深度估计以生成伪LiDAR表示或将二维特征提升到三维空间,然后在三维空间中进行物体检测。最近,一些工作引入了基于变换器的架构[53],在检测管道中利用三维对象查询和三维-二维对应[21, 30, 32, 57]。由于从图像中估计准确的深度信息非常困难,基于图像的方法的性能仍然不如基于激光雷达的方法。

基于激光雷达的三维检测

根据所使用的点云表示类型,目前基于激光雷达的方法可大致分为三类:基于点的方法、基于体素的方法和点-体素融合方法。基于点的方法[43, 44, 49, 50]直接将原始点云作为输入,并采用堆叠的多层感知器(MLP)层来提取点特征。这些基于体素的方法[6, 9, 18, 29, 37, 62, 63, 73]倾向于将点云转换为体素,并利用三维稀疏卷积层提取体素特征。最近的一些研究[11, 13, 15, 38, 47]引入了transformer[53]来捕捉体素之间的长距离关系。点-体素融合方法[16, 29, 48, 65]利用基于体素和基于点的骨干网[43,44]从点云的不同表示中提取特征。

多模态三维检测

多模态融合是一个很有前景的方向,因为它利用了图像和点云的融合。AVOD[23]、MV3D[5]和F-Pointnet[42]是开创性的提案级融合的(pioneering proposal-level)工作,它们分别独立执行两种模态的特征提取,并直接通过二维和三维RoI简单地将多模态特征串联起来。CLOCs[39]直接将预先训练好的2D和3D检测器的检测结果进行合并,而不对特征进行整合。它们在跨模态融合中保持了实例语义的一致性,但却存在粗略的特征聚合和交互的影响。因此,通过跨模态融合(cross-modal fusion)全局增强点云特征的方法受到越来越多的关注。点装饰方法(point decoration)[54,55,60]用从预先训练的分割网络中提取的语义分数或图像特征增来强每个LiDAR点。3D-CVF[69]和EPNet[22]利用学习的校准矩阵(learned calibration matrix)探索跨模态特征融合。最近的研究[25-27, 34]以同样的方法[40]探索了基于视图转换的共享表征空间的全局融合。这些方法在利用点云空间线索方面效率较低,可能会影响相机鸟瞰图(BEV)表示和跨模态配准的质量。此外,许多并行方法[8, 28, 41, 71]引入了交叉注意力[53]模块,通过学习的偏移矩阵(learned offset matrices)自适应地对齐和融合点云特征与图像特征。在本研究中,我们在两阶段细化阶段提出了局部到全局的跨模态融合方法,以进一步提高性能。

3.方法

3.1 概览

如图2所示,LoGoNet的输入是点云及其相关的多摄像机图像,分别定义为一组三维点P = \{(x_i ,y_i ,z_i )|f_i \} R^3_{i=1} 和来自T相机的I = \{ I_i \in\mathbb\ R^{H_I \times W_I \times 3} \}。其中, (x_i ,y_i ,z_i )是第i个点的空间坐标,f_i \in\mathbb\ R^{C_p}是额外的特征包含每个点的长度或者伸长率,N是点云中点的数量,H^IW^I分别代表输入图片的高度和宽度。
对于点云分支,给定输入点云,我们使用基于3D体素的骨干网络[63, 73] 来产生1×,2×,4× 和 8× 降采样的体素特征F_V \in\mathbb\ R ^ {X Y Z C_V},其中C_V是每个体素特征的通道数。然后,我们使用一个区域提取网络[63, 68] 从提取的分层体素特征中生成原始的候选框(proposals)B={B_1,B_2,...,B_n}。至于图像分支,原始的多相机图像被一个2维检测器[33,46]处理,产生密集语义图像特征F_I \in\mathbb\ R ^ { {H_I\over4} \times {W_I\over4} \times{C_I}},其中C_I是图像特征的通道数量。最终,我们应用局部到全局的跨模态融合到2阶段的细化中,其中多层级体素特征F_V,图像特征F_I和源于原始点云的局部位置信息自适应的被融合。
我们的局部到全局融合方法主要包括全局融合(GoF)、局部融合(LoF)和特征动态聚合(FDA)模块。在下面的章节中,我们将对这些模块进行详细的解释。
在这里插入图片描述
图 2. LoGoNet 概览示意图。输入的点云首先进行体素化处理,然后输入三维骨干网和区域建议网络(RPN),以生成初始建议。输入的多摄像头图像由训练有素的二维检测器处理,生成图像特征F_I。三维骨干网的多级体素特征F_V和图像特征F_I随后被发送到提出的局部到全局跨模态融合模块。局部到全局融合主要包括全局融合(GoF)、局部融合(LoF)和特征动态聚合(FDA)模块。最后,融合后的多模态特征分别用于细化粗候选框及其置信度得分。

3.2 全局融合模块

以前的全局融合方法[7,8,22,25,28,54,55,69]通常使用体素中心表示每个体素特征的位置。然而,这种做法不可避免地忽略了每个体素内点的实际分布。正如KPConv和PDV[18, 52]所观察到的,体素点中心(voxel point centroids are)更接近于物体的扫描表面。它们能提供原始几何形状信息,并能更有效地缩放至大规模点云。因此,我们设计了中心点动态融合(CDF)模块,在全局体素特征空间中将点云特征与图像特征进行自适应融合。我们利用这些体素点中心点来表示非空体素特征的空间位置。这些体素特征及其相关的图像特征通过可变形交叉注意力模块[53,75]进行自适应融合,如图3所示。
在这里插入图片描述
图3. 全局融合模块。我们首先计算非空体素特征的点中心,然后将这些点中心投影到图像平面上,并通过可学习的动态偏移(learnable dynamic offset)将语义特征聚合到图像特征F_I中。然后,我们通过交叉注意力模块融合采样图像特征Fˆ^i_I和体素特征,来产生跨模态特征F^*_V。最后,ROI-网格特征F^g_B由RoI池化操作产生。

形式上,给定非空体素特征集F_V = {V_i,f_{V_i}}^{N_V}_{i=1}和图像特征F_I,其中V_i是体素索引,f_{V_i}∈R^{C_V}是非空体素特征向量,N_V为非空体素数量。每个体素特征f_{V_i}的点中心点c_i通过平均同一体素V_i内所有点的空间位置计算得出:
c_i = {1\over |\Rho(V_i)|} \sum_{p_i ∈ \Rho(V_i)} p_i(1)
其中p_i = (x_i ,y_i ,z_i)是空间坐标,|\Rho(V_i)|是体素V_i内点的数量。
接下来,我们按照[18, 52]的方法为每个计算出的体素点中心点分配一个体素网格索引,并通过哈希表匹配关联的体素特征。然后,我们利用摄像机投影矩阵M,根据计算出的体素点中心点c_i,计算出图像平面上的参考点p_i
p_i = M · c_i (2)
其中,M为摄像机本征矩阵intrinsic matrix与外征矩阵extrinsic matrix的乘积,运算-为矩阵乘法。基于参考点,我们通过对参考点周围的一组图像特征Fk I进行加权,生成加权图像特征Fˆi。我们将每个体素特征记为Query Qi,将采样特征Fˆi I为Key和Value。
整个中心点动态融合过程的公式为:
在这里插入图片描述

其中,WW'是可学习权重,M是自注意力头,K是采样点的总数。\Delta p_ {mik}A _ {mik}分别代表第m个注意力头、第k个采样点,的采样偏移注意力权重。这两种特征都是通过在查询特征Q_i上的线性投影得到的。我们将 图像增强体素特征原始体素特征 合并,得到融合体素特征F^*_V∈R^{N×C_V}。然后,我们Fˆ^i_I上在采用一个FFN来生成通道数,从CDF模块中获得最终的融合特征,其中FFN代表一个前向反馈网络。最后,我们在F^*_V上执行ROI池化[9, 18],来为随后的提案细化生成生成提案特征F^g_B

3.3 局部融合模块

为了在多模态融合过程中提供更加局部和精细的几何融合信息,我们提出了带有网格点动态融合(GDF)的局部融合(LoF)模块,该模块可在候选框(proposal)级别动态融合点云特征和图像特征。
具体来说,给定每个候选框B_i,我们将其划分为u × u × u规则体素网格G_j,其中j表示体素网格。中心点z_j作为对应体素网格G_j的网格点。首先,我们使用位置信息编码器(PIE)对相关位置信息进行编码,并为每个候选框生成网格特征F^j_G。每个proposal的网格由PIE处理,得到局部网格-ROI特征F^p_B = {F^1 _G,F^2_G, ...F^{u^3}_G }. 每个网格特征的F^j_G的PIE计算如下,
F^j_G = MLP(γ,c_B,log(|N_{G_j}|+\tau)) (4)

其中,γ = z_j -c_B是每个网格与候选框中心点 c_B 的相对位置,|N_{G_j}| 是每个体素网格G_j中的点数,\tau是常数偏移。每个网格中的这些信息为在区域候选框中建立精细的跨模态融合提供了基础。
除了使用原始点云在每个体素网格内的位置信息外,我们还提出了网格动态融合(GDF)模块,使模型能够根据这些编码的局部ROI网格特征F^p_B,将相关图像特征吸收到局部方案中。接下来,与GoF模块类似,我们将网格点G的每个中心点z_j投影到多视角图像平面上,并为每个候选框获得多个参考点O∈R^{u^3},以采样图像特征进行局部多模态特征赋值。我们使用交叉注意力来融合局部采样的图像特征和编码的局部ROI网格特征F^p_B. 查询特征Q由ROI网格特征F^p_B生成查询特征Q。然后,将图像增强后的局部网格特征与原始局部网格特征进行融合,得到融合网格特征Fˆ^l_B. 最后,对Fˆ^l_B上进行FFN处理,以减少通道数,得到最终的融合ROI-网格特征FlB.。

3.4 特征动态聚合模块

经过LoF、GoF和PIE模块后,我们得到三个特征,即F^p_BF^l_BF^g_B。这些特征是独立产生的,信息交互和聚合较少。因此,我们提出了特征动态聚合(FDA)模块,该模块引入了自注意[53],自适应地建立不同网格点之间的关系。具体来说,我们首先得到每个候选框中所有编码网格点的聚合特征F_S,如式5所示:
在这里插入图片描述

然后,如图5所示,引入自注意模块,在非空网格点特征与标准transformer编码器层[53]和残差连接块(RCB)之间建立相互联系。最后,我们使用FDA模块生成的共享扁平化特征来完善边界框。

3.5 训练损失

件保持不变。

4.实验

数据集。

设置。

训练细节

4.1 结果

Waymo.

KITTI.

4.2 消融实验

每个组件的有效性。

5.总结

案。

全部评论 (0)

还没有任何评论哟~