Advertisement

DeepI2P: Image-to-Point Cloud Registration via Deep Classification

阅读量:

文章链接https://openaccess.thecvf.com/content/CVPR2021/papers/Li_DeepI2P_Image-to-Point_Cloud_Registration_via_Deep_Classification_CVPR_2021_paper.pdf

摘要:

本文提出了一种创新方法DeepI2P用于图像与点云之间的跨模态注册过程。当一个来自RGB摄像头的图像与一个来自3D激光雷达扫描的数据集在同一场景的不同位置捕获时,在这种情况下我们的方法能够估计摄像机坐标系与激光雷达坐标系之间的相对刚性变换参数。由于两种不同感知模态之间缺乏外观特征和几何关联性学习共同特征描述符以建立注册对应关系成为一个具有挑战性的任务。为此我们采用了将注册问题转化为分类和逆相机投影优化问题的方法从而绕过了这一困难之处为此我们设计了一个分类神经网络来识别点云中每个点在其对应的相机成像锥体内部还是外部区域然后将这些分类结果输入到一个新型逆相机投影求解器中以计算两坐标系间的相对姿态参数最终在牛津机器人车数据集以及KITTI数据集上进行了大量实验结果表明所提出的DeepI2P方法能够有效实现图像与点云间的精确 registration

1. Introduction

图像到点云的配准是指通过寻找使3D点云投影与图像实现对齐所需的刚性转换来实现的过程,这些转换主要由旋转和平移两部分构成.该过程实际上对应于确定成像设备相对于固定3D点云参考坐标系的姿态这一外参参数;这一技术在计算机视觉、机器人学以及增强/虚拟现实等多个领域均有重要的应用价值.

尽管直接且简单的解决注册问题的方法是利用同一模态的数据即图像到图像和点云到点云但这种单一模态的方法也存在一定的局限性

该方法能够缓解同一模态注册方法所面临的问题。具体而言,在跨模态场景下实现图像到点云的 registration 可以有效降低同一模式下可能出现的技术挑战。具体来说,在多机器人系统及移动设备环境下应用该方法时会显著减少维护成本。此外,在实际操作中直接利用激光雷达一次性获取基于3D point cloud 的地图数据并结合相机拍摄所得的图像信息进行姿态估计更为高效可靠。值得注意的是,在某些特定条件下该方法无需面对 Structure-from-Motion (SfM) 所带来的复杂性问题,并且在季节变化及光照条件等方面保持稳定不变。尽管跨模态图像到 point cloud registration 方面已取得诸多优势但其固有的技术难度限制使得相关研究相对较少开展据我们了解 2D3D-MatchNet [11] 是唯一一项针对一般图像到 point cloud 注册工作的先前研究方案该方案主要通过学习机制将基于图像特征的 SIFT 匹配与基于 point cloud 的 ISS 关键点对应起来并采用深度度量学习的方法实现 cross-modal registration 然而由于 SIFT 和 ISS 特征在不同感知域之间的巨大不匹配度该方案仍面临低内点率的问题

在本文中

本文的主要贡献如下:

  • 将问题转化为两阶段分类与优化框架的形式后, 我们成功地绕过了对跨模态特征描述符进行注册所带来的挑战.
  • 我们开发了一种带有多注意机制的双分支架构, 成功增强了跨模态信息融合的能力, 并能够识别相机视角下的三维点坐标.
  • 我们引入了反投影优化算法来确定三维点对应于特定相机位置的可能性.
  • 经过测试分析发现我们的方法能够有效地利用深度分类技术来完成跨模态配准任务.

以下是对原文的同义改写

基于点云的空间配准技术近年来受到了广泛关注。三维空间中的数据使得不同点云可以直接配准而无需建立复杂的特征对应关系。经典的ICP算法及NDT等方法在初始猜测较为合理时表现出良好的效果;而全局优化方法如Go-ICP能够无需初始配置直接执行。这些技术在基于点云的数据处理领域得到了广泛应用;例如LOAM、Cartographer等算法均以此为基础构建了高效的定位解决方案。然而这些技术目前难以适用于跨模态的数据配准问题;因为它们依赖于同一模态下的几何细节才能有效工作。

图像与点云之间的配准过程是该领域的核心问题之一。据现有研究[11]指出,在二维至三维(2D-3D) registration领域中, 2D3D-MatchNet 是唯一的一项针对一般图像-点云配准任务开展研究的先前工作. 该方法利用SIFT[22]算法提取图像特征点, 同时采用ISS[45]提取三维点云的关键特征. 将这些特征分别输入到相似于孪生网络的两个分支中, 并采用三元损失函数进行优化以生成跨模态描述符. 在推理阶段, 该流程采用了经典的基于RANSAC的方法来进行特征匹配, 同时结合基于EPnP[19]优化器来求解这个问题. 然而, 尽管在实验设置上其主要关注场景仅限于接近时间戳捕获的图景, 几乎无相对旋转的情况下运行良好, 但其低内点率却揭示了深度学习模型在不同模态之间学习共性特征所面临的挑战. 此外,[42]提出了一种基于激光雷达地图的空间二维至三维(2D-3D)线对应关系的方法学框架, 但该方案需要依赖精确初始化的支持, 如来自SLAM/Odometry系统等外部辅助定位手段. 相比之下, 包括我们的DeepI2P框架在内的一些最新研究则无需依赖其他精确定位系统的存在即可完成一般性图像至三维配准任务. 其他相关工作[26,4]则聚焦于基于空间定位的信息检索问题而不涉及相对旋转和平移估计等相关内容

全部评论 (0)

还没有任何评论哟~