论文笔记_S2D.56_基于视觉和激光雷达融合的SLAM(综述2020)
目录
基本情况:
摘要
I 介绍
II SLAM
III V-SLAM
IV LiDAR Based SLAM
4.1 扫描匹配和图优化
4.1.1 占用图和粒子过滤器
4.1.2 回环检测提纯(Refinement)步骤
V LiDAR-Camera Fusion
5.1 强制校准步骤
5.2 Visual-LiDAR SLAM
5.2.1 EKF混合SLAM
5.2.2 改进Visual SLAM
5.2.3 改进LiDAR SLAM
5.2.4 并发LiDAR-Visual SLAM
5.3 小结
VI 讨论未来的研究方向
VII 结论
基本情况:
出处:Debunne和Vivet(2020)。对基于视觉LiDAR融合的同时定位与建图进行综合分析[J]。传感器学报, 2020, 43(7):7911-7919.
摘要
自主导航不仅要求精确的地图和定位方案,并且还需要具备高度的自主决策能力。
I 介绍
近年来,移动机器人自主导航技术的发展一直是研究热点。主要关注点在于:首先是机器人自身的精确可靠的自我定位能力;其次是对其所处环境的认知与感知能力。其中最为常用的技术手段之一是基于全球导航卫星系统的GNSS定位方案,可实现高精度的全球范围定位服务。然而,在复杂环境中如隧道、山洞和城市峡谷等地方,则难以确保该方案的有效应用和精准度,在这些情况下可能会出现几米级的位置误差进而影响整体导航效果
此外
SLAM是一种机器人系统利用多种传感器生成环境地图的同时估算其位置的过程。随后,使用者可以通过这种地图来直观地了解环境并规划机器人的运动轨迹。自主导航即是这种情况,在此情况下。机器人必须规划自己的路径,并作出合理判断。即使遇到一些意外情况。目前而言,在自动驾驶汽车领域中对SLAM技术的研究最多的是自动驾驶汽车领域中对SLAM技术的应用背景之一
目前,行业界正在研发被称为'自动驾驶'的技术或产品。然而这些系统仅处于辅助驾驶阶段必须被视为辅助驾驶系统因为它们无法完全实现连续不断的道路自主行驶功能。其功能受限于极端条件下的安全需求例如只能在高速公路上或者简单的交通场景中稳定运行并引用文献[1]作为理论基础。而像谷歌所做的那样在广袤的道路环境下行驶需要预先建立精确的三维地图(文献[2])。
大部分自动驾驶车辆主要依赖激光雷达(LiDAR)以及/或立体摄像头进行环境感知活动。这些系统通常会结合差分GPS系统(D-GPS)或者卫星增强定位系统(SBAS),并配合惯性测量装置(IMU),以提升定位解决方案的稳定性和可靠性[3]。如果能够采用优质的GNSS信号,则定位精度可能达到几厘米级的高度。然而,在无法信任GNSS信号的情况下,则必须探索其他定位方案的可能性。目前而言,在这一领域最成功的创新方法已尝试将外在感知传感器如RADAR、LiDAR以及单眼/立体相机等技术与经典的本体感测设备(IMU、里程计)相结合应用。通过这种方式可以有效减少由于相对定位方法引起的累积误差而导致的位置漂移现象[4]。值得注意的是,在外感传感器中相机与LiDAR被认为是两种功能截然不同的设备:前者在障碍物探测方面表现出色但对雨水较为敏感;后者则擅长对场景进行语义分析但受限于恶劣光照条件的应用范围较窄。尽管它们之间存在一定的局限性但由于两者具有互补性因此融合使用能够平衡各自的主要缺点并提升整体性能表现[5])。然而,在SLAM问题中所面临的最困难的问题之一便是错误累积值可达到任意高度[6])。通过整合视觉传感器与LiDAR技术不仅能够降低局部不确定度还能有效限制整体位置漂移现象的发生风险
本文旨在介绍现有的SLAM方法综述,主要关注点在于创新性地结合了新型混合LiDAR相机方案。为此,为便于新加入该领域的研究人员快速了解本研究工作,我们计划在本研究中详细阐述
- 为使读者更好地理解本节内容,在第2节中首先简要介绍SLAM技术的理论基础。 进一步地,在当前研究领域中, 最新的LiDAR相机解决方案多采用视觉SLAM与LiDAR SLAM相结合的方式, 因此我们有必要对这两种模式下的SLAM方法进行详细阐述。
- 第3节将重点阐述基于单目相机和立体相机的不同类型视觉 SLAM 方法, 同时还包括现代RGB-D传感器和事件相机等前沿技术。
- 然后, 第4节将深入阐述基于LiDAR技术的SLAM方法, 包括激光雷达的基本原理及其在动态环境中的应用。
- 最后,在第5节中我们将探讨混合摄像机 LiDAR SLAM 技术的发展现状及其应用场景, 以全面了解该领域的最新进展。
- 在第6节中, 我们还将讨论尚未解决的关键问题与未来研究方向。
II SLAM
- 1、SLAM的概率方法解释

- 2、基于图的SLAM框架

III V-SLAM
- 1、所有这些视觉SLAM在光线改变或者低纹理环境都容易出错。

IV LiDAR Based SLAM
- 1、基于激光雷达的主要方案是基于扫描匹配算法实现定位与建图,随后采用图优化技术进行路径规划
- 2、每个节点代表一个传感器测量结果,边则代表测量带来的约束条件
- 3、栅格地图构建的基础是栅格地图构建的方法,而粒子滤波器则是通过粒子滤波器实现的方式进行动态环境建模
- 4、在回环检测阶段通常采用全局优化算法以确保路径闭合性
所有用于执行SLAM的移动机器人都普遍采用了外部传感器。尽管基于雷达的SLAM已被证实具有有效性[44-46](尽管基于雷达的SLAM已被证实具有有效性[44-46]),但鉴于LIDAR技术的发展(但鉴于LIDAR技术的发展),我们决定将本文的重点放在激光扫描设备上(但我们决定将本文的重点放在激光扫描设备上)。其中主要原因之一是(其中一个主要原因就是),雷达精度不足(另一个原因是),无法生成精确且完整的三维环境地图(此外还因为),这使得将其与其他类型的视觉传感器融合变得极为复杂)。然而LIDAR技术因其精确度和可靠性的优势仍受到广泛关注(尽管如此)。确实, 将LiDAR应用于SLAM问题, 可以实现
- 低漂移运动估计,
- 并且具有可接受的计算复杂度[47]。
激光扫描方法被普遍认为是2D和三维映射研究的基础框架。 LiDAR能够生成点云数据集,在实际应用中这些点云可被解读为实现SLAM的关键要素之一。 Stop-and-scan技术[48]是利用LiDAR技术最早实现SLAM方案之一,在这一过程中成功避免了因运动引起的图像失真问题。然而该方法并非可靠的导航解决方案。当与惯性测量单元(IMU)结合使用时,则可引入一种基于速度信息的误差模型来校正运动失真[49]。尽管IMU设备通常用于防止数据失真问题的发生但它也被广泛应用于预测性运动分析领域中。研究表明文献[50]指出基于LiDAR实现的导航方案可能会导致过度收敛的问题同时仅依赖于LiDAR测距技术进行精度分析显得略显不足。值得注意的是尽管LiDAR技术的应用范围非常广泛但其扫描配准过程仍保持着近十年的技术更新换代速度不变的基础上持续改进着基于此的导航解决方案仍需进一步探索和发展
- 扫描匹配方法,
- 然后是图优化。
4.1 扫描匹配和图优化
扫描配准 是基于LiDAR构建三维地图的关键步骤,在此过程中可获得精确的空间运动信息。三维点云注册 的标准方法是迭代最近点(ICP)算法[51]。关于其原理,请参见图4所示的内容。该方法的主要缺陷在于对点对应关系的计算开销较大且对初始值的高度敏感性。为了克服这些局限性,在实现ICP时通常会采用辅助数据结构以加速运算过程。例如,[47]中的研究指出通过引入 kd-tree 数据结构来加速最近邻搜索能有效提升算法效率。此外,[52]提出了一种改进型ICP算法——广义ICP(GICP),其核心思想是通过考虑扫描平面几何概率分布模型 来增强算法鲁棒性。作为另一种替代方案,极坐标配准法(PSM)[53]利用激光测距仪提供的极坐标信息来估计各点间的配准关系,从而实现精确配准功能

图4. ICP算法的基本原理在于每次迭代期间从两次扫描中提取最近接的数据点。通过这些匹配关系将转换应用到第二次扫描上。这个过程不断重复下去,直至满足预设成本标准。
为了降低局部误差目标,“图模型方法”[54]可用于与LiDAR协同工作。机器人姿态的历史记录通过图形表示:每个节点代表传感器的测量值而边则表示由观察产生的约束(源自ICP的结果)。所有依赖于姿态图的方法均可借助多种优化手段(如Levenberg–Marquardt优化器)来求解。举飞机导航为例时,则文献[55]提出了一种结合GNSS和IMU实现2D LiDAR的方法。让我们特别指出的是,在处理2D和3D LiDAR时都可进行扫描匹配。此外,在2D LiDAR应用中,则假设世界是‘平坦’的,并提出了基于滤波的方法。
4.1.1 占用图和粒子过滤器
解决SLAM问题的一种高效途径是采用Rao-Blackwellized粒子滤波器的具体实例(如Gmapping [56])。该方法显著降低了局部误差,并在平面环境中展现了独特的性能。每个粒子对应一个潜在的机器人姿态及相关的视觉信息。然而,在正确建模环境所需的大量粒子时,计算开销变得不容忽视。研究显示,在二维SLAM场景中应用这种算法时(如文献[57]所述),其核心机制基于概率模型进行精确的状态估计。这导致了更为高效的估算精度。当然由于占用栅格的大小使这种技术扩展至三维空间时面临诸多挑战。
4.1.2 回环检测提纯(Refinement)步骤
早期提出的解决方案支持结合里程计数据进行定位;为此目的,在LiDAR里程表中实现了闭环步骤;为此目标,在机器人被放置在预设位置后旨在通过循环闭合操作提高全局地图的一致性;可以通过[58]等基于特征的方法来执行
对于激光扫描技术,在实际应用中通常采用几何特征来进行匹配操作。这些特征包括直线、平面或球体等基本形状元素,在不同扫描之间建立对应关系以确定循环位姿。由于现有算法在实时性方面存在局限性,在文献[59]中提出了一种基于多幅图的子图匹配方法。所有完成的子图都会被自动嵌入到全局的扫描匹配框架中,并通过滑动窗口内的循环检测机制来实现闭环定位过程
Magnusson等(60)提出了基于表面方向和平滑度特征建立的**正态分布变换(NDT)**模型来实现原始回环检测过程,并将其应用于三维点云数据处理中。该方法通过分析表面法向量和平面平滑度特征来构建环境描述模型。
[55]中的研究工作验证了通过闭环处理有效减少了LiDAR-SLAM系统整体漂移现象的发生概率,并且仅增加了用于检测回路位置的一体化模块以提升定位精度。表2列出了基于LiDAR实现的SLAM系统性能指标。
V LiDAR-Camera Fusion
正如所知,在应用视觉传感器或LiDAR时能够实现SLAM技术。当前研究者们关注的是视觉传感器的优势。
- 即使V-SLAM能够实现高度准确的结果,
- 也存在一些局限性,
- 例如,在单目条件下会出现尺度漂移问题,
- 深度估计存在不足(主要源于延迟深度初始化的问题),或者立体视觉的有效覆盖范围有限,
- 同时也会导致地图重建呈现高度稀疏的特点(尤其是针对基于特征匹配的方法)。
- 考虑到基于3D LiDAR的空间定位技术通常依赖于扫描匹配算法和姿态图构建的方法,
- 虽然一些解决方案更关注于地标检测与特征提取,
- 但这些系统往往生成的数据点云较为稀疏,在实际应用中可能难以满足效率要求。
- 尽管如此,在测距精度与地图绘制方面LiDAR技术展现出了显著的优势。
当下显而易见的是,在现代SLAM应用中采用两种方案进行结合将会产生积极影响。然而,在采用这些方案之前都必须经历一个复杂且耗时的第一阶段——校准过程。本节旨在介绍当前可用的校准工具以及基于LiDAR相机融合方法的技术
5.1 强制校准步骤
为实现具有卓越性能的LiDAR相机融合以执行SLAM任务,必须保证两套传感器间的精确标定。如图5所示,在外标定过程中需完成对相机与LiDAR设备间相对坐标系的关联。
最初提出一种交互式的校准方案用于将相机与LiDAR设备对齐的一类工具箱中的一项是[61]。该方案通过在相机框架上标记关键点并同步标注对应的几何特征位置来实现对齐过程。
- [62]中的工作具体阐述了基于棋盘的自动生成相机激光标定方法。
该系统通过利用直线提取技术推断传感器间的刚性变换关系。
然而这些离线标定技术受限于外部参数每天的变化以及特殊环境条件的影响 无法满足实时需求。 - 随着深度学习技术的应用 推动了基于深度卷积神经网络(CNN)的标定方法的发展。
该算法将LiDAR回波与摄像机视差信息相结合来计算标定参数 并提供了一种高效的在线计算方案。
尽管如此 现有标定方法尚无法满足实时应用的需求。

图5. 外参校准原理旨在在一个固定的坐标系中确定激光雷达与相机之间的刚性变换关系MCL。现在一般采用二维或三维标定板等校准目标,并通过检测每种标定板上的特定模式(如MBL和MCB)来实现此过程的人工操作。
5.2 Visual-LiDAR SLAM
5.2.1 EKF混合SLAM
基于视觉激光雷达(VSLR) SLAM框架下,已有研究表明可优化 EKF SLAM 的经典公式以便实现对这种传感器数据的有效融合。
- [64]中的研究采用了基于数据关联的新EKF(扩展卡尔曼滤波)表达方式,在此基础上显著提升了SLAM(同步定位与建图)系统的精度。
- [65]中的创新性成果还引入了带LiDAR EKF SLAM(基于李特尔雷达增强的卡尔曼滤波同步定位与建图)技术,并针对视觉跟踪出现故障的情况提出了相应的解决方案。
- 如果在实际应用中出现视觉跟踪失败的问题,则采用了通过LiDAR的姿态估计对RGB-D( RGB +深度摄像头)摄像机进行点云数据定位以构建3D地图的方法。
- 该方法本质上并未实现两者的融合功能而是采用了模式切换机制来处理相关问题。
- [66]中的研究成功地将低成本微型飞机硬件平台与基于EKF的视觉与惯性测量系统相结合,并整合了多种先进SLAM算法。
- 在该系统中引入了2D LiDAR技术以生成2.5D地图并改善机器人姿态估计效果。
- 然而这种松散耦合的方式仍然无法满足对LiDAR与视觉传感器进行紧密融合的需求。
- 目前学术界仍面临着如何构建更加紧密耦合的LiDAR-视觉传感器融合算法这一亟待解决的问题。
5.2.2 改进Visual SLAM
从另一个角度分析,视觉SLAM技术卓越性能促使人们被推动采用传感器融合技术,在这些系统框架内实现最佳方案的应用。
- 在[67] LIMO 中,LiDAR测量用于深度提取。在将点云投影到框架后,使用基于可视关键帧的束调整执行运动估计和建图。
- 文献[68]提出了一种直接的视觉SLAM,它使用了LiDAR的稀疏深度点云(图6)。但是,由于相机分辨率远高于LiDAR分辨率,因此很多像素都没有深度信息。
- 在[69]中提出的工作提供了解决分辨率匹配问题的解决方案。在计算两个传感器之间的几何变换之后,进行了高斯过程回归以对缺失值进行插值 。因此,仅使用LiDAR 即可直接初始化图像中检测到的特征 ,方法与RGB-D传感器相同。
- 张等[70]提出了与一维激光测距仪 相关的单眼SLAM。由于单眼SLAM经常遭受标度漂移的影响,因此该解决方案以非常低的硬件成本提供了有效的漂移校正。
- Scherer等 [71]借助飞行机器人和混合框架,绘制了河流的路线和植被。通过视觉测距法 结合惯性测量 进行状态估计,并使用LiDAR感测障碍物并绘制河流边界。但是,点云可能包含被遮挡的点,这些点会降低估计的准确性。
- 文献[72]中的工作通过提出一种具有遮挡点检测器 和共面检测器 的直接SLAM方法来解决这个问题。在这些最后的文章中,视觉SLAM估计姿势用于在映射阶段记录LiDAR点云。

5.2.3 改进LiDAR SLAM
在视觉LiDAR SLAM的诸多应用场景中,在这种系统架构下,LiDAR通过扫描匹配技术实现运动估计功能。相机则负责特征提取过程。
- 梁等[73]采用了配置了ORB功能的视觉回环检测方案,并通过扫描匹配实现了增强基[LiDAR] SLAM性能的目标。
- 在[74]中, 基于3D激光的SLAM与一种视觉方法实现了关联, 利用视觉词袋, 通过基于关键帧的技术实现了循环检测的功能. 此外, 可以采用LiDAR相机融合, 以实现迭代最近点算法(ICP)的优化.
- [75]中的工作利用视觉信息对刚性转换进行了估计, 并将其作为广义ICP框架的基础元素加以应用.
5.2.4 并发LiDAR-Visual SLAM
其他作品试图将LiDAR和visual-SLAM结果结合起来。
- [76]中的工作建议通过利用各模态的实时运行结果以及融合数据,在优化阶段实现视觉与LiDAR测量。
- 基于他们先前的研究成果构建了该方法。
- 该视觉-激光测距算法整合了高频率视觉测距模块与低频率激光雷达测距模块。
- 该算法能够有效结合高频视觉测距结果与低频LiDAR测距信息。
- 在这一框架下设计出了目前最有效的融合方案。
- 该框架综合考虑了激光雷达与视觉特征约束,并采用特定的目标函数进行图优化。
- 机器人在运动过程中同时获得了基于激光雷达和图像的数据支持。
- 此外还生成了一个2.5D深度贴图来辅助回环检测过程。
5.3 小结
综上所述,在实现这种SLAM的所有方法中(如图7所示),对混合框架的研究仍显不足。 传感器融合技术主要是通过增添信息的方式为主导的技术手段之一,在仅依赖LiDAR或视觉的情况下发挥其作用。 基于视觉信息与激光数据构建通用型SLAM系统面临诸多挑战; 而更为紧密地结合使用的LiDAR与视觉传感器融合算法则尚未得到充分关注,并应在现有研究基础上进一步深入探索

VI 讨论未来的研究方向
经过对文献的梳理之后发现目前并未出现一种能够完美结合视觉与LiDAR技术的方法尽管如此我们提出了一种巧妙地结合LiDAR功能以辅助视觉感知的方式这将极大提升SLAM系统的性能具体而言通过巧妙地整合多模式数据我们成功解决了复杂环境中的关键问题这一创新方法不仅能够有效应对光照变化还能够适应不同天气条件的变化因此这种解决方案无疑将显著增强SLAM系统的鲁棒性和适应性
- V-SLAM受限于恶劣的工作环境以及缺乏纹理信息的支持,在这些条件下难以实现有效的三维重建。
- 相较于该方法而言,在复杂天气状况下可能面临误判风险。
- LiDAR SLAM则能够通过精确的距离测量技术,在存在纹理信息的情况下实现三维重建。
- 但在面对广袤的空间和延伸感十足的道路系统时(即缺乏明显几何特征的空间场景),其效果仍有待提升。
我们推荐在多约束MAP框架内采用自不同模式的集合(例如L = fLvision, LLiDARg)来探索几种混合方案(如图8所示)。

基于经典的SLAM架构(如我们在文献[24]中所做的那样),该框架主要包含三个关键环节:
- (1)数据预处理流程中采用两种模态进行特征提取与目标追踪;
- (2)估计过程首先基于目标跟踪所得特征计算车辆位移参数(这些参数可通过ICP算法、基于对极几何理论的目标定位传感器或两者的融合实现,如卡尔曼滤波器或多准则最优化方法)。随后系统会尝试识别并配准地图中的关键点与物体特征。一旦配准完成,则对该物体的姿态进行最优调整(通过滤波技术或综合优化方法)。最终一步将生成新的定位基准点;
- (3)构建全局地图时需要判断当前数据能否提供足够的新增信息来定义关键帧?同时需要判断当前路径是局部优化还是全局优化的需求?
必须主要努力
- (1)用于特征检测的LiDAR扫描分析和
- (2)Camera-LiDAR校准过程。
一旦实现解决这两个关键问题的精确方案,LiDAR与视觉之间的紧密关联将在数据层面实现其潜力,并从而使得状态估计变得更加精确。
VII 结论
研究人员已就...展开了一系列研究
此时,在基于IMU视觉融合感知系统方面已有一些具有显著效果的解决方案得以实现。目前这类方法主要应用于虚拟现实或增强现实环境中的工业自动化操作。尽管RGB-D相机技术备受关注,在复杂天气条件下的观测效果并不理想(受环境光照干扰较大时难以准确定位)。此外视觉定位系统容易受到系统误差影响并且对观察场景中的关键特征缺乏足够的鲁棒性支持。针对室内空间中缺乏明显特征的问题研究者们已开展了包括几何线条、线段或边缘等在内的多种解决方案探索。
这样的landmarks 的主要问题是
- (1)该方法在特征匹配阶段缺乏精确特征表示。
- (2)在复杂初始化过程中的三维目标体检测问题中几乎未被发现。
结果表明, 由于特征不匹配或初始化错误的影响, 在环境的3D稀疏表示中存在一定的不准确性. 最后显示, 在生成混合地图的过程中需要考虑不同类型的地标信息. 然后利用这些多样化的对象和观测数据有效地解决了广义多约束MAP问题.
此外,基于LiDAR的SLAM技术也同时提供了良好的解决方案。然而,该方法通常耗时较长,并且采用了较为简单的扫描匹配算法。目前很少有研究致力于通过提取少量三维标志物来进行3D扫描分析。其原因在于对LiDAR标定物进行分析和提取所需的时间过长。目前尚未出现能够像视觉框架那样高效处理LiDAR标定物的方法。
目前仅限于飞机应用的Li D AR-S L AM系统?然而,在天然的室外环境中这种技术并不十分理想。基于LI D AR技术的S L AM系统主要依赖于IC P等扫描匹配算法。此算法自上世纪七十年代首次提出以来直至今日仍保持不变。
相关研究者已开展了一些将LiDAR与视觉传感器耦合的技术探索,
但这些研究仍局限于较为松散的融合水平。
这种融合过程主要基于两个测距步骤的结果,
这表明LiDAR检测与视觉检测之间缺乏协同作用,
并且在融合相对位移估算的关键环节做出了决定。
其他现有方法仅依赖于LiDAR提供的深度测量信息来初始化视觉特征。
值得注意的是,
激光雷达的能力仍未得到充分挖掘。
未来的工作中, 我们致力于研究一种基于传感器融合技术结合激光雷达数据实时同步处理的方法来实现SLAM系统的紧密集成.
通过将摄像头捕捉到的画面信息与激光雷达生成的空间数据进行整合处理, 并旨在开发一种高可靠性和低定位误差相结合的有效定位方案.
随着激光雷达的价格近年来持续下降, 在未来的时间里这一解决方案有望逐渐降低运行成本.
综述
综述
