论文笔记—A Review of Visual-LiDAR Fusion based Simultaneous Localization and Mapping
论文笔记—A Review of Visual-LiDAR Fusion based Simultaneous Localization and Mapping
文章摘要
~~~~~~~自主导航既需要精确又鲁棒的建图和定位解决方案。在这种情况下,同时定位和建图(SLAM)是一个非常合适的解决方案。SLAM用于许多应用,包括移动机器人,自动驾驶汽车,无人驾驶飞行器或自动水下航行器。在这些领域中,对视觉和视觉-IMU SLAM都进行了深入研究,并在文献中定期提出改进建议。然而,LiDAR SLAM(激光雷达SLAM)技术似乎与十年或二十年前相对相同。此外,很少有研究工作专注于视觉-激光雷达方法,而这种融合将具有许多优势。实际上,融合解决方案可改善SLAM的性能,尤其是在剧烈运动,光线不足或视觉特征方面。本研究对visual-LiDAR SLAM进行了全面的调查。在总结了SLAM的基本概念及其实现之后,我们对SLAM的最新研究进行了全面回顾,重点介绍了使用视觉,激光雷达和两种模式的传感器融合的解决方案。
导语
~~~~~~~在过去的几十年中,移动机器人的自主导航一直是一个非常活跃的研究领域,对自主导航的主要要求首先是对机器人本身的良好且准确的定位,其次是对环境的了解或感知。如今,使用的主要定位系统是全球导航卫星系统(GNSS)解决方案,该解决方案能够以很高的精度在地球上提供绝对定位。但是,根据环境(隧道,山洞,城市峡谷等)的不同,这种系统并不总是可用或准确的,并且可能导致几米的误差,这对于安全的自主导航是不可接受的。此外,移动机器人即使在具有潜在障碍的动态环境中也需要能够导航,并且始终没有关于其环境的任何先验信息(行星探测,搜索和救援等)。使机器人能够导航的唯一方法是以某种形式表示环境。在线生成3D地图似乎是3D世界中完整自主导航的起点。这样的地图可以由简单的几何特征组成,也可以由更复杂的语义对象组成。借助一致的地图,机器人将能够检测自由空间,障碍物和易于检测的地标,从而精确安全地导航。这样做,机器人将能够自我探索并绘制未知环境并与之安全交互。这种移动机器人的应用非常广泛:太空探索,自动驾驶汽车,海底分析,采矿应用,搜索和救援,结构检查等等。
这种导航方法称为同时定位和建图(SLAM)。 SLAM是一个机器人系统使用不同种类的传感器同时估计其在环境中位置的方式绘制环境地图的过程。 这样,操作员就可以使用这种地图可视化环境并设置机器人的路径,甚至可以由机器人本身来自主计划自己的任务。 自主导航就是这种情况,在这种情况下,机器人必须规划自己的路径并做出正确的决定,而无需人工干预。 即使发生一些意外事件,这样的机器人也可以保持自身的稳定性并计划其运动。
目前,SLAM应用研究最多的背景之一是自动驾驶汽车的区域 ,因为它需要定位和地图才能在环境中导航。 最近,业界提出了被称为“自动驾驶”的汽车,但是这些汽车只是自动导航的第一步,必须被视为“半自动驾驶汽车”,因为它们只能在非常特殊的情况下保证安全的自动驾驶。 特斯拉自动驾驶仪保证此时仅在高速公路路段或简单情况下自动驾驶,但需要驾驶员全神贯注。 考虑到Google的汽车,它只能在良好的天气条件下使用预先存在的精确3D地图在“宽阔的开阔道路”上行驶。
大多数自动驾驶汽车都使用光检测和测距(LiDAR)和/或立体摄像头来感知其所处的环境。此类系统通常与差分GPS(D-GPS)或基于卫星的增强系统(SBAS)和惯性测量单元(IMU)混合使用,以增强定位解决方案的稳定性。使用此类传感器,如果可以使用非常好的GNSS,则定位精度可能会落在几厘米的范围内。但是,在无法信任GNSS的情况下,必须研究其他本地化解决方案。大多数最先进的技术都试图通过诸如RADAR,LiDAR和单眼/立体相机之类的感受性传感器来解决这一定位问题。通过将此类外感传感器与经典的本体感测传感器(IMU,里程表)混合使用,可以减少或消除由于此类相对定位方法的累积误差而引起的漂移。有趣的是,最常用的方式(相机和激光雷达)是两种截然不同的传感器,各有优缺点。例如,激光扫描仪对于障碍物的检测和跟踪很重要,但对雨水很敏感,而相机通常用于获取场景的语义解释,但不能在恶劣的照明条件下工作。由于它们看起来是互补的,因此它们的融合将平衡各自的主要缺点。还有趣的是,SLAM问题中最具挑战性的问题是可以达到任意高值的错误累积。同时使用视觉传感器和激光雷达传感器可以减少局部不确定性,然后限制整体漂移。
本文的目的是提供一个现有的SLAM方法概述,重点是新颖的混合激光雷达-相机解决方案。 为了使SLAM的新研究人员可以访问本文,我们将在第2节中首先简要提到一下SLAM流程背后的理论。 然后,由于当前最新的主要LiDAR相机解决方案是视觉SLAM和激光雷达SLAM的简单组合,因此我们认为对每种方式的SLAM进行概述很重要。 第3节将重点介绍不同类型的视觉SLAM(V-SLAM)方法,这意味着具有单目和立体相机的V-SLAM,以及现代RGB-D和事件相机。 然后,第4部分将概述基于LiDAR的SLAM。 最后,在第5节中,我们将讨论有关混合摄像机LiDAR SLAM的最新技术,以了解已经覆盖的地面,并在第6节中,还有哪些工作要做。
SLAM
A.本质
~~~~~~~SLAM是一种用于同时估计传感器运动并重建访问区域的几何结构的技术。 这项技术最早于1985年开发出来,实现了机器人的自主控制。SLAM已被广泛研究并应用于各种传感器以及多种机器人平台。
基本思想是使用地标关联,并且需要地标关联来改善解决方案。 结合数据关联,SLAM解决方案可以执行回路闭合,以减少地图中每个姿势的不确定性,因为回路中的每个地标似乎都是相关的。
SLAM是一个估计问题。 我们要估计包括机器人轨迹或位姿的变量\bm{X}和代表环境中地标位置的变量\bm{M}。 给定一组测量值,\bm{Z}= \lbrace z_1,... ,z_m \rbrace和测量或观察模型h(.)表示z_k是\bm{X}和\bm{M}的函数,例如: 
\bm{X_k},\bm{M_k}分别是\bm{X}和\bm{M}的子集以及\varepsilon_k是随机测量噪声。 SLAM倾向于以以下方式解决最大后验(MAP)问题 
p(\bm{Z} | \bm{X},\bm{M})是在给定\bm{X}和\bm{M}的情况下测量\bm{Z} 的可能性,而p(\bm{X},\bm{M})是\bm{X}和\bm{M}的先验知识
假设观测值独立,则(MAP)问题变为: 
该SLAM MAP问题最初是通过扩展卡尔曼滤波器(EKF)解决的。它减少了不确定性,并在算法的每个步骤都给出了估计。 使用概率模型,EKF保证了地图的收敛性和一致性。 但是,它对数据关联错误非常敏感,并且所有地标及其协方差矩阵的永久更新需要大量的计算工作。 图1给出了EKF-SLAM过程的框图。由于采用了诸捆绑调整(BA)或深度神经网络方法之类的优化技术,当前最先进的方法解决了MAP问题。 
B.SLAM框架的概率解决方案
~~~~~~~如前所述,SLAM是一个递归估计过程。 通常以概率的方式来观察这样的过程,其中必须完成经典的预测和更新步骤。
考虑到机器人在未知环境中移动,我们定义:
x_k:描述在时间k的机器人的状态向量
x_{k | k-1}:给定先前状态的知识,在时间k处的估计状态向量
u_k:在k − 1处应用的控制矢量,以将车辆移动到状态x_k(如果提供)
m_i:描述ithlandmark的向量
z_{k,i}:在时间k处对ithlandmark的观察
X:从时间0到k的车辆位置集合
U_{0:k}:从时间0到k的控制输入集合
Z_{0:k}:从时间0到k的观测值集合
M:一组地标或地图
M_{k | k-1}:已知在时间k − 1处的前一个图,在时间k处的估计图。
当我们考虑SLAM的概率形式时,在每个时间k,我们要计算概率分布函数: 
要继续,我们必须使用递归解决方案
它使用先验P(x_{k-1 | k-1},M_{k-1 | k-1} | Z_{0:k-1},U_{0:k-1})由u_k和z_k更新。
为此,我们首先需要定义一个运动模型,以给定控制输入P(x_{k} | x_{k-1},u_k)的状态预测状态: 
同样,我们还必须定义一个感知或观察模型P(z_{i,k} | X_k,M),该模型将在时间k将关于检测i的传感器数据链接到估计状态,使得: 
图2显示了SLAM流程,该流程代表了本节中使用的所有变量。 
在此步骤中,我们已经计算了预测步骤和更新步骤,并且SLAM可以分别表示为以下等式的迭代估计,该等式是等式(5)和(6)的组合

公式(7)给出了SLAM实现的递归贝叶斯方法。SLAM问题的解决方案必须对运动模型和感知模型都进行适当的计算,以有效地计算递归方法。当前的最新方法通常使用惯性测量单元机械化作为预测步骤或关于车辆运动(恒定速度,恒定加速度等)的假设。考虑到观察模型,在视觉SLAM的情况下,它通常基于反深度或经典透视模型。考虑到LiDAR,RGB-D或RADAR方法,观察模型要容易得多,因为观察是直接的3D世界的3D测量。 
在T = [R,t]的情况下,提供传感器6D位姿的刚性变换,在K处提供传感器的内在函数,以及\Pi(.)透视投影函数。 可以看出,应该将该函数取反以匹配经典的观察模型(P3D = g(P2D,K,T))。 然而,这样的倒置不是直接的,因此估计步骤通常被推迟用于附加的P2D观测。 然后,处理P3D_{map}三角剖分。
C.SLAM框架的基于图的解决方案
~~~~~~~在LiDAR情况下,该模型很简单,因为观察是通过经典的刚性变换直接链接到状态的,例如:

即使概率框架可以随LiDAR数据一起使用,但由于基于图的方法只能对相对转换的集合进行优化,因此通常可以解决此类SLAM方法。
基于SLAM图的公式通过抽象原始传感器测量值,它构造了一个更简单的估计问题。 原始测量值将替换为图中的边缘,可以将其视为“虚拟测量值”。 实际上,这样的边缘被标记为以两个姿势的相互测量为条件的两个姿势的相对位置上的概率分布。 如图3所示,该过程由两个主要模块组成:图形构造(前端)和图形优化(后端)。 在有限制的情况下,大多数优化技术都专注于计算最佳地图:这是SLAM后端。 相反,SLAM前端试图从传感器数据中估计最佳约束。
有关基于图的SLAM的教程,可以参考。 
视觉SLAM
~~~~~~~在提醒了SLAM理论之后,本节的目的是简要概述执行视觉SLAM的所有现有方法。 Visual SLAM是机器人技术中最活跃的研究领域之一。视觉传感器一直是SLAM解决方案的主要研究方向,因为它们价格便宜,能够收集大量信息并提供较大的测量范围。 visual-SLAM的原理很容易理解。这种系统的目的是根据图像序列中像素的感知运动来顺序估计摄像机运动。这可以通过不同的方式来完成。第一种方法是检测和跟踪图像中的一些重要点。这就是我们所说的基于功能的视觉SLAM。另一个是在不提取特征的情况下使用整个图像。这种方法称为直接SLAM。当然,也存在使用不同相机的其他SLAM解决方案,例如RGB-D或飞行时间(ToF)相机(不仅提供图像,还提供景深),还有事件相机(仅检测图片中的变化)。
在本节中,为清楚起见,我们建议将visual-SLAM分解为这些不同的系列
A.基于特征的SLAM
~~~~~~~基于特征的SLAM可以再次分解为两个子系列:基于过滤器和基于捆绑调整(BA)的方法。Davison等人于2003年提出了第一种单眼方法MonoSLAM。通过使用扩展的卡尔曼滤波器可以简单地完成特征和位姿的估计。在大型环境中,这种基于过滤器的技术已显示出局限性,因为必须在状态中保存太多特征。为了减少这个问题,在2007年提出了PTAM 。它将姿态和地图估计分为不同的线程,并建议使用BA。当然,还提出了许多扩展。为了使用BA改进基于特征的SLAM,添加了闭环以检测是否已经看到关键帧。在撰写本文时,SLAM最常用的算法是ORB-SLAM。这种算法包含了大多数“技巧”,可以提高SLAM的性能,并可以使用不同的算法处理单眼,立体和RGB-D摄像机配置。这种算法的问题是需要大量的输入参数进行调整以使SLAM在给定的环境中工作。
B.直接SLAM
~~~~~~~与基于特征的方法相比,直接方法无需任何特征检测器和描述符即可直接使用图像。这种无特征的方法通常使用光度一致性来配准两个连续的图像(对于基于特征的方法,该配准基于特征点的几何位置)。在此类别中,最著名的方法是DTAM,LSD-SLAM,SVO 或DSO。最后,随着深度学习的发展,出现了一些SLAM应用程序来模仿以前提出的方法。 此类研究工作生成了代表环境的半致密地图,但是直接SLAM方法非常耗时,并且通常需要基于GPU的处理。
C.RGBD-SLAM
~~~~~~~基于结构化光的RGB-D摄像机传感器最近变得便宜且体积小。这类摄像机可以实时提供3D信息,但由于其范围小于4到5米,并且距离较远,因此最有可能用于室内导航。 技术对阳光非常敏感。
D.活动相机SLAM
~~~~~~~最后,事件相机是一种受生物启发的成像传感器,可以通过检测视觉“事件”(即图像中的变化)来提供“无限”的帧速率。 这种传感器最近已用于V-SLAM。 但是,这项技术还不够成熟,无法得出关于SLAM应用程序的性能的结论。
E.视觉SLAM结论
~~~~~~~V-SLAM研究领域非常丰富,我们只对主要方法进行了回顾。 要更全面地查看visual-SLAM,可以阅读[42,43]。 即使V-SLAM提供了很好的结果,所有这些V-SLAM解决方案也容易出错,因为它们对光线变化或低纹理环境敏感。 此外,基于RGB-D的方法对日光非常敏感,因为它们基于红外光。 结果,它们仅在室内场景下表现良好。考虑到其他视觉方法,它们在无法准确估计像素位移的无纹理或恶劣环境下的性能较差。 最后,图像分析仍然需要很高的计算复杂度。 总结见表1。

这些缺点促使研究人员创建了优化的强大算法,可以处理数据错误并减少执行时间。 由于所有这些原因,还针对SLAM工艺对其他传感器进行了研究。 目前,首批自动驾驶汽车原型主要依靠其他传感器:RADAR或LiDAR
基于SLAM的激光雷达
~~~~~~~每个设计为执行SLAM的移动机器人的共同点是,它们都使用了外感传感器。 即使基于雷达的SLAM被证明是有效的,我们还是选择将本文的注意力集中在激光扫描设备上。 这种选择的一个原因是,雷达还不够准确,无法提供车辆周围的良好3D映射,因此,将其与视觉传感器融合非常困难。 考虑到LiDAR,使用激光扫描仪进行3D映射由于其简单性以及准确性而仍然是一种流行的技术。确实,将LiDAR应用于SLAM问题后,就可以实现低漂移运动估计,且计算复杂度可以接受。
激光扫描方法似乎是2D和3D映射研究的基石。LiDAR可以提供点云,该点云可以轻松解释为执行SLAM。 停止扫描是使用LiDAR达到适当SLAM解决方案的首批尝试之一。它避免了运动失真,但不是导航目的的可靠解决方案。与IMU的融合可以使用将速度信息作为输入的误差模型来校正运动失真。 虽然IMU通常用于使数据不失真,但也经常用于预测运动。 文献[50]中的研究表明,这种方法仅基于LiDAR失真分析就可能导致过度收敛和拟定里程计。
有趣的是,即使LiDAR的应用非常广泛,但近十年来,用于LiDAR扫描配准的技术一直保持不变。 基于LiDAR导航的主要解决方案是扫描匹配方法,然后是图形优化。
A.扫描匹配和图形优化
~~~~~~~扫描匹配是使用LiDAR创建3D地图的基本过程,可提供有关运动的精确信息。 配准3D点云的一般方法是迭代最近点(ICP)。 有关原理,请参见图4。其主要缺点是对点对应关系的昂贵搜索以及对最小化起点的高度敏感性。 为了解决这个问题,可以引入kd-tree结构来加快对最接近点的搜索。 [52]中的工作表明,通过使用考虑了扫描平面结构的概率框架,可以增强ICP的鲁棒性。 这是广义ICP。 另一种方法是极坐标扫描匹配(PSM),它利用激光扫描仪传递的极坐标来估计每个点之间的匹配。

为了减少局部误差,基于图的方法[54]可以与LiDAR一起使用。 机器人位姿的历史记录由图形表示:每个节点代表传感器的测量值,边缘代表由观察产生的约束(来自ICP结果)。 依赖于姿势图的所有方法都可以使用各种优化方法(例如Levenberg–Marquardt优化器)来求解。
作为飞机导航的一个例子,在[55]中提出了将二维LiDAR与GNSS和IMU结合使用的建议。
让我们注意,可以对2D和3D LiDAR都进行扫描匹配。 考虑到2D LiDAR的应用,在“平坦”世界假设的情况下,还提出了基于滤波的方法。
1.占用图和粒子过滤器
~~~~~~~解决SLAM问题的另一种有效方法是使用Rao Blackwellized粒子过滤器,例如Gmapping [56]。 它极大地减少了局部误差,并在平面环境中提供了有趣的结果。 每个粒子代表一个可能的机器人姿势和贴图。 然而,正确的环境建图所需的大量粒子会导致不可忽略的计算时间。[57]中的工作表明,应用于2D SLAM的粒子滤波器能够基于似然模型来计算高精度的建议分布。 结果是获得了精确的占用栅格图,其中包含比传统方法小一个数量级的多个粒子。 当然,由于占用栅格的大小,使此类技术适应3D非常困难
2.闭环精炼步骤
~~~~~~~先前的解决方案允许获得里程表并以里程表的方式构建环境图。为了完全解决SLAM问题,已将闭环步骤添加到LiDAR里程表中。为了提高全局地图的一致性,当机器人将自己放置在预先确定的位置时,可以执行循环闭合。可以使用[58]这样的基于特征的方法来执行。对于激光扫描,可以使用几何描述符,例如直线,平面或球体。这些描述符用于在扫描之间执行匹配以检测最终的循环。由于每个扫描之间的扫描匹配器几乎无法实时运行,因此在[59]中使用了代表多个扫描环境的子图。所有完成的子图都会自动插入到扫描匹配循环中,这将在围绕当前机器人姿势的滑动窗口中进行循环检测。 Magnusson等。 [60]提出了一种使用3D云的正态分布变换(NDT)表示的原始环路检测过程。它基于描述表面方向和平滑度的特征直方图。
[55]中的工作证明了通过执行闭环可以有效地校正LiDAR-SLAM的整体漂移。 在他们的案例中,卡尔曼滤波器只是简单地增加了一个能够检测环路的位置识别模块。 表2总结了基于LiDAR的SLAM。

激光雷达-相机融合
~~~~~~~如前所述,借助视觉传感器或激光雷达,SLAM都可以执行。视觉传感器的优点是目前需要对它进行很好的研究。即使V-SLAM提供准确的结果,也有一些默认设置,例如:单目情况下比例因子的漂移,深度估计不佳(延迟深度初始化)或立体视觉的范围小,重建地图的稀疏性(针对基于特征的间接方法),在室外场景中使用RGB-D的难度等。考虑到基于3D LiDAR的SLAM,所使用的技术依赖于扫描匹配和图形位姿。通常,获得的点云密度不足以提高效率。尽管如此,LiDAR的主要优点是它在测距以及因此在制图方面具有非常好的准确性。如今,很明显,两种方式的融合对于现代SLAM应用程序将大有帮助。当然,使用两种方式都需要第一步困难的校准步骤。本节将介绍可用的校准工具和LiDAR相机融合方法的最新技术。
A.强制校准步骤
~~~~~~~为了通过具有最佳性能的LiDAR相机融合来执行SLAM,必须确保两个传感器之间的精确校准。如图5所示,需要进行外部校准来确定相机和LiDAR之间的相对转换。
最早提出交互式解决方案以校准相机至LiDAR的工具箱包括手动标记LiDAR扫描和相机框架的相应点。使用棋盘进行自动相机激光校准的方法。它执行直线提取以推断两个传感器之间适当的刚性转换。但是,这些离线校准技术无法用于最佳的外部校准,因为外部参数每天都会变化,并且需要非常特殊的条件才能工作。 
随着深度卷积神经网络(CNN)最近在机器人应用中变得流行,[63]中的工作提出了基于CNN的校准。 CNN将LiDAR和摄像机的视差作为输入并返回校准参数。 这提供了适用于实时应用的快速在线校准解决方案。
目前,尚没有一种常用的解决方案来以简单但准确的方式处理此类校准
B.视觉激光雷达SLAM
1.EKF杂交SLAM
~~~~~~~在视觉激光雷达SLAM的背景下,已证明可以修改扩展卡尔曼滤波器(EKF)SLAM的经典公式,以集成这种传感器融合。 [64]中的工作提出了一种使用数据关联的EKF新表达方式,从而提高了SLAM的准确性。[65]中的工作还提供了具有LiDAR EKF SLAM的RGB-D相机。这项工作的主要目的是解决视觉跟踪不成功的问题。如果失败,则使用LiDAR位姿对RGB-D摄像机的点云数据进行定位,以构建3D地图。这样的方法实际上并没有提供融合,而是提供了两种模式之间的切换机制。 [66]中的工作在低成本的微型空中车辆硬件环境上,基于视觉和惯性测量,使用EKF集成了不同的最先进的SLAM算法。 SLAM系统中集成了2D LiDAR,以生成2.5D地图并改善机器人姿态估计。此类提议的方法仍然是不依赖于测量空间上特征检测的松散耦合方法。文献中仍缺少更紧密耦合的LiDAR视觉传感器融合算法。
2.改进的Visual SLAM
~~~~~~~从另一个角度来看,视觉SLAM算法所取得的出色性能促使人们使用传感器融合技术在这些框架上获得最佳解决方案。 在[67]中,LiDAR测量用于深度提取。 在将点云投影到框架上之后,使用基于可视关键帧的束调整执行运动估计和映射。 [68]中的工作提出了使用LiDAR的稀疏深度点云的直接视觉SLAM(图6)。但是,由于相机分辨率远高于LiDAR分辨率,因此很多像素没有深度信息。 在[69]中提出的工作给出了解决分辨率匹配问题的解决方案。 在计算两个传感器之间的几何变换之后,进行了高斯过程回归以对缺失值进行插值。 因此,仅使用LiDAR即可直接初始化图像中检测到的特征,方法与RGB-D传感器相同。

张等。 [70]提出了与一维激光测距仪相关的单眼SLAM。由于单眼SLAM经常会发生标尺漂移,因此该解决方案能够以非常低的硬件成本提供有效的漂移校正。 Scherer等。 [71]多亏了飞行机器人和混合框架,沿着河流绘制了路线和植被。 通过视觉测距法结合惯性测量进行状态估计,并使用LiDAR感测障碍物并绘制河流边界。 但是,点云可能包含被遮挡的点,这些点会降低估计的准确性。 文献[72]中的工作通过提出一种具有遮挡点检测器和共面检测器的直接SLAM方法来解决这个问题。 在这些最后的文章中,视觉SLAM估计姿势用于在映射阶段记录LiDAR点云。
3.改进的激光雷达的SLAM
~~~~~~~在视觉LiDAR SLAM的许多情况下,LiDAR用于通过扫描匹配进行运动估计,而相机则执行特征检测。 梁等。 [73]使用具有ORB功能的视觉环路检测方案进行扫描匹配,增强了基于LiDAR的SLAM的性能。 在[74]中,基于3D激光的SLAM与一种视觉方法相关联,以使用视觉词袋通过基于关键帧的技术执行循环检测。 此外,可以使用LiDAR摄像机融合来优化迭代最近点(ICP)。 [75]中的工作使用视觉信息对刚性转换进行了初步猜测,该转换被用来作为广义ICP框架的种子。
4.并发LiDAR-Visual SLAM
~~~~~~~其他作品试图将LiDAR和视觉SLAM结果结合起来。 [76]中的工作建议通过为每种模态并行运行SLAM并耦合数据来同时使用视觉和LiDAR测量。 这是通过在优化阶段使用两种模态的残差来完成的。 [77]结合他们以前的工作来设计VLOAM。 该visual-LiDAR测距法执行高频视觉测距法和低频LiDAR测距法,以完善运动估计并校正漂移。
也许在[78]中提出了当前可用的最紧密的融合方法,其中使用考虑了激光和特征约束的特定成本函数进行了图形优化。 在此,激光数据和图像数据都可以获得机器人姿势估计。 还建立了一个2.5D贴图以加速回路检测。
C.总结
~~~~~~~综上所述,这些示例主要使用传感器融合为仅LiDAR或仅视觉的SLAM框架提供更多信息。 在实现这种SLAM的所有方法中(见图7),对混合框架的研究最少。 使用视觉信息和激光范围创建通用的SLAM框架似乎是一个真正的挑战。 更紧密耦合的LiDAR视觉传感器融合算法尚未在文献中进行全面研究,应进行研究。

讨论未来的研究方向
~~~~~~~在对文献进行回顾之后,似乎还不存在一种完全融合的视觉LiDAR方法,该方法利用了两种传感器模式的优势。 我们声明,以紧密的混合方式将LiDAR功能用作视觉功能将使SLAM社区受益。 实际上,解决多模式,混合多约束MAP问题将是可行的。 这样的解决方案将使SLAM对环境条件(例如光照或天气)更加健壮。 众所周知,V-SLAM在恶劣的照明条件或无纹理的环境下无法工作,但LiDAR SLAM可以。 另一方面,LiDAR-SLAM在雨天条件下(检测到错误的撞击)或在基于摄像头的SLAM可以完美工作的有纹理但不明显的几何区域(空旷的区域,很长的走廊)中表现不佳
我们建议在多约束MAP方法中使用一组来自不同模式(例如L = {Lvision,LLiDAR})的不同提取地标来研究一些混合方法(请参见图8)。 
提出的框架遵循经典的SLAM体系结构(如我们在[24]中提出的),主要包括以下三个步骤:(1)数据处理步骤,对两种模态进行特征检测和跟踪; (2)估算步骤,该步骤首先根据跟踪的特征估算车辆的位移(这可以通过ICP,对极几何形状,本体感受传感器或它们的融合来完成,例如卡尔曼滤波器或多准则优化), 然后尝试检测和匹配地图中的地标和要素; 一旦匹配完成,就可以对姿势进行优化(过滤/优化),最后可以估计出新的地标。 最后一步(3)处理全局映射:当前数据是否定义了关键帧(它是否带来了足够的新信息),并且根据对循环闭合的检测,判断它是局部还是全局优化轨迹。
为了使该框架正常工作,必须主要致力于(1)用于特征检测的LiDAR扫描分析和(2)摄像头-LiDAR校准过程。 一旦找到针对这两个问题的准确解决方案,LiDAR和视觉之间的紧密耦合将在数据级别成为可能,从而使状态估计更加准确。
结论
~~~~~~~研究人员已经进行了各种研究以找到SLAM的最佳实现方法。事实证明,自主机器人有可能同时估计其自身的姿态和周围环境的地图,SLAM仍然是机器人技术中一个充满希望和令人兴奋的研究主题 从理论上讲,它是自主导航的完整解决方案; 但是,实际上,会发生许多问题。 即使这似乎是一个非常有前途的解决方案,我们也可以预测SLAM的发展可以在多大程度上带来真正的自主导航吗? 因此,有必要加深我们对SLAM及其对人工智能移动机器人的贡献的理解。
这时,存在一些使用与IMU混合的视觉传感器的强大而有效的解决方案。如今,这种方法主要在基于虚拟或增强现实的工业应用中使用。 RGB-D摄像机是一个热门话题,但是这种传感器在室外环境中(环境光极大地干扰了检测)不能很好地发挥作用。视觉方法容易漂移,并且对环境中缺少显着特征非常敏感。为了克服室内单调环境中缺少特征的缺点,已经研究了诸如线,段或边线之类的几何特征。这样的界标的主要问题是(1)缺少用于匹配阶段的准确描述符,以及(2)几乎没有检测到的对应3D对象的困难的初始化阶段。结果,由于特征不匹配或初始化特征不正确,环境的3D稀疏表示不是很准确。最后,生成了具有不同地标表示形式的一些混合地图。然后使用这些不同的对象和观测值解决了广义的多约束MAP问题。
另一方面,基于LiDAR的SLAM也存在并且提供了很好的解决方案。 LiDAR方法可提供非常准确的环境3D信息,但通常很耗时,并且仍依赖于非常简单且不太鲁棒的扫描匹配方法。 目前,很少有作品通过提取一些3D界标来处理3D扫描的分析。 没有一种使用3D LiDAR的SLAM方法以与基于视觉的框架类似的方式处理地标,其原因是分析和提取LiDAR地标所需的处理时间。 目前,飞机是LiDAR-SLAM方法中使用的唯一功能。 但是,飞机在自然的室外自然环境中并不是很有用,因为室外自然没有很好的结构。 基于LiDAR的SLAM主要基于扫描匹配方法(例如ICP)。 自30年前发明以来,这种算法几乎保持不变。
已经进行了一些将LiDAR和视觉传感器耦合的实验,但所有实验都保持在非常松散的融合水平上。 融合主要是利用两个测距步骤的结果完成的,这意味着LiDAR检测或视觉检测无法互相帮助,并且在融合相对位移估计的最后一步做出了决定。 其他方法仅使用LiDAR的深度测量来直接初始化视觉特征。 再一次,激光雷达的功能完全没有得到充分利用。
在未来的工作中,我们将研究使用传感器融合的SLAM的紧密混合实现。 通过将摄像机的帧融合到LiDAR的点云,我们期望构建一个健壮且低漂移的SLAM框架。 此外,由于LiDAR的价格多年来一直在下降,我们预计随着时间的推移,这种解决方案将变得低成本。
