Advertisement

深度学习下的视觉SLAM综述

阅读量:

作者:黄泽霞,邵春莉

来源:《机器人》

编辑:东岸因为@一点人工一点智能

综述所述,在深度学习与SLAM技术的深度融合中,在视觉里程计、场景识别以及全局优化等多方面均取得了令人瞩目的应用效果。值得注意的是,在这一过程中发挥关键作用的是深度神经网络的强大非线性拟合能力——它能够无限逼近难以人工建模的真实世界中的复杂非线性关系——因此这种结合方式在实际应用中展现出更高的鲁棒性和适应性。

icon-default.png?t=N7T8

摘要:该综述涉及了深度学习技术在SLAM领域内的前沿进展。详细阐述了深度学习在前端视觉跟踪技术、后端优化方法以及语义建模等方面的研究成果,并对不确定性估计进行了深入探讨。展望了基于深度学习的视觉SLAM技术的发展方向,并为企业未来研究移动机器人自主定位与环境建模提供了可行的技术方案。

01 引言

近年来,在机器人技术领域取得了显著进展的基础上

最初的应用领域是机器人领域,在无需任何先验知识的支持下,机器人能够通过传感器信息实时生成环境地图,并在此基础上估算自身的位姿[1]。基于所采用的传感器类型不同,则将视觉SLAM划分为雷达SLAM与视觉SLAM两大类。如图1所示,在视觉SLAM系统中包含五个关键组件:首先是由传感器数据流驱动;其次为前端跟踪模块(即视觉里程计);接着是后端优化模块;随后是回环检测模块;最后是地图构建模块。

图1 视觉SLAM系统框架

图1 视觉SLAM系统框架

伴随着深度学习技术的崛起, 计算机视觉的传统领域已取得显著进展, 如目标检测、识别与分类等领域的应用. 近年来, 研究人员开始在视觉SLAM算法中应用深度学习技术以实现快速的发展, 并展现了更高的精度以及更强的环境适应能力.

起源于2015年Kendall等[3] 对视觉里程计技术引入深度学习方法以来,在视觉SLAM领域已取得显著进展。近年来,在深度学习与视觉SLAM结合方面也取得了诸多突破性成果[4-8]。其中文[4] 早期对融合方法进行了系统性研究,并展望了未来研究方向。然而由于语义SLAM领域的起步尚浅,在该文中仅限于简要探讨相关内容而无法进行全面总结。此外大多数综述均局限于特定研究范畴如文献[5] 对视觉里程计及回环检测的研究进行了归纳总结文献[6-7] 则综合了视觉里程计回环检测及地图重建等内容。值得注意的是虽然也有专门针对不确定性估计算法进行综述的研究[9-10] 但这些综述大多集中于基于神经网络的方法对不确定性进行建模以及对比不同深度模型下的不确定性处理方式等方面。

在综合分析现有技术的基础上,本文对深度学习环境下视觉SLAM方法的主要涉及视觉里程计、回环检测、全局优化、语义SLAM以及不确定性估计这几个核心方向展开分类讨论,并结合图2进行具体展示。在此基础上进一步阐述了现有技术体系的局限性,并对未来研究方向进行了展望。

图2 基于深度学习的视觉SLAM现有方法的分类

图2 基于深度学习的视觉SLAM现有方法的分类

02 深度学习下的视觉SLAM前端跟踪

基于视觉里程计技术(VO)的方法也被广泛应用于SLAM前端跟踪领域中。通过不同帧间感知信息的采集与分析可以实现移动机器人运动变化量的有效推导[11]。在VO算法中核心任务即基于传感器测量数据精确推导出目标物体相对于前一时刻的状态参数包括其位置与姿态信息。对于一个已知初始状态的SLAM系统我们能够通过一系列获取到的目标物位置信息来重构完整的全局轨迹从而为后续定位工作提供可靠的基础依据由此可见保证输出位姿估计精度确实是提升移动机器人高精度定位性能的关键因素[8]

2.1 深度学习与视觉里程计

经典的VO方法一般涉及相机标定、特征提取与识别、特征匹配与跟踪过程以及后续的异常值去除步骤。其中运动学模型的建立是关键,在处理过程中需考虑不同场景下的适应性问题。系统架构如图 3所示[12].

图3 传统单目VO的框架图

图3 传统单目VO的框架图

卷积神经网络(CNN或ConvNet)在图像识别领域所取得的卓越成就推动了基于其的方法应用于视觉操作的可能性。与传统的视觉操作估计方法相比,在深度学习框架下能够自动生成图像特征表示而无需繁重的人工标注工作流程这一特点显著简化了整体的操作流程。基于网络的训练方式以及数据集是否采用标签信息等因素的不同选择本节将重点讨论有监督学习(supervised learning)、无监督学习(unsupervised learning)以及自监督学习(self-supervised learning)这三种视觉操作估计技术及其应用情况分析。

2.1.1 有监督学习VO

有监督学习VO的目标是基于标注数据集训练一个深度神经网络模型以建立从连续图像序列到运动变换关系的功能。该模型接收作为输入的一对连续图像并能生成一个包含平移和平移信息以及旋转信息在内的矩阵形式输出。

2015年,Konda及其团队[13] 开发出一种基于端到端卷积神经网络架构的方法,用于预测相机速度与输入图像中的方向变化,该方法整合了深度学习技术并成功应用于视觉定位领域。整个预测流程主要包含从图像序列中提取深度信息以及估计其运动特性两个核心环节,其创新性在于较早地将深度学习技术引入视觉定位研究,具有重要的学术价值。

研究者Costante等人[14]提出了一种方法,在学习图像数据最优特征表示的基础上完成了视觉里程计的估计。

在监督学习框架下的视觉定位(VO)问题中,在有监督学习VO的模型中

图4 DeepVO网络的框架结构图

图4 DeepVO网络的框架结构图

相较于传统方案而言,在精度性能上并未占据绝对优势的DeepVO模型因其基于对帧间位姿关系的学习而展现出良好的泛化能力因此受到了广泛关注其中VINet算法[15]以及Deep EndoVO算法[16]等均在此基础之上进行了相应的改进工作并取得了良好的效果

随着研究者对高效小规模网络的深入研究工作不断推进, 一种新兴类型的轻量化模型架构——知识蒸馏, 已成为深度学习领域的重要研究方向之一. 2019年, Saputra等人首次将知识蒸馏技术应用于位姿回归预测领域, 提出了一种基于教师模型输出结果信任度附加蒸馏损失的方法. 该方法显著降低了模型参数数量, 同时提升了移动机器人在实际操作中的实时性. 其他相关方法还包括: 例如, Saputra等人在ICRA会议上探讨了将课程学习应用于复杂几何任务的问题. 他们开发了一种基于新课程学习策略的单目视觉里程计几何信息提取方法.

就目前而言,在现代机器学习技术、大数据容量和高性能计算能力的基础上发展起来的各种监督学习方法能够通过输入图像自动提取相机姿态变化信息,并有效缓解视觉里程计在实际场景中的精度问题。

2.1.2 无监督学习VO

无监督学习中所处理的数据无需人工标注其主要目标通常是探索数据与数据之间的内在关联随着深度学习技术在计算机视觉领域的应用日益突出研究者逐渐将关注重点转向该领域在视觉里程计上的潜在应用他们也逐渐将焦点转向该领域相关问题的研究与探讨

在2017年会议期间,Godard团队[19] 在CVPR上展示了基于无监督学习的单图像深度估计方法。该方法的核心在于利用图像的多目标损失函数训练神经网络模型,并通过最小化光度误差来优化深度估计结果。值得注意的是,在这项研究中[19] 假设相机参数已知。为了解决相机参数未知以及左右两相机不在同一平面的问题,Zhou团队[20] 开发了一种无需双目摄像头且无需已知相机参数的新方法。其基本原理是通过深度CNN和位姿CNN两个网络分别生成深度图和两幅图像之间的位姿关系,然后将原始图像投影到目标图像平面上,最后通过比较真实的目标图像与投影后重建的目标图像之间的重建误差来优化网络参数。在该框架下,网络结构的设计、初始值的设定以及具体的训练策略都采用了较为科学合理的方法,目前被认为是效果最为显著的无监督学习方案之一。然而,尽管这一方法取得了不错的效果,但仍存在一些有待解决的问题:首先,该算法存在绝对尺度方面的不足,由于深度预测模型本身存在局限性,无法完整重构环境中的全局轨迹信息,从而限制了其在全球范围内的定位精度;其次,该研究中所采用的光度一致性计算方式未能充分考虑实际场景中可能出现的物体移动和遮挡现象的影响

围绕该尺度一致性问题的研究工作已取得一定进展,并提出了多种改进方案[21-23]。例如,在文[20]的基础上进行相应的优化与改进的是Li等[21]。他们提出了一种基于无监督学习的方法来获得基于绝对尺度的相机位姿单目视觉里程计估计网络UnDeepVO。该方法通过分别对左右图像进行处理得到相机左右序列的位置姿态信息及其深度数据,并结合输入的立体图像信息生成具有真实尺度的真实深度图。这种技术能够准确恢复相机位姿在尺度上的信息。与此同时,在后续的研究中(如文[22]),学者们进一步提出了利用几何一致性损失函数来解决深度估计与位姿估计之间的尺度一致性约束问题。这种方法将预测得到的图像深度图转换到三维空间模型中,并将局部深度重投影作为损失函数的一部分来计算预测误差。通过这种方式能够有效保持深度预测中的尺度一致性特征,在提升位姿估计精度的同时也实现了整体系统中各模块之间的协调一致。

在提升位姿估计精度方面方面

自Goodfellow等[26]于2014年提出生成对抗网络(GAN)以来, 由于其强大的生成能力, 该方法在计算机视觉、自然语言处理等多个领域逐渐获得了学术界与工业界的广泛关注与重视. GANVO算法[27]正是基于生成对抗网络(GAN)提出的一种生成式无监督学习框架, 该算法则通过结合单目视觉占位图(VO)中的生成对抗神经网络与循环无监督学习方法来预测相机运动姿态及单目深度图. Sganvo(叠加生成对抗网络)[28]作为一种改进型算法, 其整体架构由多层嵌套的GAN模块构成. 系统在整个对抗学习过程中实现了深度估计与自我运动预测, 并通过递归方式建模前后层网络之间的关系, 从而有效提取各层的时间动态特征. 通过增加网络层数的方式, Sganvo显著提升了深度估计效果.

传统的无监督深度估计方法通常依赖于双目图像数据进行自监督学习。相比之下,在文[29]中所提出的SfM-Net网络则仅依赖于单目视频流即可实现对深度图及相机姿态估计的效果。具体而言:

  1. 首先,在输入单个图像的基础上生成对应的深度信息;
  2. 接着,在上述基础上融合生成完整的深度点云;
  3. 最后,在连续两帧图像输入的基础上计算输出图像间的位姿关系,并识别并分割出(以掩模的形式)场景中的运动物体。

相较于有监督学习VO(简称:有监督),无监督学习VO所学到的特征更具适应性和丰富性;尽管其在性能上与有监督学习VO仍有一定差距,在提供未知场景位姿信息方面却展现了更强的可扩展性和可解释性。

2.1.3 自监督学习VO

在现有技术中获取场景像素点深度真值相对较为困难,在这种背景下自监督学习方法通过整合深度学习框架与经典几何模型为这一难题提供了新的解决方案方向

基于由立体相机捕获的图像对的自监督学习方法旨在推导出目标图像的视差图并将其转化为深度图[30-32]。如文[30]建议将立体图像作为网络训练的基础输入,并通过自监督的方式在图像对上进行模型训练。文中采用左右视差之间的双循环一致性作为优化目标,并结合适应性正则化损失函数来消除立体成像系统中出现的遮挡区域。随后,在全局范围内预测每个像素对应的场景深度值;接着通过左右一致性损失进一步优化结果。这种方法有助于提高结果的整体准确性。此外,Chen等[31]及Choi等[32]则从优化训练策略的角度出发,在双目深度估计的基础上探索单目成像系统的性能表现

另外一种基于自监督深度估计的方法,则以视频序列中的连续帧作为训练样本[33-37]。由于相机运动在连续帧之间未知这一特性,在该方法中不仅需要对目标图像进行深度估计,并且还需要推导出相应的相机姿态信息。伦敦大学Godard团队[33]则提出了一种通过结合深度估计网络与姿态估计网络来推导出图像的逆深度信息及相机的姿态信息的方法,并将这两者的计算误差作为损失函数的一部分,在使用梯度下降算法的基础上不断优化并更新损失函数中的各个误差项。随后,在时间序列约束下实施自监督学习的过程中发现,在处理位姿估算问题时容易导致误差积累现象的发生。为此,Li团队[34]提出了一种利用帧间相关性进行约束的新方法,并将其与视觉同步(VO)测量模型相结合的方式实现了更为精确的位置与姿态估算结果。随后,Zhan团队[36]在此基础上进一步改进了算法性能,通过整合所学得到的深度信息与光流预测结果,实现了与其他同类算法相比更具竞争力的整体性能表现。在此之上,Li团队[37]又提出了一个更为创新性的基于元学习框架的设计方案。

研究显示,在性能上显著优于传统的单目VO或视觉惯导里程计;这一结论侧面印证了自监督领域巨大的发展潜力和无限前景。

2.2 深度学习与视觉惯导里程计

高精度导航与定位技术作为自动驾驶汽车的关键技术领域具有重要意义。传统视觉里程计方法因面临遮挡、尺度不确定、相对位置偏差以及低帧率等问题,在实际应用中难以满足需求;而IMU设备则因其低成本的优势,在直接获取角速度与加速度数据方面表现突出。基于此,在传统视觉 Odometry 方法中融合IMU信息是一种切实可行的有效方案,并取得了一定的研究成果[39-41]。

深度学习是一种全面的学习机制,在模型训练过程中能够自动建立从原始数据源到预期输出结果之间的映射关系。相较于传统方法而言,基于深度学习的视觉惯性里程计(VIO)的优势在于无需人工特征提取这一过程,在完全由数据自主驱动的情况下能够有效利用数据所蕴含的关键信息来实现深度预测任务。近年来该领域的发展逐渐引起了众多研究者的关注

VINet网络[15]首次提出融合IMU信息的方法,并基于深度神经网络框架有效解决了视觉 inertial odometry(VIO)问题。该网络系统通过CNN从两个相邻帧图像中提取视觉运动特征,并运用LSTM模型建模惯性测量单元(IMU)的空间信息。随后运用特殊欧氏群SE(3)理论将视觉运动特性和惯性空间信息进行深度融合处理,并最终实现了相机姿态估计目标。研究结果表明该方法不仅显著降低了对手动同步校准的需求,在抗干扰能力方面表现出色

研究者在文[42]中通过引入在线纠错OEC模块实现了VIO无监督网络学习方法的构建。该方法突破了传统VIO系统对IMU内部参数和IMU与相机之间外部校准的依赖,在无需任何内部参数配置或外部校准的情况下,成功将RGB-D图像与惯性测量数据直接融合,并利用像素缩放后的图像投影误差计算得到相机运动估计轨迹的雅可比行列式。Han等[43]提出了一个基于端到端自监督深度学习框架DeepVIO,该框架利用双目序列数据估计场景深度并建立密集三维几何约束作为监督信号,并结合IMU数据计算绝对轨迹。相较于现有基于视觉-惯性 Odometry(VO)和视觉-惯性融合 Odometry(VIO)的学习方法,在准确性和数据适应性方面表现更为突出。

基于深度学习的视觉惯性里程计方案已展现出显著的效果;然而,在设计过程中仍存在多传感数据融合策略不够鲁棒的问题;针对这一技术难点,Chen等[44] 提出了创新性的单目端到端视觉 inertial odometry(VIO)多传感器选择融合策略;该创新性方案综合运用单目图像信息与惯性测量数据,在外部环境变化及内部传感器动态需求下实现了运动轨迹的有效估计;此外,在不同遮掩模式下构建相应的融合网络架构,并在此基础上优化了数据损坏情况下的性能表现

在各类内外环境场景中(包括室内与室外场景),面对不同尺度因子的情况(即相机与IMU之间的时空关系标定问题),单目视觉系统往往面临挑战。针对这一限制性问题(即无需进行时空关系标定即可实现视觉惯性 Odometry 的方法),Lee等[45] 提出了无需进行时空关系标定的 Vision-Inertial Odometry (VIO)学习框架。该方法以连续两个相邻帧作为网络输入,在计算能力有限但需要实时处理信息的应用中展现出有效性。为了应对单目视觉 SLAM 系统在实时重构真实尺度场景方面的困难问题(即无法直接获得真实的长度比例因子),浙江大学左星星博士提出了实时 CodeVIO 方法[46]。该方法采用了一种新的实时单目相机惯导定位与稠密深度图重建策略:将深度神经网络与传统的状态估计器相结合,并利用轻量化的条件变分自动编码器(CVAE),将高维深度信息压缩为低维深度码以提高稠密深度估计精度。该策略一方面利用 VIO 系统中的稀疏深度图信息(即通过稀疏视觉特征点获取其深度信息),另一方面采用了高效的网络雅可比矩阵计算方法,在保证实时性的同时显著提升了计算效率并增强了泛化能力

此外, Liu 等 [47] 提出了 InertialNet 网络, 该研究采用端到端模型推导图像序列与 IMU 信息之间的关系, 并估计相机的姿态角. Kim 等 [48] 则将不确定性建模融入无监督损失函数, 在无需真实协方差作为标签的情况下学习多传感器间的深度关联与姿态不确定性. 通过这种方法消除了仅依赖单一传感器学习时所面临的不确定性问题及局限性. 文 [49] 开发了一种基于深度学习模型的新算法用于融合相机与 IMU 数据以预测无人机系统的三维运动轨迹.

2.3 方法总结与对比分析

近年来, 随着深度学习技术的发展, 视觉SLAM方法日益受到研究者的广泛关注. 在现有文献中, 基于深度学习实现视觉占位符(VO)估计的方法其性能已进行了对比分析, 如表1所示. 然而, 由于各研究算法所使用的测试数据集及评估标准存在明显差异, 因此直接比较不同算法的表现仍存在一定难度. 因此, 在表格中仅列出各算法在特定测试条件下的定位误差作为参考指标. 特别强调的是, 在表格中的误差值越小, 则表明该算法具有更好的尺度一致性和定位精度.

表1 现有基于深度学习的VO估计方法的性能对比

表1 现有基于深度学习的VO估计方法的性能对比

参考表1中的性能数据后发现,在SLAM领域中应用深度学习技术取得了一定成效。相较于无监督学习的方法而言,在尺度漂移方面具有较小的误差,在跟踪稳定性上表现更为出色。现有研究已经开发出多种基于无 supervised或自监督范式的视觉占位符算法,并且这些方法均展现出良好的预测能力

值得注意的是,在无监督学习中是基于数据内在模式提取输入图像特征的方法,在此过程中能够提炼出更为丰富多样的图像特征表示,并且在未知环境下展现出更好的适应性和泛化能力

自监督学习方法不仅继承了传统算法的核心特征,在技术架构上也整合了深度学习的技术优势。在实际应用中能够较为精准地恢复场景的比例方面表现出色。相较于无 supervision 学习而言, 自监督方法展现出显著的技术优势, 其表现往往更为突出。其中一种典型代表是 D3VO 方法[38],其跟踪精度表现远超现有单目深度视觉里程计及视觉惯导里程计等技术方案。然而, 在特定应用场景下, 选择何种技术方案需要根据不同具体情况采取相应的策略.

近年来,在构建高精度、高鲁棒SLAM系统的过程中,“将惯性单元数据与相机的地标信息进行融合”已然成为一种重要途径。针对视觉/ 惯性融合的视觉SLAM算法的相关研究已进行系统总结,并见表 2。表 2中,“trel”表示平均平移误差百分比,“ATE”表示绝对轨迹误差,“RE”表示旋转误差,“RMSE”表示均方根误差。“由此可见,在定位精度、尺度一致性和运动轨迹生成等方面的表现已经非常突出。”值得注意的是,在某种程度上“IMU与相机之间的互补特性”已被证明对其性能提升具有重要意义。

表2 现有视觉惯导里程计融合算法的简要比较

表2 现有视觉惯导里程计融合算法的简要比较

总体而言,在SLAM领域的实际应用效果仍然存在较大提升空间。然而随着对深度学习研究的深入推进, 该领域的相关技术正逐渐受到广泛关注并成为当前研究的重点方向

03 深度学习下的视觉SLAM后端优化

SLAM系统的后端优化工作主要针对的是基于视觉里程计预测得到的不同时间段相机位姿信息以及局部地图数据进行精调处理。在视觉定位算法(VO)中无论是位姿估计还是建图操作都是基于相邻图像之间的相对运动关系实现的这一特点也容易导致预测误差逐步积累形成较为严重的累积效应最终会对SLAM系统的性能带来显著影响因此为了有效降低这种误差漂移现象后端优化工作显得尤为重要在对这些区域进行重新构建时不仅能够改善局部精度还能通过全局优化手段进一步提升系统整体的准确性和可靠性从而显著提高系统的总体性能水平

3.1 深度学习与回环检测

在视觉SLAM相关领域内,回环检测技术(Loop Closure Detection Technology)被视为一个值得深入研究的重点课题。它主要致力于解决机器人位姿估计中的累积漂移问题,并旨在实现大规模复杂环境下精确的导航定位。然而,在实际应用中发现若未能准确实现这一技术,则会导致后续路径规划出现严重偏差甚至无法完成全局地图构建过程。由此可见,在现代视觉SLAM系统中,回环检测算法的质量直接决定了系统的整体精度水平以及抗干扰能力[11]。

早期的回环检测方法是手工标注特征点,应用词袋(BoW)模型来达到图像匹配的目的。随着深度学习、目标识别、语义分割等领域的迅速发展,研究者更倾向于使用先进技术来更好地实现回环检测。2015年,国防科技大学张宏等[50] 较早地将深度学习应用在回环检测中,利用Caffe深度学习框架下已经提前训练好的AlexNet模型产生一种适合回环检测的描述符。该方法先将图像输入到CNN中,以每个中间层的输出作为一个特征值,用来描述整幅图像,然后利用二范数进行特征匹配来确定是否存在回环。仿真结果表明在光照变化明显的环境下这种深度学习的特征描述符比传统的BoW和随机蕨法等方法更稳定、鲁棒性更强,并且产生描述符的用时更短。

自动生成的回答如下

近年来,在CNN训练速度显著提升的同时

尽管基于深度学习的回环检测方法可以从原始数据中自动化地带出特征,并能更加充分地表征图像信息,在应对复杂环境变化方面展现出良好的适应性和更强的鲁棒性;但在自适应选择不同隐藏层输出结果以满足多场景需求、优化更适合场景识别的关键特征提取以及确立科学合理的回环检测性能评估标准等方面仍面临诸多挑战

3.2 深度学习与全局优化

实现全局优化时需要关注的核心问题在于如何通过不精确的关键帧构建起全局约束关系,并在此基础上求解出各关键帧之间的相对位置关系。为了构建一个完整的位姿图模型,我们需要将各个关键帧的位置信息作为图中的节点,并将它们之间的相对误差作为边的权重连接起来。具体而言,可以通过构建并持续优化位姿图来确定各个关键帧之间的相对位置关系,并进一步计算出每个关键帧在全局坐标系中的最优位置。无论采用哪种具体的全局优化算法,在实际应用中通常都会采用高斯-牛顿法或Levenberg-Marquardt算法[11]来进行求解。

深度学习的本质是基于观察所得相机位姿及场景表征提取图像特征并构建映射关系。近年来的研究者们对深度学习在全局优化问题中的应用进行了深入探讨,并取得了显著进展。文献[56]提出的基于卷积神经网络(CNN)结合Simultaneous Localization and Mapping (SLAM)技术的方法(即CNN-SLAM),其核心在于将CNN预测生成的稠密深度图与直接单目SLAM法获得的深度测量值进行整合,在提升回环检测效率的同时实现了更高精度的空间重构效果。研究者Zhou等[57]则提出了DeepTAM学习方法,在经典DTAM系统的基础上融合了来自CNN提供的相机位姿信息及深度估计结果,并通过后端全局优化算法实现了更为精确的空间重建过程。

基于无监督学习方法开发的单目视觉里程计,在大规模里程计估计方面仍面临定位精度未能达到理想水平的问题。针对这一局限性,Li等[59] 提出了将无监督学习技术与图优化模块整合的新方案,构建了一种混合式视觉定位系统。该系统采用时间与空间光度损失作为主要监督信号,在系统后端阶段,通过构建基于局部闭环约束的全局位姿估计框架并完成优化计算流程,从而显著提升了系统的定位精度和鲁棒性表现。值得注意的是,DeepFactors算法[60] 也提供了一个创新性解决方案:该算法通过融合深度地图信息与多因子图模型来实现高精度深度SLAM系统的构建,在保证实时性能的同时实现了对复杂场景中的精确定位能力提升

当前

04 深度学习下的语义SLAM

语义SLAM是一种结合语义信息与视觉SLAM的技术体系。其核心在于实现目标物体的精确检测与智能识别过程。而基于深度学习的对象识别技术因其卓越性能而被广泛采用。因此,在构建语义SLAM系统时嵌入深度学习算法将是提升整体性能的关键举措

完全意义上的语义SLAM(即基于语义建图与SLAM定位相互促进)的发展相对滞后。2017年,Bowman等人的研究引入了期望最大值方法,用于动态估计物体与观测之间的匹配关系。作者将其转化为一个概率问题,通过计算概率模型得出的物体中心在图像上的重投影位置应接近检测框中心的思想,从而改进了重投影误差的方法。尽管文[61]成功解决了语义特征的数据关联问题以及如何通过语义信息获取路标和摄像头位姿的问题,但未考虑到语义元素之间的互斥性以及连续帧间的时序一致性。基于文[61]的研究,Lianos等提出的视觉语义里程计(VSO)方法通过使用距离变换将分割结果边缘作为约束条件,并结合投影误差构造约束条件,实现了对中期连续点轨迹的有效跟踪

旨在增强语义SLAM系统识别动态物体的能力

Kaneko等[64]基于语义分割技术能够在图像中实现各类物体的分类与标注特性,并通过其生成的掩模来有效地排除那些不可能对应到正确区域的部分。在特征点检测过程中,在掩蔽区域中不再进行特征点的检测操作。从而有效地过滤掉大部分不准确的匹配结果,并降低了随机一致性采样误差。该方法充分结合了语义分割提供的全局信息,在弥补视觉SLAM局部信息有限性方面取得了显著效果;因此整体上达到了较高的精度水平

针对相机运动导致的动态遮挡现象(Dynamic Occlusion Phenomena),文[65] 针对动态分割技术提出了一种创新性解决方案(Innovative Solution)。该方法不仅能够有效识别并处理相机自身运动状态(Camera Motion States),而且通过多级分析策略(Multi-level Analysis Strategy)成功实现了场景中物体行为模式(Object Behavior Patterns)的精准描述。具体而言,在语义感知与几何约束框架下(Semantic Perception and Geometric Constraint Framework),首次实现了基于层次化的分割与跟踪机制(Hierarchical Segmentation and Tracking Mechanism)。在实验环节中发现:所提出的算法不仅能够有效识别并分离场景中的静态区域(Static Regions),而且通过对静态区域采用分阶段优化策略(Phased Optimization Strategy)实现了多层次精确定位;同时构建了一个基于多层遮罩机制的动态目标遮挡模型(Multi-layer Oclusion Mask Model),能够更加灵活地应对复杂的运动场景变化。相较于现有的多种动态视觉SLAM算法(Dynamic Visual SLAM Algorithms),其在计算效率和跟踪精度等多个关键指标上均表现出明显优势

随着语义分割技术的进步,在利用语义信息的基础上实现数据关联升级至物体级别成为提升复杂场景识别精度的关键路径之一。目前主流研究(如文[66-69])均基于基于物体现阶段的关联实现语义Simultaneous Localization and Mapping(SLAM)算法的发展趋势。2019年Yang团队[66]首次提出一种联合估计相机位姿及动态物体轨迹的CubeSLAM方法。该方法针对静态与动态物体采用了差异化的关联策略:对于静态物体则将SLAM系统提取出的特征点与基于二维检测框的目标进行关联;而对于动态物体则直接采用稀疏光流算法进行像素级跟踪,并通过三角测量计算其三维位置。值得注意的是,在数据关联过程中采用立方体模型来表示物体现在已有研究中提出了用椭圆体(一种特殊双曲面)替代立方体模型来描述物体制备这一解决方案[67-68])。然而椭圆体模型由于其检测框与实际测量值之间可能存在偏差因而无法显著提升QuadricSLAM算法[67] 的精度效果反而是CubeSLAM方法显著提升了其性能水平。而DSP-SLAM算法[69]则是将基于物体现阶段3D重建的技术整合到传统SLAM框架中其基础架构仍沿袭将一个物体现阶段3D重建模块附加于传统SLAM系统的思路但其核心的数据关联机制仍需依赖特征点匹配以及在全局优化过程中融合相机与物体之间的约束关系

面对多变复杂的环境,在基于深度学习实现的语义信息系统中具有较强的光线不变性特征;因此其定位结果较为稳定[70-71]。例如,在现有研究中Stenborg等[70]运用深度学习技术有效解决了SLAM(Simultaneous Localization and Mapping)中的位置识别难题。其主要思路在于,在已有3D地图基础上利用图像语义分割得到的描述子替代传统描述子;同时构建模型时需考虑2D到3D点映射关系。

尽管在语义SLAM领域已取得了一些初步进展, 但是由于其起步较晚, 因此许多相关研究仍停留在初级阶段, 这些工作中尚未充分考虑诸多关键问题. 然而展望未来几年, 在这一领域将会有更多的研究工作展开.

05 深度学习下的不确定性估计

虽然深度神经网络在无人驾驶车辆控制或医学图像分析等领域具有很高的吸引力;然而,在重视安全的真实世界中的应用仍然受到限制;其主要原因在于模型预测结果并非始终可靠;例如,在无人驾驶等对安全性要求极高的领域中;完全依赖于深度学习模型来做决定可能会带来严重的后果;因此有必要预测基于深度学习移动机器人系统的不确定性,并确保其安全性

通常情况下,在模型中所涉及的预测不确定度主要可分为两类:一类是由模型本身所带来的知识不确定度(即所谓的模型不确信性),另一类则是由于数据带来的任意性或不可控因素所导致的不确信性[10]。近年来的研究表明,在深度神经网络(DNN)领域捕捉和量化这种不确信性已经引起了越来越多的研究者的关注[72]。贝叶斯模型被视为捕捉知识不确信性的关键手段之一[72]。该方法通过随机失活机制(即 dropout 方法)进行DNN训练,在获得均值的同时也能直接反映输出结果的稳定程度——其平均输出作为预测结果而其方差则直接反映了预测结果的不稳定性。本节将重点探讨定位与建图过程中如何进行不确信度估计以及运动跟踪过程中如何进行不确信度估计,并进一步阐述这些估计在实际应用中所发挥的作用;表3系统地总结了现有基于深度学习的方法在处理不确信度估计问题上的相关算法和技术

表3 现有的深度学习下不确定性估计算法

表3 现有的深度学习下不确定性估计算法

在视觉SLAM系统中,在定位或场景识别中的不确定因素是由关键的因素所影响的关键问题之一。语义分割作为一种核心的技术手段,在长时间视觉定位与场景理解方面发挥着重要作用。为了实现有效的决策支持,在对这种不确定性进行量化时需要特别关注其准确性与可靠性,在这一前提下提出了多种评估方法,并取得了较好的应用效果。

文[73]文献提出了一种名为SIVO的信息理论导向的视觉SLAM特征选择方法。通过融合语义分割技术与神经网络量化工具,该方法创新性地将输入特征求取后的分类熵作为新维度表征空间的重要指标,并将此表征空间中的关键特征筛选结果作为后续定位优化的基础数据集来源,从而实现了对动态环境中小目标物体的有效追踪与建图能力提升

贝叶斯SegNet网络[74] 通过测量场景模型中存在的不确定性来推断各像素级别的不确定性水平。其核心概念是基于SegNet架构引入随机失活层并结合贝叶斯决策理论。该算法通过反复进行前向传播操作获得一系列输出结果,并将所有输出结果取平均值以确定最终分割方案;计算对应位置像素值的方差以生成表示模型不确定性的误差图谱。此外,在生成各类别标签的概率分布时采用了蒙特卡洛方法,并从所有预测结果中筛选出最优方案。

在实际应用中除了需要进行模型预测之外还需要评估预测结果的质量这不仅有助于提高系统的可靠性还能够辅助决策过程。近年来研究人员对基于神经网络估计输入不确定性的方法越来越重视特别是在处理复杂系统时这种方法的应用效果尤为显著。2018年Wang等[77] 从深度学习的角度研究了视觉里程计估计中的不确定性问题他们针对单目视觉同时定位与建图(VO)问题中的深度递归卷积神经网络方法提出了一个端到端的概率序列视觉里程计框架ESP-VO通过该方法可以在计算开销不大的情况下实现了运动变换不确定性的有效预测为了验证算法的有效性文[77] 在模拟驾驶飞行以及行走场景的数据集中进行了广泛的实验验证结果显示基于最小化误差函数进行全局优化能够有效减少系统的累积漂移与其他先进方法相比ESP-VO具有更好的性能优势

考虑到单目自监督网络在深度估计过程中无需依赖深度标注信息这一特点,在实际应用中逐渐引起研究者的广泛关注与深入探讨

综上所述,在视觉SLAM框架内引入不确定性估计后,则可知该模型对预测结果表现出一定的置信度,并有助于提升模型在实际场景中的应用效能。然而目前对该理论的研究仍处于初级阶段,其学习方法较为有限,在实际应用场景中仍需进一步验证和完善。

06 未来发展趋势

虽然基于深度学习的SLAM技术在精度与鲁棒性方面相较于传统SLAM方法展现出更为显著的优势,其解决方案因此更具吸引力。然而目前的研究仍处于初级阶段,所设计出的模型仍存在一些局限性,因此无法彻底解决当前的问题。为了进一步提升实际应用中的适用性和安全性,研究人员将会面临诸多挑战.文中探讨了几种可能有助于推动该领域进一步发展的思路.

1) 适应性更强的数据集标注

深度学习模型高度依赖大规模的数据集,在训练阶段需要对他们进行预处理和标注工作。理论上,在一定条件下增加标注数据量通常会提升模型性能;然而,在实际应用中,则需要综合考虑计算资源、时间和成本等多方面因素,并需注意数据规模的增长可能会对模型性能带来负面影响。高质量的数据标注是确保训练出可靠深度学习模型的关键因素。

此乃本领域的重要议题。耗时耗力的一项重要工作。既经济又高效。权衡利弊之下,则需探索如何实现效率与准确性之间的平衡。同时, 期待未来能借助SLAM技术来构建大量图像间具有一一对应关系的大型数据集

2) 深度学习模型的拓展

目前,在人工智能领域中存在多种基于深度学习的各种模型(如卷积神经网络、长短期记忆网络和自动编码器等),这些模型均采用了完全由输入直接驱动输出的学习模式)。尽管这些模型的发展速度显著增强了系统的鲁棒性与准确性(accuracy),但它们在实际应用场景中的应用仍面临诸多挑战(challenges)。例如,在真实世界中广泛存在的大量来自非欧氏空间的数据(data)使得传统的方法(method)对这类数据的表现却不尽如人意)。

近几十年来,在分析和应用图数据方面不断深化的学者们表现出浓厚的研究兴趣。

3) 多传感器融合算法的研究

在现实生活中,移动机器人或硬件设备通常会集成多种传感器以实现全面感知。这些传感器在探测极限距离、测量精度以及功能等方面存在差异性特征,在实际应用中若要实现系统的高效稳定运行,则必须对多源传感器数据进行有效融合处理。例如,在手机视觉惯性(VIO)系统中通过融合加速度计与摄像头数据可弥补单一感知手段的不足从而推动SLAM技术向小型化方向发展并降低实施成本这一研究思路具有重要的理论价值与实践意义。三维语义地图等关键数据源与空间位置信息相结合的方式能够显著提升SLAM系统的鲁棒性和计算效率相关研究工作已在国际知名学术期刊上发表并获得了广泛认可

难以将多传感器融合系统与其硬件设备区分开来。从硬件层面来看,实现多传感器数据整合并行处理相对较为容易,而其中的关键挑战是如何使算法与各传感器之间建立稳定的通信连接。在动态变化且环境不确定的情况下进行数据处理与信息共享同样是多传感器系统面临的一个重要挑战。随着技术的进步与发展预期而言,在不远的将来相关技术将在多个领域中得到更广泛的应用

07 结论

通过已有大量研究的积累可以看出,在深度学习驱动下的SLAM技术尽管起步尚浅但仍处于不断发展壮大的领域 并逐渐获得了研究者的广泛关注

到目前为止,在多个任务领域如视觉里程计、场景识别及全局优化等方面取得显著成果。基于深度神经网络强大的非线性拟合能力能够近似逼近难以用传统方法建模的非线性函数从而使得实际应用中的鲁棒性表现更为突出。

此外,在语义信息与传统视觉SLAM算法的有效结合下(集成作用),不仅有助于提升对图像细节信息的认识能力(理解),还对未来构建高质量的空间认知模型(目标)具有重要推动作用。基于深度学习支撑下的SLAM技术迅速发展出更多创新应用(影响),并为移动机器人朝着实用化方向稳步推进(发展)。

全部评论 (0)

还没有任何评论哟~