论文笔记_S2D.55_2019_SLAM综述_Huang B. A Survey of Simultaneous Localization and Mapping
目录
基本情况
前言
I 概述
II Lidar SLAM
2.1 激光雷达传感器
2.2 激光雷达SLAM系统(Lidar SLAM System)
- 
2D SLAM
 - 
3D SLAM
 - 
深度学习与激光雷达(点云)
 
2.3 挑战与未来
- 
成本和适应性
 - 
弱纹理和动态环境
 - 
敌对的传感器攻击
 
III Visual SLAM
3.1 视觉传感器
3.2 视觉SLAM系统(Visual SLAM System)
- 
稀疏视觉SLAM
 - 
半稠密视觉SLAM
 - 
稠密视觉SLAM
 - 
视觉惯性里程计(VIO) SLAM
 - 
深度学习与视觉SLAM
 
3.3 挑战与未来
1)鲁棒性和可移植性
2)多传感器融合
3)语义SLAM
4)软件和硬件
IV 激光雷达和视觉SLAM系统
4.1 多传感器校准
- 
Camera & IMU
 - 
Camera & Depth
 - 
Lidar & IMU
 - 
Camera & Lidar
 
4.2 激光雷达与视觉融合
- 
Hardware layer
 - 
Data layer
 - 
Task layer
 
4.3 挑战和未来
参考
基本情况
黄百、赵杰、刘 job 著作的综述性文章《同步定位与地图构建》在arXiv上发表的预印本(编号:arXiv:1909.05214),2019年
前言
同步定位与地图绘制(Simultaneous Localization and Mapping, SLAM)实现了基于自我感知的同时定位与地图构建这一目标。 本文对SLAM技术进行了综述性介绍,并着重探讨了LiDAR SLAM、视觉SLAM及其融合技术。 在详细阐述激光雷达(Lidar)或视觉(Vision)基线型态的基础上,本研究系统梳理了各类传感器的基本类型与产品特性、分类与历史上的开源系统、嵌入式深度学习框架及其应用挑战与未来发展方向,并补充介绍了视觉惯性里程计的相关内容。 重点阐述了多传感器校准技术在硬件架构、数据处理及任务层面上的关键作用,并对未来研究方向进行了深入探讨。 最后对悬而未决的问题进行了总结,并提出了前瞻性思考的方向。 本文的主要贡献体现在:首先为新研究人员提供了一个全面了解SLAM发展动态的框架;其次为有经验的研究人员提供了探索新研究方向的参考资料。
I 概述
缩写名为Simultaneous Localization and Mapping (SLAM),其中的主要任务包括定位和地图构建。在机器人学领域是一个长期未解决的重要难题:准确导航需要依赖于一个精确描绘出周围环境的地图;而准确构建地图则要求机器人能够确定自身的感知位置。这使得SLAM技术的本质可类比于"先有鸡还是先有蛋"这一哲学命题。
近年来, 同类定位技术虽取得显著进展, 但仍面临诸多挑战: GPS(全球定位系统)仅适用于开放空间; IMU(惯性测量单元)存在累积误差问题; 无线传感器网络在平衡成本与精度方面存在局限性。”
随着SLAM技术的发展, 激光雷达、摄像头、IMU等多模态传感器被广泛应用于提升定位精度与可靠性。”
从最初采用滤波器实现的SLAM技术开始发展至今,在视觉 SLAM 领域占据主导地位。视觉 SLAM 算法源自于 Kalman Filter(卡尔曼滤波器),其核心由高斯 Extended Kalman Filter(HEKF)和 Particle Filter(PF)构建优化模型,并以图形信息为基础进行优化处理。单线程方案逐渐被多线程架构取代,在实际应用中也从最初的军事用途发展到融合多传感器信息用于机器人等领域的研究与开发。
II Lidar SLAM
2.1 激光雷达传感器
该类传感器可细分为二维与三维类型,并具体取决于其光束数量的多少。就其生产工艺而言,则又可分为机械式、MEMS微机电式以及传统固态式三种类型。其中固态式激光雷达主要采用相控阵技术和 flash 技术实现工作原理。
- Velodyne :在机械激光雷达领域中,推出了VLP-16、HDL-32E和HDL-64E三种型号。
 - SLAMTEC :以其价位亲民的产品组合为主打方向,主要包含各类高性能、低成本的激光雷达及机器人平台。
 - Ouster :以其支持从16通道到128通道不等的机械式激光雷达产品闻名。
 - Quanergy :公司于2020年推出S3款固态式激光雷达系统,并于2023年发布M8型机械式解决方案;其中S3-QI系列更适用于微型应用领域。
 - Ibeo :旗下拥有Lux 4L和Lux 8L两款全尺寸机械式LiDAR系统,并提供与Valeo合作开发的一系列融合型LiDAR产品线。
 
随着技术的发展前景日益广阔,在未来微型化与轻量化的小型固体激光雷达有望在未来成为主流产品并满足大部分市场需求。该领域涵盖的激光雷达品牌包括Hokuyo、HESAI、RoboSense、LeddarTech、ISureStar、benewake、Livox、Innovusion、Innoviz、Trimble以及Leishen Intelligent System等
2.2 激光雷达SLAM系统(Lidar SLAM System)
1) 2D SLAM
- GMapping : 这是机器人领域主要依赖于RBPF (Rao-Blackwellisation Particle Filter)算法的经典 SLAM 软件包,在二维激光雷达扫描匹配的基础上估算机器人位姿,并作为 FastSLAM 的一种改进版存在。
 - Hector SLAM : 它整合了二维 SLAM 技术与三维扫描匹配方法,并结合惯性传感器系统提升定位精度。
 - Karto SLAM : 该系统以图优化为核心原理设计。
 - Lago SLAM : 图形驱动的 SLAM 方案通过最小化复杂的非线性成本函数实现高精度定位。
 - Core SLAM : 这一算法以其极小的性能损失而著称。
 - Cartographer : 谷歌开发的一款高效定位与建图工具,整合了子地图和闭环技术,在多平台应用中表现出色。
 
2) 3D SLAM
- Loam :它是一种实时状态估计的方法,使用三维激光雷达进行建图。它也back and forth spin版本和连续扫描2D激光雷达版本。
 - Lego-Loam :它从Velodyne 的一个VLP-16激光雷达(水平放置)和可选的IMU数据作为输入获得点云数据。该系统实时输出6维位姿估计,具有全局最优性和闭环性。
 - Cartographer :支持2D和3D SLAM。
 - IMLS-SLAM :它提出了一种新的仅仅基于3D激光雷达数据的低漂移SLAM算法,该算法使用扫描到模型(scan-to-model)的匹配框架。
 
3) 深度学习与激光雷达(点云)
Feature & Detection(特征和检测)
- PointNetVLAD 允许端到端的训练和推理,从给定的3D点云提取全局描述符来解决基于点云的位置识别。
 - VoxelNet 是一个通用的三维检测网络,包括统一特征提取和单级边界框检测,端到端可训练的深度网络。其他工作可以在BirdNet 中看到。
 - LMNet 描述了一个高效的单级深度卷积神经网络以检测对象并输出objectness map和每个点的边界框偏移值。
 - PIXOR 是一个proposal-free 的单级检测器,从像素的神经网络预测输出面向三维物体的估计解码。
 - Yolo3D 建立在二维图像空间中的一次回归元架构透视成功的基础上,从激光雷达点云数据进行扩展定向生成三维物体的边界框。
 - PointCNN 旨在从输入的点中学习X-transformation。X-transformation是元素的乘积和求和的典型卷积算子。
 - MV3D 是一种传感器融合框架,采用激光雷达点云和RGB图像作为输入,并预测定向的三维边界框。
 
Recognition & Segmentation(识别和分割)
事实上,在3D点云数据中存在多种不同的分割方法具体可分为基于边缘检测的技术(如算子梯度计算)、区域增长算法及其改进方法(如多尺度处理)、模型拟合策略(如主成分分析)以及混合方法(如多源融合)。本文重点分析了不同类型的深度学习技术及其应用。
- PointNet 设计了一种新型的可以直接利用点云的神经网络架构,在分类、分割以及语义分析方面均有显著性能。
 - PointNet++ 通过不断扩大的语境范围来提取层次化的特征表示。
 - VoteNet 基于PointNet++构建了一个完整的3D检测管道流程。
 - SegMap 是一种基于线段提取的地图描述方法,在3D点云中的定位与建模任务中表现出色。
 - SqueezeSeg 是一种递归CRF卷积神经网络模型,在从三维激光雷达点云中实现实时道路目标分割方面具有独特优势。
 - PointSIFT 提出了一种基于局部特征提取的语义分割框架,在三维点云分割任务中表现优异。
 - PointWise 引入了一种改进型卷积神经网络结构,在语义分割和三维物体识别任务中取得了显著成果。
 - 3P-RNN 开创性地将端到端方法应用于非结构化点云处理,并通过多方向特征挖掘提升模型性能。
 - SegMatch 提出了一个基于三维线段检测与匹配的循环闭合算法框架;Kd-Network则专为三维模型识别任务设计,在非结构化点云场景下表现稳定可靠。
 - DeepTemporalSeg 创建了一种深度卷积神经网络(DCNN)架构,在激光雷达扫描数据的时间一致性语义分割方面取得了突破性进展。
 - 其他类似的还有PointRCNN等变体框架(不局限于上述列举),具体实现细节可参考相关研究文献以获取深入理解。
 
Localization(定位)
- L3-Net 是一种以学习为基础的新方法用于实现激光雷达定位系统的厘米级精度。
 - SuMa++ 通过全局扫描将计算得到的语义分割结果存储在point-wise标签中;同时该方法允许我们采用基于标注的方法建立具有丰富语义的地图,并在此基础上利用语义约束提升扫描匹配的效果。
 
2.3 挑战与未来
1) 成本和适应性
激光雷达的优点是可以
- 呈现三维数据,
- 不受外界光照条件的干扰。
 - 此外, 激光雷达具有广角视野。
 
 
但是激光雷达的
- 技术门槛很高,
 - 导致开发周期长,
 - 成本很大。
 
未来的趋势是微型化、合理化、成本低,状态稳定,实现高可靠性和适应性。
2) 弱纹理和动态环境
大多数SLAM系统仅限于静态环境下运行;然而,在动态环境中应用同样面临挑战。低纹理区域如复杂地形会严重影响激光雷达SLAM效果;借助IMU辅助的方式实现二维SLAM技术具有显著的效果;通过引入时间维度的时间序列建模技术能够帮助机器人实现精确的动态环境下的定位与建模;应着重考虑相关技术和方法的发展方向以解决弱纹理与动态环境下SLAM系统的性能瓶颈问题
3) 敌对的传感器攻击
深层神经网络容易遭受敌对样本的攻击
III Visual SLAM
受CPU与GPU发展推动的图形处理技术日益强大。相机传感器逐渐变得更便宜、更轻且功能更加丰富。近年来视觉SLAM技术取得了显著进展。相比之下,在激光雷达系统的应用下视觉SLAM虽然成本降低但体积更大。当前视觉SLAM技术不仅可以在微型个人电脑上运行还可以部署在嵌入式设备中,并且同样支持在智能手机等移动设备上运行。 视觉SLAM包括了用于数据采集的摄像头或惯性测量单元等多种传感器以及前端的视觉里程计或视觉惯性里程计后端优化闭环建模等多个环节。 重定位模块则有助于提升整个系统的稳定性和精度水平。
3.1 视觉传感器
视觉SLAM中主要使用的传感器是相机。具体而言,相机可以分为单目摄像头、立体摄像头以及RGB-D摄像头等类型。
- 单目相机 :依靠单目摄像机实现的视觉SLAM系统能够在实际应用中生成具有真实尺寸和比例尺的真实轨迹与地图信息。然而由于缺乏真实的深度信息存在所谓的"尺度模糊"现象;基于单目摄像机构建的SLAM系统必须经过初始化处理并会面临定位漂移问题。
 - 立体相机 :由两台单目相机构成其间的距离称为基线是已知参数的一种双视图视觉系统结构方法能有效恢复物体三维空间信息但这种基于匹配计算的方法存在资源浪费问题。
 - RGB-D相机 也被称为深度成像设备因为其能够直接以像素级别输出物体表面各点处的距离信息从而实现了空间位置的信息获取这一特性使其在机器人导航与 scene understanding 等领域发挥重要作用该类设备主要通过以下三种方式实现深度感知:
(1) 基于立体测量原理利用多视图几何关系恢复三维结构;
(2) 通过投影编码的方法在每个像素处记录不同深度下的反射光强度;
(3) 运用时间-of-flight(TOF)技术测量激光信号在不同介质中的传播时间从而计算出物体表面到传感器的距离。 - 事件式成像装置并非以固定频率捕捉图像信息而是采用异步采样的方式对每个像素点进行亮度变化检测这种设计不仅显著提升了设备的工作效率而且能在极端光照条件下维持良好的性能表现例如动态视觉传感器应用了基于时间的空间采样原理能够在高动态范围场景下提供稳定的图像采集效果。
 
接下来介绍视觉传感器的产品和公司 :
- 微软:KINe ct v1(结构光),KINe ct v2(TOF),A ZE Kin e ct(配麦克风及IMU)。
 - 英特尔:D 2 世 级 、D 3 世 级 、MOD ULE D 4 世 级 中的D 4 15 (红外立体声+滚动快门)、D 4 35 (红外立体声+全球快门)、及D 4 35 i 型(配备IMU)。
 - 施乐 labs Z ED:Z ED 摄像头(最大深度达2米)。
 - MY NT AI:D 1 世 级 型深度相机、D 1.2 型智能手机摄像头及S 1.3 型标准深度摄像头。
 - O cci pita l S truct ur e:结构式传感器(适用于iPad设备)。
 - 三星:动态视觉传感器V2及V3、基于事件的视觉解决方案。
 - 其他 深 度 摄像头 可列 出下 列产品 , 不限于此 : Leap Motion、Orbbec Astra、Pico、Zense、DUO、Xtion Camboard、IMI Human plus及Peripio.xyz等;其他事件 摄像头 则可 包括 ini Vation、AIT(Austrian Institute of Technology)、SiliconEye、Prophesee等。
 
3.2 视觉SLAM系统(Visual SLAM System)
图像信息处理手段可划分为两类:一类为直接法(direct method),另一类为基于特征的方法(feature-based method)。其中,直接法采用的是半稠密到稠密的构建方式;相比之下,在这种思路下进行求解效率较低;而基于特征的手势识别则是一种更为高效的策略。随后部分将详细讲解几种经典的视觉SLAM技术(其中ATAM7是一个专为新手设计的视觉SLAM工具包)。
1) 稀疏视觉SLAM
- MonoSLAM :它是基于Extended Kalman Filter的第一款实时单目 SLAM 系统。
- PTAM :(单目)是第一款并行执行跟踪与映射 SLAM 系统。其核心在于通过束平差优化关键帧位置,并在后续版本中引入了高效的位姿估计方法。
 - ORB-SLAM :(单目)采用三线程协同工作模式:实时跟踪、基于最小化重投影误差(Covisibility Graph)的关键帧优化以及全局姿态图(Essential Graph)优化。ORB-SLAV v2则扩展支持单目、立体及 RGB-D 设备配合使用。
 - proSLAM :(立体)是一种轻量化的三维视觉定位与建图系统。
 - ENFT-sfm :它是一种高效特征跟踪技术,在多个视频序列间实现特征点匹配。其升级版ENFT-SL AM 能够处理大规模数据流。
 - OpenVSLAm :(多相机类型)基于是稀疏特征求解间接 SL AM 算法框架。该框架的优势在于支持透视、鱼眼及球面相机模型,并可自定义相机参数。
 - TagSL AM :它是一种基于 AprilTag 标准基标的 SL AM 方法,并提供了一套完整的 GTS AM 因素图优化前端设计方案。
 
 
其他类似的还有但不限于UcoSLAM 。
2) 半稠密视觉SLAM
- LSD-SLAM :(单目)开发了一种结合李代数与直接追踪技术的独特方法,并支持使用立体相机及广角相机设备。
 - SVO :(单目)作为一种半自动视觉里程计技术,在图像配准过程中采用了稀疏模型以实现更高的速度性能,并且其最新版本已扩展至多镜头配置,并支持鱼眼镜头及反折射镜头等特殊镜头类型。
 - DSO :(单目)由LSD-SLAM项目的开发者推出的一种创新性视觉导航系统,在无需进行特征点检测与描述的情况下实现了高效的定位追踪功能。
 - EVO :(事件)这是一种专为复杂动态环境设计的眼动测距算法,在面对运动模糊影响的同时仍能提供稳定可靠的测距结果;该算法特别适用于光照条件复杂多变以及高动态范围场景下的应用。
 
3) 稠密视觉SLAM
- DTAM :(单目)基于一种新型非凸优化框架,在最小化全局空间正则化能量泛函的基础上实现了三维模型的实时重建,并将其命名为直接法。
 - MLM SLAM :(单目)该算法无需依赖图形处理器(GPU),即可实现在线稠密三维模型重建的关键技术包括多分辨率深度估计与空间平滑处理。
 - Kintinuous :(RGB-D)开创性地实现了基于深度数据的全局一致实时点网格重构。
 - DVO :(RGB-D)提出了基于熵的关键帧选择机制的新一代稠密视觉SLAM方法,并利用g2o框架实现闭环路径检测。
 - RGBD-SLAM-V2 :(RGB-D)突破性地实现了无需辅助传感器也能构建精确三维稠密模型的能力。
 - Kintinuous :(RGB-D)创新性地实现了视觉SLAM系统的点与网格实时一致重构。
 - RTAB-MAP :(RGB-D)具备同时定位与建图能力但缺乏作为底层算法开发基础的支持。后续版本新增了对激光雷达SLAM的支持。
 - Dynamic Fusion :(RGB-D)首次在Kinect融合框架下实现实时非刚性场景重建的稠密SLAM系统性能。VolumeDeform同样实现了实时非刚性重建但仅限于非开源领域。
 - Elastic Fusion :(RGB-D)提供了一种基于地面坐标系的真实稠密可视SLAM系统能够捕获全面密集环境地图并适应房间尺度需求。
 - InfiniTAM :(RGB-D)是一个可在Linux、iOS及Android平台运行的高性能实时三维重建系统。
 - Bundle Fusion :(RGB-D)通过恢复严重跟踪故障增强了系统的稳定性并在动态重新估计3D模型以保证全局一致性方面表现突出。
 - 其他类似的技术方案包括但不仅限于:SLAMRecon、RKD-SLAM及RGB-D SLAM等系统。Maplab、PointNVSNet、MID-Fusion以及MaskFusion等也是相关领域的研究方向
 
4) 视觉惯性里程计(VIO) SLAM
就技术而言, 视觉SLAM确实面临着巨大的挑战. 单纯依靠单目视觉实现 SLAM 必然会遇到初始化需求及尺度模糊与尺度漂移等关键问题. 尽管立体相机和 RGB-D 设备能够解决初始化与缩放问题, 但它们仍面临不容忽视的诸多障碍, 其中一项关键障碍是快速移动问题 (包括使用 Global Shuttle 或鱼眼镜头甚至全景相机来应对). 此外还有有限的视野范围, 计算量巨大, 遮挡现象依然难以处理, 特征丢失会导致定位精度下降, 动态环境中的跟踪问题依然存在以及光照条件的变化也会影响性能. 最近关于视觉惯性里程计 SLAM 技术的研究逐渐成为学术界关注的焦点.
首先,在VIO领域进行了若干尝试。展示了视觉惯性里程计中的典型实例及其理论基础,并附带了严谨的数学证明过程。值得注意的是,在该领域已有诸多成熟产品如Tango设备、Dyson 360 Eye以及Hololens等实际应用产品均获得了广泛认可。除此之外,在AR领域仍有许多相关技术成果值得关注:包括苹果的ARKit(基于过滤器技术)、谷歌的ARcore(基于过滤器技术)以及uSens的Inside-out技术等均为视觉惯性领域的代表性解决方案。PennCOSY-VIO 作为一项创新成果,则是由一个立体相机与IMU组成的VI传感器套件,并结合两个Project Tango手持设备与三个GoPro Hero 4相机协同工作完成内外标定任务后展开运行
该方案不仅具备在线空间标定功能还实现了在线时间标定能力同时能够保证生成的地图点一致性
其他解决方案具体包括以下几种方案:首先是VI-ORB算法(由ORB-SLAM团队开发的一种优化算法),其次是StructVIO设计(结合结构光流算法)。此外,RKSLAM系统能够有效地应对AR场景中复杂的动态变化。
5) 深度学习与视觉SLAM
当前,在计算机视觉领域中,深度学习扮演着不可或缺的角色。随着视觉SLAM的进步吸引了越来越多的研究者关注这一技术。“语义SLAM”被定义为一种技术,在此框架下系统会整合并利用场景中的语义信息以提升算法效果。具体而言,在这种方法中系统不仅能够识别出物体的存在及其位置还能理解和分析场景中的深层结构从而实现更加智能和可靠的定位与建图过程。接下来我们将从以下几个方面阐述带有人类理解能力的SLAM系统的实现过程:
- **Feature & Detection: ** * Pop-up SLAM :(单目)提出了一种实时单目平面SLAM算法,表明场景理解可以改善状态估计和稠密建图,特别是在低纹理环境下。平面测量来自应用于每个图像的弹出三维平面模型。
- SuperPoint 提出了一种用于训练兴趣点检测器和描述符的自监督框架,该框架适用于计算机视觉中的大量多视图几何问题。
 - GCN-SLAM 提出了一个基于深度学习的网络GCNv2,用于生成关键点和描述符。
 - SalientDSO 通过深度学习来实现视觉显著性和环境感知。
 - CubeSLAM (单目)是一种基于立方体模型的三维目标检测与SLAM系统。
 - MonoGRNet 是一个用于单目三维目标检测和定位的几何推理网络。关于在深度学习中进行调查检测,可能是一个不错的选择。
 
 - **Recognition & Segmentation: ** * SLAM++ :(CAD model)二维语义信息通过具有空间一致性的连接关键帧之间的对应转移到三维映射中。
- Semantic fusion (RGBD)结合CNN卷积神经网络(Convolutional Neural Network)和一种最先进的密集同步定位与建图(SLAM)系统,ElasticFusion构建出语义三维地图。
 - 3DMV (RGBD)结合RGB颜色和几何信息,对RGB- D扫描进行三维语义分割。
 - Pix3D 研究单一图像的三维形状建模。
 - ScanComplete 是一种数据驱动方法,它采用场景的不完整3D扫描作为输入,并预测一个完整的3D模型,以及每个体素语义标签。
 - Fusion++ 是一个在线对象级的SLAM系统,它可以为任意重建对象构建一个持久而精确的三维图形地图。RGB-D摄像机浏览杂乱的室内场景时,使用掩码Mask-RCNN实例分段来初始化紧凑的每个对象的截断符号距离函数(TSDF)重构,该重构具有对象大小相关的分辨率和新颖的3D前景掩码。
 - SegMap 是一种基于三维线段的地图表示,可用于机器人定位、环境重建和语义提取。
 - 3D-SIS 是一种用于商品RGB-D扫描中三维语义实例分割的新型神经网络结构。
 - DA-RNN 采用一种新的递归神经网络结构对RGB-D视频进行语义标注。
 - DenseFusion 是从RGB-D图像中估计一组已知对象的6D位姿的通用框架。
 - 其他作品见 CCNet 。
 
 - Recovery Scale: * CNN-SLAM :(单目)采用深度学习估计深度,另一项研究见 DeepVO , GS3D 。
- UnDeepVO 可以使用带有深度学习的单目相机获得6自由度的姿态和深度。
 - 谷歌提出了一种工作(Learning the depths of moving people by watching frozen people),该工作提出了一种基于无监督学习的方法,在单目相机和场景中的人都在自由移动的场景中预测稠密深度。
 - GeoNet 是一种用于单目深度的联合无监督学习框架,光流和视频中的自我运动估计。
 - CodeSLAM 提出了一种基于单幅图像的深度图,该深度图可以与位姿变量一起有效地优化。
 - **GEN-SLAM **借助常规几何SLAM和单目拓扑约束输出稠密地图。
 - 其他类似的工作可以在DeepMVS 中看到。基于事件相机的深度估计可以应用于单目相机和立体相机。
 
 - Pose Output & Optimization:
- [191](Learning visual odometry with a convolutional network)是同步性的立体VO。
 - [192]利用CNN从光流估计运动。
 - PoseNet 无需优化即可从单个RGB图像中获得6自由度姿态。
 - VInet (单目)首先对VIO中的运动进行估计,减少了对手动同步和校准的依赖。
 - DeepVO (单目)利用深度递归卷积神经网络(RCNNs)提出了一种新颖的单目VO端到端框架。类似的工作可以在[196]和SFM-Net 中看到。
 - VSO 提出了一种新的视觉语义里程计(VSO)框架,利用语义对点进行中期连续跟踪。
 - MID-Fusion (RGBD,密集型点云)使用面向对象的跟踪方法估计每个现有移动对象的姿态,并将分割后的请求与现有模型关联起来,逐步将相应的颜色、深度、语义和前景对象概率融合到每个对象模型中。
 - 其他类似的作品可以在VidLoc 中看到。
 - 此外,[200]使用事件相机输出自我运动。
 
 - Long-term Localization :
- [202](Probabilistic data association for semantic slam)综合度量信息、语义信息和数据关联,提出了传感器状态和发散地标位置的优化问题。
 - [203]提出了一种新的基于特征嵌入的无监督深度神经网络结构来实现视觉闭环。
 - [204]表明语义信息比传统的特征描述符更有效。
 - X-View 利用语义图描述符匹配进行全局定位,支持在完全不同的视图点下进行定位。
 - [206]提出了一种将假设表示为等效非高斯传感器模型的多模态,来确定对象类别标签和测量地标对应的解决方案。
 - 关于基于事件相机的应用,[207]值得一读。
 
 - Dynamic SLAM: * RDSLAM :提出了一种基于在线关键帧表示和更新的单目实时SLAM系统。
- DS-SLAM 是一个基于优化的ORB-SLAM的具有语义信息的SLAM系统。语义信息可以使SLAM系统在动态环境下具有更强的鲁棒性。
 - MaskFusion (RGB-D, 稠密点云)是一个基于Mask R-CNN[210]的实时、对象感知、语义和动态的RGB-D SLAM系统[119]。该系统甚至可以在连续的、独立的对运动中的目标进行语义标注。相关的工作可以在Co-Fusion (RGBD)中看到。
 - Detect-SLAM 将SLAM与基于深度神经网络的目标探测器相结合,使这两种功能在未知的动态环境中相互受益。
 - DynaSLAM 是一个动态环境下的单目、立体和RGB-D相机的SLAM系统。
 - StaticFusion 提出了一种动态环境下的鲁棒稠密RGB-D SLAM方法,该方法检测运动目标并同时重建背景结构。
 - RGB-D SLAM 和[215][216][217]也有基于动态环境的相关工作。
 
 
3.3 挑战与未来
1)鲁棒性和可移植性
视觉SLAM仍面临光照环境、强烈对比度的场景、快速移动物体的大角度旋转以及细节不足的区域等多种关键挑战。
- 首先,在相机姿态估计领域中,全局快门技术取代传统滚动快门系统是实现精确拍摄的基础性工作。这种先进的事件相机技术能够捕捉到每秒高达100万个事件记录(events per second),其性能完全能够满足高速场景下的快速运动需求。
- 其次,在视觉感知算法中,默认情况下采用基于边缘检测的方法存在明显的局限性。为了提升识别精度和鲁棒性,在实际应用中应综合运用边缘检测、平面拟合以及物种种类信息等多种方法,并在此基础上进一步降低对特征点匹配的依赖性。
 - 最后,在运动 scene reconstruction(场景重建)领域中,SfM/SLAM算法所依据的数学理论框架仍然具有重要价值。相比于单纯的导航函数模型而言, 基于 SfM/SLAM 的数学表达式更能准确描述 scene geometry (场景几何)特性。
 
 
可预见的是,在SLAM技术的发展进程中将呈现两个主要方向:第一种基于智能手机或无人机等嵌入式设备实现的SLAM方案;另一种是通过精细的三维重建、场景解析和深度学习技术实现更高水平的应用能力。在追求实时性与准确性之间的平衡点是一个亟待解决的关键问题。动态变化且非结构化的环境条件下进行高复杂度计算的问题仍需进一步研究。
2)多传感器融合
通常不具备单一的传感器
3)语义SLAM
实际上,人类识别物体运动的基础是依据感知,而非图像特征.深度学习技术在 SLAM 中实现了目标识别与分割功能,有助于提升周边环境感知能力.语义 SLAM 技术则可在全局优化、闭合回路检测以及重定位等方面发挥重要作用.[220]:传统同步定位与地图绘制(SLAM)方法依赖于点、线(如 PL-SLAM 和 Struct-SLAM)以及面等几何特征来进行环境结构推断.对于大规模场景中的高精度实时定位目标而言,在应用语义 SLAM 技术时能够有效完成
4)软件和硬件
SLAM并非单纯的算法体系,而是涉及多个复杂领域的技术整合。这一技术不仅受限于软件层面的支持,同时也需要硬件设施的配合。未来的发展重点将是优化算法与传感器协同工作的效率。以上实例表明,采用专用芯片而非通用处理器,采用了模块化的多组分传感器架构而非单一式的传统设计,将带来显著的技术进步空间。这些创新成果极大地解放了开发者的创意空间,加速了实际应用产品的推出进程
IV 激光雷达和视觉SLAM系统
4.1 多传感器校准
1) Camera & IMU
- Kalibr 是一个提供多个摄像机校准、视觉-惯性校准(camera- IMU)以及卷帘门相机校正功能的软件包。
 - Vins-Fusion 支持在线空间和时间的实时校准。
 - MSCKF-VIO 同时实现了相机与 IMU 的协同校准。
 - 此外,IMU-tk 专为内部参数标定设计。其他相关工作详见[227]。
 - [228]提出了一种端到端的单目 VIO 网络架构,在融合来自相机和 IMU 的数据方面表现优异。
 
2) Camera & Depth
- BAD SLAM 为使用同步全局快门RGB和深度相机提出一个校准的基准。
 
3) Lidar & IMU
- LIO-mapping 系统性地阐述了一种高度集成的lidar-IMU融合方法。
- Lidar- align 作为一种简便的方法,在确定三维激光雷达与6自由度姿态传感器间的外部校准方面具有显著作用。
 - 激光雷达的外部校准具体可见于文献[231]中。
 - 博士论文[233]对激光雷达校准过程进行了详细论述。
 
 
4) Camera & Lidar
本研究阐述了一种概率监测算法及其优化器,在相机激光校准领域实现了其在线性和自动化特性的发展方向。
在Lidar - camera[235]系统中开发了一个新型管道与实验平台,在精确确定刚体变换的方法上取得了突破性进展。
RegNet系统作为多模态传感器间推导高自由度外部校准的第一个实例,在扫描激光雷达与单目相机领域展现了显著的应用潜力。
LIMO系统通过创新算法实现了基于激光雷达测量数据深度信息的有效提取,并成功应用于摄像机特征轨迹及运动参数估计过程。
CalibNet系统能够实时自动计算三维激光雷达与二维相机之间的刚体变换参数,在自监督深度学习框架下展现出强大的性能优势。
Autoware标定工具不仅支持信号波束激光雷达与摄像机对端标定,在其他相关应用领域也具备广泛兼容性。
此外还包括基于OKVIS融合声纳、视觉、惯性和深度传感器的技术体系研究[239]等后续工作。
4.2 激光雷达与视觉融合
1) Hardware layer
- Pandora:由HESAI提供的软硬件方案整合了40套激光雷达、5个彩色摄像头以及识别算法。这种整合方案能够帮助开发人员在时间与空间同步方面实现优化效果。通过了解这些概念的存在,将会为用户提供一个富有创意的想法。
 
2) Data layer
激光雷达获取的深度数据呈现较低密度且具有较高准确性,在实际应用中能够提供较为可靠的三维空间信息。相比之下相机捕获的数据点分布较为密集但其准确性相对较低主要得益于成像原理上的差异这种差异将导致基于图像技术实现_depth estimation_的空间补充与提升
- [242](Image guided depth upsampling using anisotropic total generalized variation , David, 2013)提出了一种新的深度图像上采样方法。
 - [243](In defense of classical image processing: Fast depth completion on the cpu, Jason, 2018)仅依靠基本的图像处理操作来完成稀疏激光雷达深度数据的深度补全。
 - 对于深度学习,[244](**Sparse-to-dense, **Fangchang, 2018)提出使用单个深度回归网络直接学习RGB-D原始数据,并探讨深度样本数量的影响。
 - [245](Sparsity invariant cnns , Jonas,2017)考虑了CNN在稀疏输入上的操作,以及一个从稀疏激光扫描数据到深度补全的应用。
 - DFuseNet( Shreyas,2019**)** 提出了一种基于从高分辨率强度图像中收集的上下文线索的稀疏范围测量的CNN。
 - 其他类似的工作如下,但不限于[247](Estimating depth from rgb and sparse sensing , Zhao, 2018)。
 
3) Task layer
融合立体相机和激光雷达来感知。
- [250] 通过融合雷达、激光雷达与摄像头数据实现运动物体的探测与分类。
如前所述,
*(Real-time depth enhanced monocular odometry, Ji, 2014)可以通过RGB-D摄像机提供的深度信息或与摄像机相关的lidar(Lidars)提供的深度信息来增强视觉 Odometry(VO)。
V-Loam提出了一种结合视觉里程计与激光雷达里程计的统一框架。
该方法从视觉里程计开始,
基于扫描匹配的激光雷达里程计同时细化了运动估计与点云配准。
VI-SLAM系统涉及一套完整的开发方案,
利用高精度的 RGB-D 摄像头以及低成本二维 Lidar 的数据进行定位。
此外,
*(Deep continuous fusion for multi-sensor 3d object detection,Ming,2018)利用 Lidar 和摄像头执行端到端可学习的目标检测,
而 *(An inverse-depth-induced fusion framework for urban road detection)则融合了三维 Lidar 和单目摄像头的数据。 
4.3 挑战和未来
Data Association技术要求SLAM系统能够高效整合来自多种传感器的数据流。然而,由于不同传感器提供的数据具有不同的属性(如数据类型、时间戳和空间坐标表达式),因此需要设计统一的数据格式来进行融合。此外,在多传感器协同工作的场景中,还需要解决物理模型的建立与求解问题,并结合优化算法提升系统的整体性能。
- Integrated Hardware :目前,没有合适的芯片和集成硬件使SLAM技术更容易成为产品。另一方面,如果传感器的精度由于故障、非正常状态或老化而下降,则传感器测量的质量(如噪声、偏差)与噪声模型不匹配。应该遵循硬件的鲁棒性和集成性。前端传感器应具备数据处理能力,并由硬件层向算法层演进,再由功能层向SDK进行应用创新。
 - Crowdsourcing :分散视觉SLAM是多机器人应用于没有绝对定位系统环境的有力工具。协同优化视觉多机器人SLAM需要分散的数据和优化,这被称为众包。分散数据过程中的隐私问题应引起重视。差分隐私技术[269]或许能帮上忙。
 - High Definition Map :高清晰度地图对机器人至关重要。但是哪种地图最适合机器人呢?密集地图或稀疏地图可以导航、定位和路径规划吗?对于长期建图,一个相关的开放问题是多久更新一次地图中包含的信息,以及如何确定什么时候这些信息会过时并可以丢弃。
 - Adaptability, Robustness, Scalability :正如我们所知,现在没有一个SLAM系统可以覆盖所有的场景。为了在给定的场景中正确工作,大多数都需要大量的参数调优。为了让机器人感知到人类,基于外观而不是基于特征的方法是首选的,这将有助于将昼夜序列或不同季节之间的语义信息整合成闭环。
 - Ability against risk and constraints :完善的SLAM系统应具备故障安全机制和故障感知机制。这不是关于重定位或循环闭合的问题。SLAM系统必须具备应对风险或失败的能力。同时,理想的SLAM解决方案应该能够在不同的平台上运行,而不管平台的计算限制。如何在精度、鲁棒性和有限的资源之间取得平衡是一个具有挑战性的问题。
 - Application :SLAM技术应用广泛:大规模定位、导航、三维或语义地图构建、环境识别与理解、地面机器人、无人机、VR/AR/MR、AGV(自动导引车)、自动驾驶、虚拟室内装饰、虚拟试衣间、沉浸式网络游戏、抗震救灾、视频分割与编辑。
 - Open question :端到端学习将主导SLAM吗?
 
