[论文笔记]Past, Present, and Future of Simultaneous Localization and Mapping: Toward the Robust-Percepti
The Evolution of Simultaneous Localization and Mapping: Heading Towards a Robust Perception Era
本文是一个SLAM的综述。
SLAM的基本介绍
SLAM涵盖了对机器体自身状态的估计以及对其所处环境(地图)的感知建模。其中机器体的自身状态涉及位置、方向、速度等具体参数以及传感器偏差和校准参数等细节信息。而地图不仅可以用于路径规划与可视化展示,并且通过回环检测能够有效地纠正定位偏差。

作者将SLAM的发展历程划分为经典阶段(1986-2004),这一时期的主要研究方法多基于卡尔曼滤波、粒子滤波以及极大似然估计等数学工具。算法分析阶段(2004-2015)则聚焦于深入探究SLAM体系的关键特性包括能控性、收敛性与一致性等核心要素。在此期间逐渐认识到稀疏性在提升SLAM效率方面的重要性,并相应地开发了一些开源SLAM框架作为支撑技术手段。作者认为从2015年开始进入第三个发展阶段即为感知强化时代。
SLAM 的目标是旨在通过自身体动以及闭环反馈机制来实现生成或构建一个完整的环境地图表示。
视觉惯性导航(VIN)是一种简化形式的SLAM系统;而SLAM不仅包含度量信息还包含位置识别功能;通过将这两者结合起来执行闭合回路检测;这种看似多余的这一环节却是其稳健运行的核心机制
而涉及SLAM技术性能评估的主要指标包括状态准确度(满足特定误差范围内)以及成功估算率(基于一定置信度标准),此外还包括计算延迟、最长运行时间以及地图尺寸容许误差范围内的估算精度等关键参数。
对于现阶段的SLAM人们往往关注以下四点:
稳定性:无论是在何种工作场景下都能维持低故障率,并具备快速响应故障的能力;同时拥有自我优化功能;也表现出极强的抗干扰能力。
该系统不仅在环境构建方面进行了几何重构,并且还具备了对环境的高层级理解能力(如高层次几何数据、语义知识和物理属性等)。
资源感知:基于SLAM系统的有限传感器与计算硬件,在运行过程中能够根据实际可用资源自动调节计算负载的技术;
SLAM系统通过基于不同任务的感知机制识别出与当前任务相关的空间信息,并排除不相关的信息。
SLAM的结构
作者将SLAM划分为两个阶段:前端与后端。如上图所示,在前端阶段,传感器数据被转换为可用于估计的模型;随后,在后端阶段,则会基于 frontend 生成的数据来进行推断

最大后验Maximum a Posteriori (MAP) 估计 与SLAM后端
许多论文中采用的最大后验估计方法通常用来将SLAM视为一种变量间相互关系的推导方式。
为了估计未知变量X,在SLAM框架中,变量X通常被表示为机器人运动的状态(一组离散的姿态)与环境中标记位置的结合。获得了一个测量结果集合Z=\{z_k | k=1,…,m\} ,假设每个测量结果z_k被认为与目标状态之间存在函数关系:z_k=h_k(X_k)+\epsilon_{k} ,其中h_{k}是由测量和观测模型共同决定的函数,\epsilon_{k}代表随机噪声。通过求解最优化问题得到最优状态估计量X^{*}以最大化后验概率p(X|Z) 。利用贝叶斯定理进行推导:其中p(X)代表目标状态的先验概率,在缺乏任何先验知识的情况下可视为均匀分布即p(X)=c(c为正常数) 。

注意,在与卡尔曼滤波相比时,地图估计无需明确划分运动模型与观测模型:将两者归类为系统内部因素,并在估算过程中综合处理。此外,在线性高斯条件下,卡尔曼滤波与最大后验概率(MAP)估计会导出相同的估算结果
而上式可借助因子图进行求解,在其中p(Z|X)与p(X)被定义为关键因素,并用于以图形化的方式建立各变量间的相互关联模型。
下文展示了一个基于SLAM技术的简单因子图示例。在图中,请注意以下几点:第一部分展示了机器人在不同时间点的姿态信息(用X₁,X₂,X₃表示),第二部分则描绘了标记物(用l₁,l₂表示)的空间位置关系。其中K代表的是相机的内参矩阵。而各个因素则以黑色框元素的形式呈现:u用于约束机器人运动轨迹的因素;v代表用于约束相机外参数的因素;c是实现闭环定位的关键因素;p则是引入先验知识的约束项。
因子图能够清晰地呈现变量,并且包括机器人姿态、地物位置、相机内参及其相互制约关系。

此外,因子图的连通性反过来影响所产生的SLAM问题的稀疏性。
如果假设噪声为均值为0的高斯噪声分布,那么似然值可写为:

由于求极大似然,也就是极小负对数似然。

该最小化问题可采用连续线性化的技术(L-M方法)进行逐步迭代求解。
当前广泛使用的SLAM公式通常被视为最大后验概率估计、因子图优化、 odometry 以及基于平滑的运动估计(SAM)等方法的统称。其中一个常用版本是姿态估计问题,在此框架中被估计的变量是从机器人轨迹上采样的姿态,在每个因子作用下对一个姿态施加约束。
已有研究表明,在SLAM领域中相对于传统的非线性滤波方法而言,最大后验估计在计算精度和应用效率上均表现出显著优势。然而,在实际应用中并非所有基于EKF实现的SLAM系统都能达到这一水平。与非线性滤波方法相比,在引入滑动窗口机制以改善其一致性的前提下,传统EKF算法依然能够维持较高性能水平。
由此可见,在经过进一步优化后的方法之间呈现出逐渐缩小的技术差距。
在实际的机器人应用中,在遵循地图估算需求的同时实现对传感器测量值作为状态解析函数的能力较为困难。例如,在原始传感器数据表现为图像形式时,则难以将其每个像素强度值准确地表示为SLAM状态函数
在此前的SLAM后端阶段(即视觉里程计系统),通常会设置一个前端模块来处理传感器数据并提取关键特征信息。例如,在基于视觉的SLAM系统中(vision-based SLAM),前端能够识别并提取环境中的少数几个独特点位(即独特图像特征),这些关键点的位置信息易于在后续阶段进行建模和轨迹估计。
前端还负责将每个测量结果与环境中的特定地标(如3D点)建立联系:这即是数据联结的过程。前端的数据联结模块集成了短期联结和长期联结功能。短期联结模块能够处理连续传感器观测值之间的对应关系;例如,在连续图像帧中追踪同一三维空间云点的两个像素位置。长期联结机制(亦称回环检测)则负责将新观测与已有路标进行匹配。后端通常会向_frontend 发送反馈信息,并用于完成回环检测与验证任务。
SLAM系统的鲁棒性
鲁棒性分为两点来讨论,在这里主要讨论算法鲁棒性
1)算法鲁棒性,SLAM算法的局限造成的,比如,很难处理极端动态环境
2)硬件可靠性,主要由于传感器和机器老化
算法鲁棒性
在基于特征的视觉SLAM系统中存在数据配准问题,在实际应用中该方法可能导致感知重叠现象。当不同类型的传感器输入呈现相似的感知信号时,在数据配准过程中若建立错误的测量-状态对应关系,则会导致后端算法出现估计偏差。
环境的变化包括季节交替、光照强度波动以及物体数量增减或移动等因素。传统SLAM假设世界处于静态状态,在地图模型生成后会保持不变。当环境发生变化时,在某些情况下机器人所感知的环境与构建的地图模型会出现不一致现象,并可能导致算法失效。此外,在一些复杂或恶劣环境中使用SLAM技术时可见范围有限,并可能导致部分传感器性能下降或效果不佳。
常用的解决方法
短期数据关联是相对容易处理的:因为传感器的数据采样率较快,在t + 1时刻检测到的特征及其外观仍与t时刻观察到的特征高度相似,在这种情况下实现对相同3D路标跟踪特性的有效跟踪就较为容易。
该方法能够表征特征空间并实现更为高效的搜索以规避这一问题。基于层级式字典树的构建方式,该方法能够在广泛的数据显示中实现精准检索。该技术在单任务闭环回路检测中的应用展现出高度可靠性和有效性。
2)回环闭合校验:通过额外的几何验证步骤来评估回环闭合的质量指标。在视觉应用领域中,随机抽样一致性算法(RANSAC)被广泛用于执行几何验证以及剔除异常数据点(离群点)。而在激光雷达应用中,则通过检查当前激光扫描与已有的地图数据匹配程度来进行回环闭合检验;
3)针对错误的回环闭合:使后端能够灵活应对异常观测值的影响,在评估有效回环闭合能力的基础上进行推导;通过优化过程中的残差约束回环闭合的有效性。同时,在优化前对可能存在的异常数据进行分析与筛选,在此阶段排除不正确的回环闭合情况;
4)动态环境:SLAM系统选择忽略环境中可能移动的目标物体,并将这些动态元素视为静态背景的一部分。为了有效应对持续变化的环境条件,在更新地图时需要掌握实时更新的时间敏感特性。现有的SLAM系统在处理动态环境时有两种主要策略:一种是为不同时间点在同一位置建立独立的地图副本;另一种则是通过引入时间相关的参数化方法来描述和更新地图信息。
未解决的问题
尽管在处理后端的过程中进行了改进,在遇到离群点时该方案往往仍显不够稳健。这种状况主要归因于鲁棒SLAM通常依赖于非凸优化方法的特点,在这一过程中初始估计的质量直接影响着离群点的去除效果。此外,在实际应用中由于存在硬件老化等问题可能会导致系统出现性能下降的情况进而降低整体定位精度;理想情况下一个完善的SLAM系统应具备故障检测与恢复能力以确保其在关键任务执行过程中的可靠性;为此系统需能够识别潜在的失效迹象并采取相应的措施以保证定位精度不受影响
系统的健壮性受到硬件故障的影响,在SLAM系统中尤其敏感。例如,在视觉里程计中使用激光雷达时发现:如果激光雷达的数据采样率与视觉摄像头不一致,则会导致定位精度出现较大偏差;为了实现高精度定位系统的目标,在开发过程中必须严格控制各子系统的协同工作频率一致性要求;那么,在实际应用中遇到哪些可能导致数据采集效率降低的情况呢?对于这些问题我们需要建立完善的监测机制以及时发现并纠正可能出现的问题;
度量重定位(Metric Relocalization)与其在基于特征方法中的表现不同。外观导向的方法能够在日间、夜晚以及不同季节间实现循环闭合。对于度量重新定位(例如利用之前地图估计的相对姿态),基于特征的方法通常更为规范;然而,在某些复杂环境中其扩展性不足。当视觉技术转向根据不同应用场景选择特定传感器时
4)时空变化与形变映射(DeformableMaps),传统SLAM方法基于静态环境这一前提进行设计。然而在实际环境中存在环境动态变化以及物体形态的不断变形。因此,在动态复杂环境中构建有效的SLAM系统具有挑战性。为了适应复杂多变的现实环境需求,一个理想的SLAM方案应该能够处理环境中的动态因素包括形态多样的动态物体,并能够在不同时间段持续更新各种地形特征地图同时实现实时定位与环境感知功能;
5)自动进行参数调节,在应用SLAM系统(尤其是其数据关联模块)时,则需确保其在特定场景下正常运作。这些调节参数包括:特征匹配阈值设置、RANSAC算法相关配置以及决定增补因子图节点或执行回环闭合算法的关键指标等。当应用于任意场景时,则需采取相应的措施来优化其最优配置方案。
SLAM系统的可拓展性
现代SLAM算法已在室内环境中获得验证,在许多实际应用场景中机器人需在一个较大的区域内持续运行这些应用涵盖环境监测领域的海洋探索以及其他类似的应用场景此类应用场景要求机器人不断探索新的区域并持续增加运行时间随着探索范围扩大和运行时间延长在SLAM框架下因子图规模随之增大实际上计算时间和内存占用受制于机器人本身的硬件资源限制为此开发计算与存储复杂度可控的SLAM方法显得尤为重要连续线性化方法导致内存消耗呈平方级增长而迭代线性解算器则使内存消耗呈现线性级增长当同一空间区域反复被访问时节点与边的数量不断增多这不仅降低了因子图优化的有效性还破坏了其稀疏特性从而使问题变得更加复杂
主要方法
节点和边缘稀疏化方法
这些方法主要针对的是提升系统的可扩展性问题,并通过降低新增到图中的节点数量以及剪枝那些具有较低'信息丰富度'的节点与因子里来实现目标。
1)使用信息论方法,仅向图中添加非冗余节点和信息量大的测量值;
通过在现有节点之间施加新的限制条件来防止向图中添加新的节点,从而使变量的数量仅根据搜索空间的规模变化而不是因映射持续时间的延长而导致的增长;
3)通用线性约束(GLC)+非线性图稀疏化(NGS)方法。
另一个允许随着时间来减少待估计参数的是连续时间轨迹估计
1)用三次样条(cubic-splines)表示连续轨迹
2)批处理优化公式中使用基础函数近似轨迹
3)滑动窗口 B 样条(Sliding-window B-spline)公式也可用于卷帘快门SLAM
4)连续时间 SLAM 公式用于基于事件的相机
4)连续 3D 扫描匹配公式扩大了大规模 SLAM
核外(并行)SLAM
SLAM中的并行核内方法将因子图的计算负载与内存资源分配到多个处理器上以实现协同处理效果。其核心理念在于通过将因子图划分为若干子图集合后采用轮流优化每个子图的方式来提升整体性能同时实现整体的精细调整
分布式多机器人(Distributed Multirobot) SLAM
布置多台机器人执行SLAM任务,并将场景划分为若干小区域;各个小区域各自由特定的机器人进行绘制
1)集中式:机器人构建子地图,并将信息传输到执行推理的中央站;
分散式结构下,在没有集中数据整合的情况下
采用分而治之策略的本地通信系统能够利用高斯消去法进行数据处理,并同时发展了一种名为DDF-SAM的新方法。在该方法中,每个机器人负责交换一组包含分离变量的数据块(这些变量由所有机器人共享),通过高斯消除技术进行处理以完成任务。
机器人间交换界面密集时建议采用稀疏化技术以优化机器人间的交互效率。该方法显著降低了分隔符的时间复杂度
通过高斯消除法求解了该问题的线性化版本;DDF-SAM 系统依赖于可靠的线性和高效的计算机制(bookkeeping),使得所有计算节点能够达成一致的一致性。
现阶段的问题
1)地图表示:
 · 如何在长期运行时存储地图(原始方式浪费内存);
 · 针对压缩(compressed)的已知地图进行定位;
 · 针对内存进行密集重建。
2)学习、遗忘和记忆:
 · 多久更新一次地图信息,如何确定信息是否过时
3)鲁棒分布式映射(多机器人处理离群点的问题):
 · 机器人参考系不同,闭环检测变难,如何从局部信息检测异常值
在融合信息之前采用汇合同策略核查位置假设,在杂乱(spurious)测量中构建统一的基准系统
4)资源受限的平台:
如何将现有的SLAM算法适应性地应用于高度受限的计算平台上运行?以智能手机、无人机以及小型仿生机器人等为例;
 · 如何在精度和计算成本之间进行的权衡;
 · 当面临带宽限制和通信中断时,如何保证多机器人团队的可靠运行
度量地图模型
确定适合SLAM的度量表示方案。在二维空间中,几何建模仅存在两种主要的建模范式:基于地标的地图构建与基于网格的地图构建。前者将环境建模为一系列离散的基准点,并通过这些基准点来描述环境特征;后者则将环境划分为多个单元,并对每个单元赋予一个占据概率值。相比之下,在三维几何建模方面仍面临着诸多挑战。目前对如何实现高效的三维空间重建技术仍缺乏深入理解。
基于地标的稀疏表示
大多数基于标定的SLAM方法通常会将场景表示为一组稀疏的三维界标,并将这些界标与环境中的独特特征相对应(如直线、转弯等几何元素)。如图1所示(左),这种表示方法通常被归类为基于特征或基于地标的方法。这些表示背后的一个共同假设是所使用的传感器能够测量地标的某些几何特征,并通过提供一个描述符来建立(可能不确定的)数据关联关系

低级原始密集表示
与基于地标信息的表示相反,在三维空间中密集表示的目标是生成高分辨率的三维几何模型。这些模型不仅特别适合用于障碍物检测和避让,在实时渲染方面也有出色表现(如上图右)。原始表示则通过大量非结构化的点云或多边形网格来描述复杂的三维形状。这种表征方法直接利用图像像素强度值来推断机器人运动轨迹及其对应的三维模型。尽管其视觉效果令人印象深刻但往往伴随着较大的数据存储需求因为处理的数据量极大而且在细节刻画方面可能会忽略障碍物之间的拓扑关系
边界和空间分区密集表示
    这类表示超出了一些低级单元集合(点)的表示,并且尝试用于表示表面(或边界)和体积。显式表示曲面和体积,更适合导航、避障及基于物理的推理。
        边界表示(b-reps)由三维对象的表面边界来定义三维对象。较为简单的边界表示则基于平面模型。更为复杂的b-reps则包含基于曲线的表示(如NURBS或B-样条的张量积)、表面网格模型(由多边形构成的连通体)以及隐式表面表示等类型。
2)该种表示方法将三维实体对象被定义为由一系列非交叠的空间图形元素组成的连续集合。最常用的这类分割方法被称为"基于占用的空间枚举"技术,在这种方案下, 三维空间被划分为遵循规则的三轴网格结构的形式单元, 即所谓的体素(voxels)。
3)特征法(Feature-based)与直接法。基于特征的方法已相当成熟,并已广泛应用于实际场景中。这些技术可构建精确且可靠的闭环定位SLAM系统(Simultaneous Localization and Mapping),其中自动重定位功能确保了系统的稳定性与可靠性。然而这种定位系统的实现高度依赖于环境中的可检测特征求取能力以及对检测与匹配阈值的要求;此外大多数现有的特征检测算法都是为了适应高速度而牺牲了准确性;相比之下直接方法则利用原始像素数据进行处理;密集型直接方法充分利用图像中的细节信息进而显著提升了算法性能;因此在纹理复杂度、成像模糊及运动模糊较严重的情况下这些算法往往能够超越基于特征求取的传统定位技术但这也带来了计算资源上的巨大挑战
如何指导性地估计密集结构与运动?这可能超出了当前研究范围。然而,在本节中我们关注的是一个更为基础的问题:如何结合稠密重构与光流估计来进行运动分析。对于稠密重建问题,在现有研究中已经提出了多种解决方案。例如,在稠密重建中引入深度学习模型能够显著提升重建质量;而基于深度学习的方法则能够进一步提高计算效率。在本节中我们将重点探讨一种新的算法框架——基于深度学习的光流估计器,并将其与现有的稠密重建技术相结合以实现更高效的运动分析。
基于对象的高级表示
尽管点云和边界表示目前在全球地图绘制领域处于领先地位,并不仅局限于涵盖复杂对象及其边界信息,在未来的视觉定位与导航(SLAM)系统中这一技术将继续发挥关键作用。采用实体建模方法能够使系统更精确地关联物理属性(如体积、质量等)与具体物体。
采用参数化的策略来实现对物体的实例化。具体而言,在每个物体类别(如圆柱体、球体等)中,我们详细说明了其特征属性(如半径、高度等),以便唯一地确定该类别的每一个具体实例(或成员)。为了提高效率与准确性,在设计过程中采用了高度紧凑的数学模型,并且这个模型仍然能够有效描述人造环境中常见的几何特性。
2)扫描(Sweep)表示:扫描(Sweep)表示被定义为将二维或三维对象沿着空间路径进行扫描,并且该方法适用于处理场景中被遮挡的部分来进行推理。
3)构造实体几何:基于布尔运算的方法来生成复杂的几何体,并实现对复杂形状的建模。
4)其他表示类型:CAD中采用特征方法、依赖词典技术、根据可用性设计的方案、生成与过程相关的架构以及场景图展示。
现阶段的问题
1)SLAM中的高级表达表示:
在使用点阵数据生成模型时
 · 使用高级表示为大规模制图中的地图压缩提供思路
高级表示包含对象几何的更详细描述;
它作为一个理想特征,在数据关联、位置识别、语义理解以及人机交互方面表现出色;
从而让SLAM系统能够推断出物体被遮挡的部分,
并借助形状先验信息;
进一步揭示物体物理属性(如重量和动态行为)的相关推断过程。
 · 使用丰富的三维表示将使现代建筑的建设和管理与现有标准相互作用
最佳表示:在各种环境下个体有不同的偏好,在这种情况下如何选择'optimal representation'?
应重点关注领域(可指特定的目标群体或真实对象的集合)、其紧凑性(用于存储和传输所需的表示量)、构建效率(在机器人学中涉及构建这些表示所需的时间复杂度)以及其适用效果(这取决于具体的应用场景)。
 · 执行给定任务所需的最小统计量,对噪声的最大不变性(invariance)
 · 寻找一个通用但易于处理的框架,为任务选择最佳表示形式
3)自动自适应表示:
 · 机器人能根据任务和环境的复杂性使用不同复杂程度的表示形式
语义地图模型
语义与拓扑 SLAM
忽略几何度量数据,并仅依靠位置识别生成空间关系网络。其中节点代表不同场所的位置标识,在这种网络中边则指示场所间的可达性。我们认识到,在方法论上存在显著差异,在技术实现上,拓扑架构依赖于对历史观察点的精确识别(如厨房区或走廊),而语义架构则通过具体名称或区域特征进行分类管理。
语义SLAM:概念的结构和细节
就给定的一个机器人任务而言,在例如"从A房间移动到B房间"的情况下进行处理时, 所需进行的是较为粗略的层次划分, 即将环境分解为'房间' '走廊' '门'等类别即可完成相应的操作流程;而在处理"抓取茶具"这样的具体动作时, 则需要进行细致层次划分, 包括将物体归类为'桌子' '茶具' '玻璃容器'等不同层级
2)语义概念的组织:语义概念之间并非完全独立。每个实体都可能拥有无数种属性或概念。例如椅子既可以具备移动功能又可以提供坐下空间;餐桌则既可以方便移动又不具备固定装配结构。尽管椅子与桌子同属家具类别,在功能上仍存在差异。这种差异导致了不同的适用场景。根据是否共用某些特性我们需要建立相应的层次结构以管理这些多样化的特性
主要方法
语义地图涵盖将各个领域内的抽象概念与机器人感知到的物理世界中的几何实体对应起来的过程。
近年来研究者们发现单纯的基于几何的映射难以满足复杂环境下的应用需求,并致力于开展环境语义地图的相关研究来提升机器人的自主决策能力。
现有技术主要基于以下三种方法实现对空间实体与数据之间的关联建立机制以及对这些信息的有效整合和存储。
SLAM 促进语义理解,在早期研究中将经典的 SLAM 系统构建度量图的方法分解为基础途径以实现语义概念。例如借助二维激光扫描生成几何地图随后通过离线关联马尔可夫网络整合每个机器人姿态的分类语义位置。
Semantics plays a significant role in SLAM technology, as the first semantic map emerged shortly thereafter. Another research direction then began by leveraging known object categories or entities. This concept revolves around the idea that if we can identify objects or elements on the map, we can utilize our prior knowledge of their geometric shapes to enhance the accuracy of the map estimation.
研究人员开展研究发现,在联合公式框架内实施了基于计算机视觉与机器人学的知识体系下的单目SLAM技术和场景区域划分方法。
现阶段的问题
语义建模不仅仅是将问题简单归类那么简单,在具备一定先验知识的基础上机器人们应该能够推断出新的方法及其语义表达方式。换句话说它应该能够识别环境中新出现的物体或新的分类类别并在此基础上了解它们的新增属性。针对环境中的缓慢变化或突然变化的情况机器人们应采用相应的表征策略以适应不同的情况发展
2)基于语义推理的人类可以通过语义表示简化并加速对环境的推理过程;然而精确几何度量虽然准确但可能耗时较长。当前这一模式并不适用于机器人:尽管机器人能够处理几何度量但它们在执行语音方法方面存在局限性。目前我们的机器人在高效定位能力方面仍有待提升,并且在利用环境中持续进行语义建图(即分类识别、实体关联以及属性提取)方面存在挑战。
SLAM中的新理论工具
大多数SLAM主要依赖于迭代非线性优化技术。由于SLAM的本质是一个非凸问题,在使用迭代优化方法时只能实现局部收敛效果。当一个算法收敛至局部极小时,其通常会导致估计结果严重偏离正确方向(如图所示)。在噪声水平较低的情况下,则难以实现全局最优解

· 为 SLAM 算法构建可靠性保障 ·
· 分析 SLAM 方法论的基础意义: ·
· 深入探讨因子图优化技术 ·
· 缺乏先验信息可能导致关键属性信息缺失 ·
现阶段的问题
1)通用性,保证和验证:解决方案可推广到任意因子图、噪声模型
2)弱还是强对偶 :
当强对偶性得以实现时,在实际应用中需要构建相应的初始约束条件;如何评估或验证系统的强对偶特性是否存在。
方向:确定全局解决方案在程序领域的应用基础,并阐述传感器设计及有源 SLAM 的理论见解
3)对异常值的恢复能力:如何解决异常值的全局技术和验证技术
主动(ACTIVE)SLAM
通过采用机器人运动机制提升地图精度与定位准确性的同时,在调节机器人运动的过程中最大限度地减小地图表示与定位的不确定性;探索未知区域与回访已知领域相结合的方式能够实现平衡管理。
主要方法
最优信息获取策略被集成到主动视觉定位系统中,并通过预判地图中的不确定性来优化机器人行动规划。
2)信息论方法”在这种情况下,决策通常由信息增益的概念来指导。
3)控制理论领域中的方法:包括模型预测控制技术、贝叶斯优化方法以及高斯信念传播算法
4)有限的不确定因素中选择最佳的未来行动:
 · 当前地图中识别可探索位置(优势点)
 · 计算访问位置的效用,选效用最高的动作
 · 执行并确定继续或终止
选择优势点
考察机器人及其所处地图空间的所有可能动作时会遇到挑战性问题;然而由于计算复杂度与搜索空间呈指数级增长这一特性,在实际应用中已被证明难以有效处理。通常采用前沿探索等技术来聚焦地图中的关键区域;边界探索常被采用以优化路径规划效率
结果:在随机性影响下的连续空间规划方法(仅具有局部收敛特性),采用势场原理(potential fields)进行操作。该方法具体包括以下两个主要策略:一种是基于动作选择的方法;另一种是通过求解边界值问题来确定路径。其中势场的构建涉及利用卷积运算计算熵值以指导路径优化
计算动作效用
在理想情况下,在计算某个特定动作的价值时(即效用),机器人需要基于可预测的动作序列以及不可知的状态测量进行推理其自身姿态与地图中的后验概率演变情况。假设该后验是已知的,则信息增益函数可用于排序不同的操作方案;然而,在实际应用中只能使用近似值来进行估算。先前的研究已经意识到地图存在不确定性,并提出了机器人独立或条件独立的概念;大多数方法将效用定义为几何信息测量与地图不确定性度量之间的加权总和;这种方法的一个缺点在于两种不确定性无法直接比较其数值差异(例如地图不确定性通常大于机器人自身的),因此需要手动调节权重参数以达到平衡效果;解决这一问题的方法是采用粒子滤波结合Simultaneous Localization and Mapping (SLAM)算法,并通过优化准则进行位姿估计;此外,在最优试验设计理论(TOED)框架下也可以用来解释执行动作的价值:即每次行动都是随机设计并根据预设优化准则进行选择。
执行动作或终止探索
进行行动往往涉及相对简单的任务,在应用预先设计的运动规划方案时需判断探路任务的关键性如何?目前仍面临尚未解决的主要挑战,在后续部分详细阐述这一问题。
现阶段的问题
高效精准地预判未来状态:在主动SLAM系统中,每一步行动都应有助于减少地图中的不确定性并提升定位精度;为此,机器人必须具备预判能力以评估未来行动对地图更新和自身定位的影响。为了确保这一目标的实现,在实际应用中需要设计高效的预测算法使其结果能够精准支撑决策流程。近年来的研究表明,在机器学习领域已提出多种方法可实现对未来机器人状态的有效预测。
Nils T.Wahlström, Thomas B.Schön, and Marc Peter Deisenroth,"Constructing deep dynamic models from image pixel data" at the Proc.of the IFAC Symposium on SystIdentification in 2015
2)何时截至:如何确定执行主动SLAM的时间段?由于执行主动SLAM的过程具有较高的计算复杂度,在实际应用中需要谨慎考虑内外部任务之间的权衡关系。合理平衡执行主动SLAM决策与外部任务之间的关系至关重要。通常情况下,在大多数实际应用中,默认情况下,在大多数实际应用中,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下 getDefaultCase() { 在大多数实际应用中默认采用此策略 } 。此外,在某些特定场景下增加信息不仅会导致收益递减效应的问题,并且可能导致无法恢复的状态(如出现多个错误的循环闭合)。为此建议采用基于TOED的任务不确定性指标作为终止条件。
为了获得主动SLAM及其接近最优策略的数学基础,在无法完美解决这一问题时,则必须采用近似算法来逼近所期望的性能。
前沿:SLAM中的传感器与Learning
SLAM中的新型非常规传感器
1)测距相机:
 · ToF 相机测距精度最高
 · 有光源,可在黑暗和无纹理的场景中工作
2)光场相机:
· 不同于常规摄像头仅记录每个像素的光强这一细节, 光场式摄像机(亦被称作全像素光学相机)则能够同时捕获光线强度及其传播方向的信息. 现代常见的此类设备通常在传统图像传感器前布置多组微透镜阵列以采集物体表面反射的亮度、色彩及光线传播方向.
优势:该技术在深度估计方面表现出显著优势,在降噪、视频稳定、扰物隔离以及镜面反射消除等方面表现突出;光学元件采用较大的光圈直径,并且具有较广的景深范围。
3)时间触发相机:
· 与传统的基于帧捕捉的相机不同,在于其能够持续以恒定帧率捕捉整个图像,并且在特定瞬间仅传输发生运动变化时的部分区域(即细部像素)的变化信息。
 · 优点:延迟小、频率高、功耗小,可在高速运动场景中使用
 · 缺点:基于帧的计算机视觉算法不适用
 · 基于事件的实时定位和映射算法,使得传入事件可异步更改估计状态
现阶段的问题
有源测距相机的主要缺点包括最大射程以及对外部光源(如太阳光)的干扰;尽管如此,在某些情况下仍需考虑其局限性
2)相机系统基于先进的事件检测器包含复杂的模拟电路部分,在这种设计下存在非线性特性和偏差特性。该系统能够调节像素灵敏度以及动态属性参数以适应不同的工作环境条件。然而,在实际应用中每个单独的检测事件无法提供足够的数据用于状态估计;此外每秒约产生10^5个独立检测事件的情况下系统的状态空间呈指数级增长因此在离散的时间间隔内完成SLAM任务极为复杂
3)其他传感器:SLAM的研究主要关注于距离和视觉传感器。人类或动物通过多种多样的感觉器官如听觉、视觉等来增强自身的感知能力;相比之下这些替代性的研究在视觉SLAM中占比微乎其微。
深度学习
感知工具:将深度学习模型作为运行高效的黑盒应用,并利用其改进SLAM系统以生成更加丰富的语义地图。
实际部署:深度学习高度依赖高性能计算机硬件,在SLAM应用中使用深度学习面临一个重要的技术难题是如何为嵌入式系统提供支撑足够强的计算能力。
在线学习与持续学习:基于连续观测的开放世界环境中的视觉定位与动作估计(SLAM)系统能够识别并处理新物体与新场景信息。然而目前深度神经网络大多基于封闭环境下的标注数据进行训练。为了实现单样本或多样本的学习目标需要探索深度网络在未标记数据条件下的适应性问题同时需要确保每个应用场景都具备充足的训练数据支持
虽然单独一个事件无法提供足够的信息用于状态估计(state estimation),但一个每秒产生十万(1e5)个事件的视频编码器通常会面临巨大的数据处理挑战。然而,在基于离散时间间隔的状态估计方法中实现精确的状态更新仍然是一项极具挑战性的任务
除了传统的距离和视觉传感器外,在当前的研究中
人类或其他生物则主要依靠触觉和其他感官(如听觉、视觉等)来进行信息接收
相比之下,在基于视觉的方法中占主导地位的仍然是传统的SLAM技术
深度学习
感知工具:将深度学习方法视为一个运行良好并被广泛认可的black box,并通过该black box帮助SLAM系统生成更加语义丰富且精确的地图描述。
实际部署:深度学习基于强有力的计算机硬件,在SLAM应用中使用深度学习面临的一个主要的挑战是如何在嵌入式设备上实现高效的计算资源。
在线教育与持续学习方面,基于视觉的定位与建模(SLAM)系统通常会在动态变化的开放环境中运行,在这种环境中能够识别新出现的对象与环境变化。然而目前而言,深度神经网络(DNN)主要是基于封闭环境下的数据进行训练。因此需要探讨的是如何能够在一次任务或无需先验信息的情况下充分利用深度神经网络的能力以实现持续学习的同时还需要探讨的是如何确保每个特定场景都有足够的高质量数据集支撑以支持其持续学习过程
4)bootstrapping:通过 bootstrapping 深度学习可以在特定任务中学习预设知识(如场景标签或场景深度等特征)。研究者们致力于探索如何最优地获取并利用这些信息,并在此基础上设计了一种融合几何与深度网络的方法来表征来自深层网络估计的不确定性。
