动态SLAM论文(1) — A survey: which features are required fordynamic visual simultaneous localization
目录
0 Introduction
1 Existing surveys on dynamic SLAM or its components
2 Article organization
3 Low-level-feature-based dynamic SLAM
4 Robust SLAM
5 SLAMMOT
5.1 Multi-motion segmentation
5.2 Dynamic feature reconstruction and 3D object tracking
5 Using high-level features in dynamic SLAM
6 Robust SLAM
This approach employs high-level feature representations as semantic priors for the task of low-level feature-based SLAM.
6.2 Using high-level features in object SLAM
7 SLAMMOT
7.1 Using high-level features in point-based SLAM
8 Conclusions
摘要:
关键词:动态同步定位及绘图技术、多元目标追踪系统、数据匹配与关联分析、多目标同步定位及绘图画制技术、特征筛选策略优化
0 Introduction
为了实现智能机器人与人类的协同工作,机器人必须具备自主定位能力。同时定位与建图(即SLAM)被广泛应用于解决这一问题。在缺乏全局位置信息的环境中(如隧道及室内环境中),SLAM技术被视为一种关键的技术手段。基于视觉的SLAM系统(V-SLAM)的主要任务是从具有时间关系的图像序列中提取并匹配一系列视觉特征,并通过这些特征估计相机姿态并构建一致的三维场景模型。为了实现这一目标,在V-SLAM系统中一般包含多个通用功能模块:包括用于特征跟踪的功能模块、用于地图构建的功能模块以及用于闭环检测以实现误差漂移校正的功能模块等。
V-SLAM采用多种类型的相机进行感知融合与运动估计。在仅有单目相机的应用场景下,在缺乏深度信息的情况下无法直接确定物体间的绝对距离关系(即全局尺度),因此必须依靠附加传感器(如惯性测量单元)或先验知识(如形状约束)等手段来解决这一问题。然而,在重量受限的微型飞行器领域中选择单目相机成为理想选择:其优势在于重量轻、功耗低以及价格低廉等特性使其成为微系统平台的理想解决方案。相比之下,在获取深度信息方面RGB-D SLAM具有显著优势:它能够直接捕获深度信息并准确估计全局尺度;但其对光照条件极为敏感的特点限制了其在复杂室外环境中的应用范围。基于双目结构的立体SLAM则能够通过左右相机间的基线长度来推导出物体的空间位置信息以及深度数据;但这种技术由于对基线长度的高度敏感性而难以实现便携式设备上的应用。与前三种传统相机类型不同的是事件相机是一种生物启发式的创新技术:它通过记录单像素亮度变化的时间戳来进行图像捕捉与分析工作;这种异步采集机制不仅降低了系统的延迟性能而且显著提高了动态对比度表现能力;因此事件相机特别适合于应对那些需要快速响应和精确障碍物避障任务的应用场景
从视觉特征的分类角度来看,在信息量方面具有显著差异的两个层次:一个是基础层次的像素块、点或线等元素;另一个是基于语义的对象标记层次
从优化角度来看,在SLAM领域有两种主要类型:基于滤波器的SLAM与基于帧的SLAM。前者通过边缘化过去的姿态并整合随时间积累的概率信息;相比之下,在这种方案下,我们仅选择少量过去的关键帧,并对其应用束平滑(Bundle Adjustment)处理。值得注意的是,在深度估计[8]、传感器融合[9]以及动态特征确定[10]等方面……
在静态或近似静态纹理场景中,V-SLAM问题能够得到优雅的解决方案。在这种情况下,在特定条件下具备足够的背景特征用于自我估计。然而,在更为复杂的现实环境中——例如拥挤的走廊或商场——经典SLAM会产生较差的结果(参考文献[13])。这是因为经典SLAM无法准确处理动态特征。解决这一问题有两条途径:第一条路径是将动态特征/对应项视为异常值以去除它们(称为鲁棒型 SLAM 问题),第二条途径则是将 SLAM 与多目标跟踪结合在一起(称为 SLAM MOT 问题)。直观而言,在利用动态特征求解相机姿态方面要比单纯去除它们更为稳健且有意义。这是因为 SLAM 与物体检测[14]以及 MOT[15]之间具有密切关联性。换句话说,在高级特征求解器中应用这些方法可以实现相互间的协同作用:物体检测与 MOT 分别用于特征求解器中的特征提取以及数据关联过程;而反过来则可以通过 SLAM 基于相机姿态与物体姿态的信息促进物体检测与 MOT 的性能提升从而实现更精确的目标追踪效果。
从实际应用的角度而言,在视图中估计对象状态对于机器人实现正确决策以及与人类交互具有重要意义。例如,在无人驾驶汽车中了解行人和其他车辆的状态有助于实现更为可靠的安全决策以及避免交通事故的发生。此外,在移动电话领域MOT技术赋予了其使用增强现实(AR)展示动态物体的能力。
本文从特征使用的方面深入探讨了动态环境下视觉SLAM的各个组成部分,并对其实现进行了详细分析。同时进一步阐述了SLAM与MOT之间的内在联系。另外一项重点则是对不同相机及优化方法在动态SLAM中的优势与不足进行重点论述。最后还将进一步探讨不同类型特征在动态环境中的优势与不足。
1 Existing surveys on dynamic SLAM or its components
本文对动态SLAM领域的最新综述进行了总结。如表1所示的数据集展示了相关研究的关键指标对比分析结果。Xia等人[18]对基于语义的信息融合视觉 SLAM方法进行了深入研究,并提出了改进方案以提升定位精度。Chen等人[19]则探讨了深度学习技术在 SLAM系统中的应用前景,并提出了一种结合多传感器数据的新框架以提高系统的鲁棒性。Saputra等人[16]系统性地分析了动态 SLAM面临的三大关键挑战,并将其划分为鲁棒的视觉 SLAM、基于运动分割和三维重建的方法三类。近年来关于特征驱动的 SLAM方法的一篇综述论文中指出,在实际应用中特征提取算法的选择直接影响着整体性能表现。此外,在这篇综述的基础上本文还进一步探讨了Saputra等人的开创性工作以及Azzam等人的创新成果在动态 SLAM领域的整合与进展

2 Article organization
本文的核心挑战在于处理动态数据之间的关联关系。基于此,在处理动态SLAM时,可以根据是否剔除对应关系或利用其进行物体追踪的方式下,将其视为鲁棒性问题的一种扩展形式[16]。本文的其余部分组织如下:
- 基于基础的动态 SLAM 部分探讨了如何在动态环境中仅提取低级特征。
 - 应用高级特征于动态 SLAM 的部分则探讨了其功能。
 - 最后小结不同层次特性的优劣,并分析了实现有效的动态 SLAM 所面临的挑战。
 
表2简要概述了最近发展的鲁棒SLAM系统。该系统面临诸多挑战,在准确识别动态元素的同时还需有效应对遮挡问题,并需持续维护地图的一致性,在剔除动态特征时必须谨慎处理有限数量的有效点特征。详细阐述上述内容将在鲁棒SLAM部分展开,并在该部分的讨论中对比分析低级与高级特征的表现。

系统属性:系统的骨干(Backbone),
相机类型(CT):RGB-D(D)、单目(M)、立体(S),
环境(Env):室内(I)、室外(O)
实现细节方面:运动分割方法(MS)的具体实施涉及多个关键指标与参数分析:包括重投影误差指标(REI)、极线特征值(EVal)、基于匹配与预测的三维地标间距(SII)、语义信息指标(SII)、深度信息指标值(DIVal)、光流特征量值(OFVal),以及三角测量结果值/参数值/空间坐标值/空间参数坐标值/坐标参数数值(TResultParams)等多维度评估体系
高级特征提取器(HE):语义分割网络(S),目标检测网络(O)。
实际考虑包括以下几个方面:第一部分是采用概率模型或动态得分(权重)来识别动态特征(P/S)。第二部分涉及长期一致性(LC)的评估与应用。第三部分则是针对低纹理或静态点特征较少的人造场景进行特殊处理,并将其标记为 HL 类别。此外,在极线约束下仅在点特征分析中进行相关操作。
表3是对最近一些SLAM MOT系统进行了简洁总结。

系统属性:相机类型(CT):RGB-D(D)、单目(M)、立体(S),
环境(Env):室内(I)、室外(O),
对象数量(ON):单个(S)、多个(M)。
对象运动类型(OMT):刚体(R)、非刚体(NR)、
运动知识(MK):涉及目标物体的运动会产生的信息(O),涉及相机的姿态信息(C),不考虑任何其他有关运动会产生的信息或相关知识。
细节:多运动分割(MMS):子空间聚类(SSC)、多运动拟合(MMF)、语义信息(SI)。
对象SLAM采用基于高级数据关联机制和基础特征的解决方案(L),同时也采用了基于神经网络算法的方案(NN)。
对象SLAM的高级特征提取器和(HE):语义分割网络(S)、对象检测网络(O)。
优化方法(OM):联合优化(J)、分离优化(S)。
实际考虑:处理丢失数据(例如由于遮挡、丢失跟踪、运动模糊)(HMD)。
解决相对尺度问题(SR):与相机类型无关(I)。不需要形状先验知识(NP)。
概率数据关联(PD)。密集重建(DR)。
- 该系统在单目相机中缺乏解决相对尺度的能力;
 - 该方法通过多区域BA技术实现了目标跟踪;
 - 相机的运动数据主要由IMU传感器获取。
 
3 Low-level-feature-based dynamic SLAM
低级特征主要包含点类型的特征与线类型的特征。点类型的特征在纹理场景中的视觉定位与建模方面得到了广泛应用 ,以其卓越性能为基础构建了高效的定位模型与三维重建算法 。**近期研究表明 ,通过有效地结合使用点类型与线类型相结合的方式能够实现更加鲁棒的空间定位与建模技术 。因此 ,本文重点探讨如何在动态环境下实现高效的SLAM技术
在在线特征匹配领域中, 线段检测器与二进制描述符的结合已被广泛应用于多种基于点和线的SLAM系统. 此外, 在深度学习框架下设计新的线段描述符也是一种有效的方法. 相较于点特征, 在检测与匹配过程中, 直线段通常涉及更大的计算开销. 因此, 在运动物体的跟踪任务中基于描述符的方法表现欠佳.
本文将围绕两个核心方面展开讨论基于低级特征的动态SLAM实现方案:首先会探讨如何去除动态特征(包括独立点以及点线类特征),这一过程着重于鲁棒性优化模块;其次则深入分析如何将这些动态特性纳入算法框架(主要聚焦于静态空间中的点特征求解),这一内容主要集中在多目标跟踪模块中。
4 Robust SLAM
为了实现动态特征的有效去除, 鲁棒SLAM系统必须能够精确辨识并分离出动态与静态元素, 这一过程被称作运动分割.
光流方法可以用于跟踪移动物体或估计相机姿态。
针对点特征而言,点特征的光流基于像素强度的时间导数进行定义. 在静止状态下使用的静态场景中,该方法已被广泛应用于运动物体跟踪或相机姿态估计. 在动态SLAM框架下,相机及其环境中的物体可能均为动态变化. 一种直接的方法是首先估计相机自身的运动,随后通过预测与观测图像之间的光流来检测移动物体. 然而,这一做法存在两可性,Zhang等人提出了一种解决方案,即通过深度与强度信息相结合的方式从粗到细地估计相机自运动,并利用场景流来检测动态特征.
针对线特征
几何方法使用几何约束设置阈值来检测动态特征。
在点特征的处理中,能够通过极线方程、反投影光线(三角化)以及相机的姿态估计等方法推导出相应的约束条件。
首先,在所有特征均为静态的前提下进行分析与计算。在此假设下,则可得出极线、三维定位坐标(基于最小二乘法求解)、相机姿态或投影关系等初始估计值,并计算估计值与实际测量值之间的误差差值;随后依据设定阈值判断是否存在动态特性;点特徵的几何解法已由Saputra and Trigoni [16]全面阐述;针对线特徵,则可采用RGB-D相机重建三维地标结构并借助静态点特徵推演出初始相机运动参数;接着预测下一帧中的线体姿态变化趋势,并根据匹配度与预测三维线体间距差值实现动态线特徵检测;基于相机运动信息的方法可有效约束静态物体的存在性;由惯性测量单元(IMU)提供的自身运动信息能够轻易地区分静物与动物;此外本方法还可与其他两种技术方案相结合:Kim et al. [75]采用IMU设备减少了相邻图像间的旋转差异,并据此计算出运动向量序列;这些动态特徵将依据设定阈值进行筛选去噪;目前尚未有研究者将IMU数据引入基于点-线特徵的动态SLAM系统中;但可通过微调基于点-线视觉惯性测距系统来构建此类系统[73]

表2详细列出了当前系统的最新数据。对于基于点阵的鲁棒SLAM系统,在无需任何先验信息的情况下即可实现特征分离。然而仅依赖单一几何阈值可能会导致运动模糊现象的发生。类似地,在极线方向上移动的动态特征将无法被基于极线阈值检测到。相比之下,在无需额外辅助信息的情况下解决运动模糊现象更为有效。光流方法同样可以在二维空间中实现无先验条件下的分割,并且存在对光照变化高度敏感的问题。因此综合运用这些方法可能成为提升系统性能的有效途径。当检测到静态特征时,则可采用包含直接SLAM[76]和间接SLAM[77]在内的传统SLAM系统来估计相机自运动并构建环境地图
尽管基于点线(point-line)的Simultaneous Localization and Mapping (SLAM)已被证明能够提供准确且具有强鲁棒性的结果(accurate and robust results),但因计算负担过重而导致性能提升幅度有限(performance improvement margin is limited),因此对其在动态环境中的扩展应用研究相对较少(relatively few studies focus on its extension in dynamic environments)。然而,在拥挤的走廊及楼梯等特殊的动态环境中(clogged corridors and staircases in dynamic environments),线特征仍具有效性(still effective)。因此,在提取与匹配线特征方面寻求更为高效的方法(seeking more efficient methods for extraction and matching)对于其在动态场景中的应用至关重要(is crucial)。
此外,在少数连续帧上进行动态组件检测被认为是不够稳定的。由于上述方法无法通过短期观察来区分具有噪声和缓慢移动特征的测量。Du等人构建了一个概率模型,并利用带长期观测的条件随机场(CRFs)来识别动态特征以解决这个问题。尽管Zhang等人采用了动态分数来处理噪声观测结果,但他们所构建的系统仍无法维持长期的一致性。
另一个需要考虑的问题是关于遮挡的处理。在静止状态下(即没有动态变化),基于三维坐标系的地标质量取决于观测点的数量[7、21]。当观测点不足时,在缓慢移动物体的情况下难以准确估计这些地标的位置(即被缓慢移动物体遮挡的位置)。这会导致相机位置估计出现频繁的变化或丢失[24]。为了有效处理这一问题,在计算机视觉领域已有多种解决方案被提出。
然而,在高度动态的场景下进行研究时发现:鲁棒SLAM在去除这些离群值后面临数据关联性不足的问题;相比之下,在SLAMMOT [45]中充分运用了这些动态特征中的有用信息。
5 SLAMMOT
SLAMMOT是一种利用低级特征实现的空间定位与建模系统(SLAM),它由两大核心功能构成:全局多运动分割与三维空间重建。其中该算法接收全局对应关系或动态局部对应关系作为输入,并生成带有运动标签的空间点云集合作为输出结果。这些输出结果进一步被用于下一阶段的三维重建与环境推导过程。第二个功能模块则负责推导出相机运行轨迹、动态物体运动轨迹以及静态环境与动态物体间的空间结构信息。值得注意的是尽管Zhang等人开发了一种基于线特征追踪的方法用于多运动分割但目前并未有完整的动态SLAM系统能够持续追踪线特征进而实现实时三维重建因此本文提出了一种基于点的方法来解决这一技术难题。
5.1 Multi-motion segmentation
多运动分割基于依据其运动特性将动态特征分组这一原则。为同一簇的动态特征分配共同的运动标签。采用子空间聚类技术或基于运动模型的数据拟合方法来进行该操作。
子空间聚类技术: 基于仿射相机模型,在单个刚体运动下采集的跟踪特征点轨迹通常会被限制在最多四个维度的线性子空间内。因此,在处理多运动分割问题时,我们可以将其转化为一个典型的子空间聚类问题[78]。与此同时,我们需要解决两个主要问题:即如何将点分配到适当的目标子空间以及如何估计各目标子空间的具体参数。Zhang等人的研究[79]提出了一种基于置换域的聚类方法。具体而言,在该方法中首先通过随机抽样获得初始假设,并根据点之间的置换偏好建立连接关系;随后通过反复抽样每个簇生成新的假设,并不断循环执行这一过程直至收敛条件满足为止。基于此原理构建的方法[44]能够实现不依赖语义线索的实时SLAM流程(Real-time SLAM pipeline)。此外,在提升算法性能方面也存在有效的降维技术方案可供选择;例如TMPCA算法[80]作为一种参数数量少于神经网络模型的数据降维手段,在降低计算复杂度的同时依然能保证系统的实时性要求
运动模型拟合技术:在某种程度上来说,在某种意义上而言,在某种程度上说,在某种意义上而言
5.2 Dynamic feature reconstruction and 3D object tracking
如图2所示,刚体上的第 i 个点,表示为

,在不同的时间戳下在物体坐标系中具有相同的坐标。

这里,

表示刚体上第 i 个(右下标)三维点

位于世界坐标系中的点,在如图所示的位置表示为P_{k}处。在本研究中采用通用符号

,其中

表示旋转矩阵,

表示平移向量,而不是W

用于表示物体在时间戳k处相对于世界坐标系的姿态。该符号同样代表了从世界坐标系(左下标)至物体坐标系(右上标)的运动。其逆则由

表示为A。其中左上标A^{*}表示转换所涉及的框架系统。有关此符号的进一步说明,请参阅参考文献[81]。令

表示对应于

的特征在图像空间中,π表示投影模型,

相机在世界坐标系中的姿态被体现出来。接着,在公式(2)中可以计算出刚体动态特性的重投影误差。

这个公式可以实现相机的姿态(

)、移动物体的姿态(


)和它们的3D点的位置的联合优化[48]。从公式(1)中还可以推导出另一种关系,即:

这里,

描述了从k-1时刻到k时刻的姿态变化(如图所示,在世界坐标系W中)。这代表了一个物体的运动(而不考虑其姿态)。从而推导出一个新的重投影误差。(如下所示:)

此外,移动物体的速度可以表示为:

其中

表示物体中心在时间戳 k 处在世界坐标系中的齐次坐标。

对于具有动态特性的立体相机或RGB-D相机系统,在每一帧图像中都能够捕获到动态点位的空间深度信息因此能够较为精确地估算出刚体物体的姿态变化与传统的静态场景下基于单一框架的标准SLAM方法不同B escos等研究者[48]提出了一种新型的方法他们通过构建一个紧密耦合的多目标跟踪与SLAM系统的框架实现了对动态环境中的目标追踪与空间重构这种方法避免了传统SLAM仅针对静止场景的特点而更具适应性Zhang等学者[51]以及Henein等团队[82]则将公式(4)中的新引入因子纳入到静态SLAM的因素图中并通过这种方法直接计算出刚体物体的姿态变化而不依赖于物体的姿态信息同样Wang等研究者[44]也采用了基于立体相机的方法具体而言他们以相机坐标系中的点坐标为基础构建了空间定位模型并无需依赖世界坐标系的信息进而计算出相机相对于各目标之间的相对运动状态随后通过将各 camera 的运动参数及其相对于移动物体 camera 的逆变换相乘的方式实现了整体的目标姿态估计
对于单目相机来说,在这一过程(即重建与追踪)中面临两大主要挑战。首先,在处理动态特征时(即那些位置或形状发生变化的对象),标准三角测量不可行(即无法实现)。其次,在估算运动物体的轨迹时会遇到模糊性问题;这种模糊性表现为一系列相对于相机运动轨迹的单参数曲线族难以精确恢复[83, 84]。

主要挑战可以通过施加额外运动限制来克服。 Avidan及Shashua [85]假设点特征沿未知三维直线运动。这一做法实际上旨在解决在至少五个视图(t≥5)中投影射线相交的一条唯一三维直线的基本问题(如图3a所示)。尽管该过程能够逐步完成,但每个迭代步骤通常需要处理多帧图像。值得注意的是,这种方法无需任何关于相机运动先验知识的前提条件;然而其受限于物体实际运动形式这一事实,在真实世界场景中的应用受到了一定限制(例如,在平坦道路沿曲线行驶的汽车特征上,该方法也难以发挥作用)。

其中K代表相机内部矩阵,则P为与之对应的三维空间中的点坐标。当相机固定安装于移动机器人上时,则可直接推导出地面平面的基本参数。针对第二个关键问题,在文献[46]中提出的解决方案:研究团队首先通过公式(6)计算得到地面点位的具体三维坐标值,并据此推断出相机自身的运动尺度因子以及物体在空间中的定位精度。随后将形状先验作为辅助定位手段之一。最后构建了一个姿态图模型来维持整体结构的一致性,并有效解决由于相对尺度不一致而导致的位置误差问题。研究者们通过分析两者之间的相关程度,并在此基础上构建了一个新的目标函数模型,在此基础上实现了对每个被跟踪物体尺度因子的有效恢复。
实现对相机及移动物体运动轨迹的优化有两种主要策略:一种被称为分离型或松散耦合的方法;该方案先致力于确定摄像头的姿态参数;另一种被称为联合型或紧密耦合的方法;该方案则综合考虑并同步确定摄像头与动态物体的姿态参数。值得注意的是,在联合策略下可以采用统一坐标系的方式确保物体会在同一空间中的运动一致性
在SLAM MOT系统中,遮挡现象普遍存在,并且相较于鲁棒SLAM系统的相关部分而言,在解决此类问题方面更为复杂。这是因为由于静态物体或其他移动物体造成的遮挡可能导致相机位置估计和被测物体轨迹均出现漂移或丢失现象。此外,在某些情况下若未采取特殊措施将导致被丢失的目标物重新出现后被错误地赋予新的标识码进而产生标识码不一致的问题。通常解决这一问题的方法是通过整合历史数据与其当前观测建立关联关系以减少误判可能性为此Huang等人[47]提出了一种方法即利用遮挡期间的历史数据预测可能存在的运动类别并将这些预测结果与重新识别的数据进行匹配随后通过分析这些匹配结果进一步优化算法从而实现更为准确的目标物定位和轨迹重建
与低级特征相比,每个高级特征对应于某一类三维物体。相较于点特征而言,高级特征更具鉴别力,并能更为便捷地应对低纹理场景[14]。值得注意的是,在图像空间中表示高级特征的方法主要有两种:一种是基于2D边界框的技术;另一种是基于像素级掩码的方法。前者可通过对象检测技术获取;后者则可通过像素级语义分割技术获取。实现高级特征检测器的方法包括支持向量机(SVMs) [86]、CRFs [87]以及神经网络(NNs) [88].尽管目前主流的对象检测方法多依赖于神经网络(NNs) [89], 但SVM方法仍值得考虑, 因为其计算效率较高, 这对于实现实时动态SLAM性能至关重要.
5 Using high-level features in dynamic SLAM
与基础特征相比,每个高级特征对应一类三维物体。与点特征相比而言,在处理低纹理场景方面更具鉴别力(参考文献[14])。值得注意的是,在对象SLAM中不仅使用标记对象作为地图元素(如对象检测),同时也应用于基于点的SLAM方法。在图像空间中表示高级特征的方法主要有两种:一种是使用2D边界框表示法;另一种是采用像素级掩码表示法。前者可以通过标准对象检测算法提取;后者则需借助像素级语义分割技术来实现。为了实现高级特征检测器功能,在此我们可采用支持向量机(SVMs)[86]、条件随机场(CRFs)[87]以及神经网络(NNs)[88]等技术手段进行设计与实现。尽管目前主流的对象检测算法多以神经网络为基础构建而成(如文献[88]所述),但基于SVM的方法仍值得深入研究探讨——因为其计算复杂度较低,在实现实时动态SLAM系统方面具有重要意义
在基于点位的SLAM系统中,默认情况下仅依赖于辅助先验信息。因此,在这种情况下无需进行高级特征的数据关联。相比之下,在对象SLAM场景中数据关联的作用尤为关键。其中的关键问题是多目标跟踪中的测量与估计关系建模问题(MOT)。MOT算法通常被划分为两类:生成式方法与判别式方法。其中判别式跟踪策略因其优越性而成为主流方案。该技术的主要流程包含四个关键模块:目标检测、外观建模、度量学习与数据关联。具体而言,在外观建模阶段需要通过多种表征手段来描述物体特征包括加速分段测试特征(点状特徵)、光流(像素级块)以及颜色直方图(区域特徵)等多种表征方式或结合深度学习提取的学习特徵来进行描述与建模工作。在此基础上度量学习技术的目标则是将不同类别的样本映射到不同的子空间并使同一类别样本在空间中聚集在一起从而实现有效的分类与识别目的。此外还有一种基于滤波器的方法用于预测边界框位置并采用交并比匹配机制来进行精确匹配以提高跟踪效果
值得注意的是,在计算机视觉领域中存在许多相似的技术概念。具体而言,在同时定位与建图(SLAM)技术与多目标跟踪(MOT)中均可应用相同的低级属性(例如点属性)。这表明多目标跟踪算法可以通过整合进主流的SLAM架构实现更高的智能化水平。借助于外观模型中的属性提取方法,则能够将复杂的高级数据关联问题分解为一系列基础属性处理任务,并结合深度学习技术进一步优化处理流程。
基于低级特征的方法:可以通过具有相同标签的低级特征形成高级关联,在边界框表示中,则需依赖轨迹和深度信息以确保点与对象之间的对应关系有效(因为边界框往往包含背景与前景中的特征)。Yang和Scherer [14]开发了一个基于ORB SLAM2的对象SLAM系统。对于静态对象特征来说,在将点特征与其对应的高级关联(即点-对象关联)相关联后(随后),如果这些高级关联具备足够的共享点特征,则可匹配不同帧中的高级关联。当点属于对象时,则应建立点-对象关联关系。然而仅仅依靠边界的约束是不够的(为此作者引入了额外约束条件:即被观察到至少两个帧中的2D边界框,并且这些边界框需足够接近3D中心)。该方法与MOT流程不同之处在于它隐含地利用了相机姿态来指导高级关联构建;但存在边界的模糊区域问题(此外,在对象静止或缓慢移动的情况下(基于描述符的方法表现尚可),但在图像空间中难以追踪快速移动的目标地标)。为此Yang和Scherer [14]采用了稀疏光流来进行动态关联处理而未采用点位置信息。Huang等人[47]则为快速移动的对象设计了一个概率模型以优化增强型点-对象关联算法;他们提出了一个混合CRF模型结合语义信息、空间布局以及运动信息来进行特征与地标及边界框之间的联系;最后通过Kuhn-Munkres算法将当前簇与先前簇进行匹配处理。针对像素级分割表示需求,在掩码中的每个像素都必须分配一个标签值;Wang等人[44]则在超像素级别上实现了这一过程:每个超像素都被赋予相应点特征所对应的标签;而对于未包含标记点特徵的超像素区域,则采用K最近邻投票法进行标签分配
基于学习的方法:Li等人[89]提出了应用于自动驾驶领域的三维目标检测技术。该技术通过神经网络(NNs)在成对的立体图像中识别相应的物体,并将左右两个目标边界框的联合区域(称为联合目标边界框)指定为目标分类的目标。此外,在随后的研究中[90]中,他们将这一概念扩展到相邻帧之间的数据关联处理中。当物体以缓慢的速度移动时,该方法能够有效工作,并保证相邻帧间的目标边界框具有足够的重叠区域;然而,在快速移动的目标面前这一优势逐渐消失。此外,在简单的匹配机制难以应对的情况下(如物体被遮挡),该方法的表现会受到严重影响。Gordon等人[53]则设计了一种能够更好地处理短暂遮挡状态的人工智能网络结构
6 Robust SLAM
Employing high-level representations as semantic priors in low-level feature-based SLAM.
该文献[34]描述了一种方法,在低级特征求取基础SLAM时将高级特性用作语义先验。高阶特性不仅能够指导低阶特征求取运动分割信息,并且能够提供关于特性和动态性的先验概率。然而仅仅依赖于语义标签来定义潜在的动力学对象往往难以达到理想的效果。举个例子来说,在这种情况下很难正确分类被个人携带的手提物如书籍或椅子。这是因为从语义角度来看这些物品通常被视为静态的。另外需要注意的是,在识别过程中可能会出现边界框内包含背景特性的情况。因此必须引入额外的信息来确保对每个特征求取到稳健的运动分割过程
在边界框内的背景点区域中研究者等人主要依赖于语义信息开发了一种用于检测动态特征的概率模型通过多帧观测分析特征的动态特性他们在后续帧的数据处理中采用语义信息初始化ORB特征的动力学概率模型当检测到某一点位于边界框时则提升其动力学概率值然而由于这种方法对于缓慢运动物体的处理能力有限当物体运动速度较慢时系统可能会在同一区域内持续一段时间而导致检测精度下降
张等人[41]开发了一种融合深度数据的K均值聚类算法用于识别边界框内的前景与背景特征。基于动态特征数量超过边界框外样本数这一假设该方法展现了良好的性能然而在复杂场景下这种方法难以有效应用
Bescos等研究者[26]采用了卷积神经网络(CNN)技术对潜在动态物体进行逐像素级分类,并通过几何信息分析排除未被察觉的动态特征。在自身体动估计与环境地图构建的过程中,所有标记为潜在动态物体的特征元素会被系统忽视。该方法有助于生成更为可靠的环境地图,并便于长期应用中多次使用地图数据。然而,在基于语义信息剔除静态特征(例如固定车体上的独特标志)的过程中这一策略会导致SLAM系统表现出较差的鲁棒性
研究者Ballester及其团队[49]巧妙地综合运用了语义信息与几何数据。他们利用基于CNN检测出的潜在动态物体特征进行分类分析,并将这些静态特征进一步应用于自我运动识别及空间结构估计。与文献[26]的研究相比,在局部位置估算方面采用了更多静态采样点的方法论以提高精度;然而,在长期应用稳定性和实时性方面仍存在一定的局限性。
讨论:表4列出了基于RGB-D相机的一些系统相对于ORB-SLAM2的性能提升情况。其中的数据全部源自相关文献。研究者引用文献[92]中的绝对轨迹均方根误差作为性能评估指标进行比较分析。这些系统在TUM RGB-D室内数据集[92]中的两类序列上进行了测试分析:一类是坐姿(s)序列,在这类场景下仅包含两名静止站立的人;另一类是行走(w)序列,在这类动态场景中有多名移动的人参与测试。

研究表明,在基于点云的空间定位系统(SLAM)中采用高级特征能够显著提升轨迹估计的精度。然而,在与某些设计精良的空间定位系统(SLAM)[20]相比时,则这种改进的效果并不十分明显。此外,在计算资源消耗方面而言,则这些高级特征提取器不仅耗时而且依赖于GPU这一特点则导致了它们在计算资源有限的情况下难以得到广泛应用。不过这些丰富的先验知识能够有效地支撑多种关键功能实现例如背景修复[26, 33]以及对增强现实应用的支持等同时还可以帮助实现无需概率模型也能维持长久一致性的目标[26].另一方面为了确保低级别稳健SLAM系统的稳定运行则必须利用历史观测数据来保持长期一致性[22].而对于采用高级特征的空间定位系统则可以通过筛选属于特定语义类别(如行人车辆和骑行者)的所有特征轻松地维持长时间的一致性这一特性则进一步凸显了其优势.
6.2 Using high-level features in object SLAM
针对物体SLAM问题, 本研究主要通过低层特征求取过程实现对高级特征求取数量的统计. 一种简便的方式是根据其对应的静态点特征求取数量[14]. 另外一种方法则利用光流信息进行动态高级特征求取, 其处理机制类似于低层特征求取过程. 实质上, 高级特徵相较于低阶特徵具有更强的空间语义表征能力.
在图像空间中通过检测静态高级特征后的基础上恢复其对应的三维物体并用于推断相机自身运动。现有研究主要聚焦于3D物体表征的不同方法其中参数化方法主要采用标准三维形式(如长方体参考文献[14]和双重二次曲面参考文献[93])来描述物体这些表征均受到对应二维边界框的严格限制而相比之下非参数化方法则通过构建少量几何单元(如surfels参考文献[55 94 95]和voluments参考文献[96])来重构和表征物体
在局限性方面,在参数化方法中未考虑物体的细节部分;然而该方法对计算开销较小。与之相比非参数化方法能提供更为细致的物体描述;但其所需内存和计算资源均显著增加。值得注意的是surfels 表示法在实际应用中存在一定的局限性难以直接用于机器人任务[96];而长方体表示法则将在后续章节中进行深入探讨
一个3D盒子标示由九个自由度参数(位置、旋转与尺寸各三个)及一个语义标签组成。相机若能捕获当前帧深度信息,则可通过点云数据获取3D盒子的位置与尺寸。Gomez等人在[97]研究中首先计算了物体的最大深度、最小深度及平均深度。通过最大值与最小值之差可得出单顶点的_depth_;质心位置的_depth_可通过取平均值得出。然而该方法无法处理当当前帧中未观测到具有最大_depth_之点的情况。
Wang等人[44]则采用多帧点云重建物体制表并据此估计质心位置;其方法基于图像边缘检测并结合长方体候选采样以实现depth_估计。
对于单目相机Yang与Scherer[14]则基于消失点采样长方体候选并在图像空间恢复3D结构。
值得注意的是前一种基于point cloud的方法通常需采用两个或以上的子网络;而后一种纯2D检测方式严重受限于二维检测能力而难以充分利用三维几何信息。
近期Chen等人[99]提出了一种端到端的学习框架联合估计depth_与三维物体检测。
他们通过将平面扫描体编码为三维几何体从而实现了2.5维感知器功能;这种设计使得二维图像与三维空间之间的表示得以有效融合。
讨论表明,在低级特征的基础上引入高级特征能够通过先验知识来指导运动分割。此外,在地图构建中将物体作为基本要素能够为相机的姿态估计提供长程几何关系和尺度信息[14]。同样地,在地图构建过程中采用物体作为基本要素不仅能够实现结构化管理还能显著提升表达力。基于此,在地图构建中使用物体周围3D空间中的盒子作为基本单元不仅能够减少参数量还能简化管理过程。值得注意的是Gomez等人 [97]提出了一种基于物体的姿态图的方法用于动态环境下的实时更新与管理这一方法能够在一定程度上提高系统的实时性与稳定性。其中每个物体地标被参数化为一个具有语义标签并能表示其移动可能性的概率分布型三维盒子当多个映射会话完成时各个独立的地图结果会被整合生成了一个更加鲁棒的地图这一过程相较于Bescos等人在利用高级特征作为SLAM语义先验的研究具有更为持久的应用价值
7 SLAMMOT
7.1 Using high-level features in point-based SLAM
与直接将聚类算法作用于低级特征相比,在处理高级特征求取地图点聚类方面更具优势。这种高级特性不仅有助于对具有不同动态特性的独立对象进行地图点聚类,并且还能够显著提升在单次观测中检测动态对象的能力[100]。对于刚体物体而言,具有相同语义标签的所有特征始终具备一致的运动标签[47]。根据图4a所示,在图示场景中边界框不仅包含了物体本身还涵盖了背景区域。值得注意的是,在两个边界框覆盖区域重叠的情况下会出现模糊情况(如图4b所示)。为了准确识别位于物体表面的真实特征点,必须依赖几何信息(例如轨迹或深度信息)来进行精确匹配[47]。相比之下,在实际应用中基于语义掩模的方法通常更为简便易行:一旦某一点落入语义掩模所定义的区域内,则可以直接归类到对应的物体内;而如果该采样点位于边界的边缘区域,则可能会影响后续轨迹估计和结构重建过程[47]

讨论:相较于传统的多动态分割技术(即使用低级特征的方法),基于语义的理解方式更加直观易懂,并且能够在某些高级应用场景中得到广泛应用[44]。然而,在大多数实际环境中这种方法仍然存在明显的局限性:由于现实中很多物体缺乏明确的标注信息[44];而且当一个物体同时拥有多个运动标签时,则会导致对非刚性物体的处理变得更加复杂。相比之下,在无需利用任何语义信息的前提下完成特征聚类的任务,则可以通过子空间聚类方法以及模型拟合技术得以实现;而这些方法同样也能有效处理非刚性物体的问题
在SLAM领域中,[Yang]及其合作伙伴[Scherer] [14]提出了一种基于消失点和平面模型来实现单眼相机对地面物体的三维重建的方法。该方法通过提取低层特征建立数据关联模型,在解决尺度相对性问题的同时实现了对复杂环境中的目标跟踪。然而,在计算过程中他们仅关注于每帧图像中物体相对于当前视角的位置与姿态估计,并未考虑这些位置与姿态在全局坐标系中的变化关系。因此无法通过运动轨迹推断物体的姿态变化特征。这种设计缺陷导致算法在面对快速移动或有遮挡的情况时表现出较好的局部精度但难以维持全局一致性效果
Qiu等人[52]研究了神经网络进行高级特征识别。随后,在基于区域的贝叶斯框架下完成二维到三维的物体会动构建。所述的方法能够有效捕捉并解析出不同时间点下物体在两种坐标系统中的动态变化关系,在"动态特征重构与三维物体制定"章节中进行了详细阐述。最终通过独立性分析算法实现了不同视角下的三维模型尺寸一致性
现有关联数据与姿态估计方法[14, 55, 101]在处理包含多个移动物体实例的复杂环境中存在局限性。物体SLAM与MOT的结合被视为一个充满挑战的研究方向,并亟需进一步探索。
8 Conclusions
对于鲁棒性强的SLAM系统而言,在提取并融合视觉信息时表现出色。其中,在鲁棒性较高的场景中(如视频流处理),通过结合语义边界框或像素级别的二值掩膜等高级视觉特征(Semantic Features),能够显著提升基于低分辨率图像(Low-Resolution Images)处理的能力,并为后续的关键帧筛选与三维重建提供可靠的语义支持。相比之下,在纯粹依赖低分辨率图像进行关键点匹配与初步定位的过程中,则主要依赖于基础视觉特性的提取与分析。在三维重建与环境地图构建方面,在实际应用中采用参数化模型来描述高精度地标(High-Precision Landmarks)能够有效降低对地图数据的需求量(Data Demands)。除此之外,在动态环境中利用语义信息还能提升定位精度(Precision of Localization)。值得注意的是,在静态环境中仅依赖于高阶视觉特性的SLAM系统其定位精度相较于基于基础特性的系统明显逊色[93];不过通过综合运用不同层次的信息能够显著提升整体性能[47]
在SLAMMOT框架中进行动态数据关联是一项关键任务。然而,在动态场景中进行数据关联的传统方法依赖于基于特征匹配的技术,并不能有效应对快速移动物体带来的挑战。传统的引导匹配算法(如[21]所提出的)基于相机位姿和3D点位置信息来进行数据关联,在动态场景中效果不佳。现有的许多解决方案试图通过光流场来解决这一问题。然而这种光流算法对光照变化较为敏感这限制了其在复杂环境中的应用效果。为了提高鲁棒性研究者们开始探索基于学习的方法以提取更具判别的特征并完成更为精确的数据关联操作。此外适当的概率模型设计已成为实现鲁棒跟踪和建模的重要手段[47, 55]。对于仅依赖低级特征的方法而言需要先对图像进行多运动分割处理以实现特征注册这一过程通常会显著增加计算开销而对象SLAM通过引入语义理解技术则能有效规避这一限制性步骤。在目标跟踪领域中引入语义理解的方法为这一问题提供了新的解决方案
虽然基于高级特性和地标的信息实现的SLAM技术其本质与人类认知方式相似但是低级特实在精确姿势识别中发挥着不可或缺的作用鉴于此为了提高机器人应用中的姿态估计精度最优的方式可能是综合运用这两种信息源
