Advertisement

论文笔记_SLAM_Review_Visual simultaneous localization and mapping: a survey

阅读量:

目录

1 论文简介

2 现状

3 问题

4 不同传感器比较

4.1 exteroceptive sensors

4.2 Proprioceptive sensors

4.3 多传感器信息融合

5 Visual SLAM 现存重要问题

6 Visual SLAM problem 的解决方案

6.1 基于概率滤波器的经典方式

6.2 增量式的SfM

6.3 受生物学启发的技术

7 Salient feature selection (显著特征选择)

7.1 Detectors (特征检测器)

7.2 Descriptors (特征描述符)

8 图像匹配与数据关联问题

8.1 image matching

8.2 data association

8.3 short baseline matching

8.4 Long baseline matching

8.5 Data association in visual SLAM(或典型问题)

a. 环路闭合检测 (Loop closure detection)

b. 绑架机器人(Kidnapped robot)

c. 多会话和协作建图(Multi-session and cooperative mapping)

9 地图的表达(Representation of the observed world)

9.1 metric maps (度量地图)

9.2 topological maps (拓扑地图)

9.3 一些经典 Visual SLAM Systems 关键特点的对比

10 测试数据库 Datasets to test visual SLAM systems

11. 一些代表性论文


1 论文简介

Date: November 13, 2012; Journal: The Artificial Intelligence Journal (Second District); Authors: Three authors include Jorge Fuentes-Pacheco, José Ruiz-Ascencio, and Juan Manuel Rendón-Mancha.

2 现状

最新研究进展

简化的静态地图被认为依赖于距离传感器(如激光雷达或声纳技术)进行SLAM被认为是可行的

活跃研究区域

  • 主要依靠视觉传感器作为单一外部传感器,在动态变化且多场景复杂环境中执行SLAM任务;
  • RGB-D SLAM 现阶段仍属于较为新兴的研究领域;
  • 相机的offline校正是一种较为普遍的方法(其缺点在于相机内参数可能因环境因素如温度和湿度的变化而产生微小的变化)。

3 问题

使用的计算机视觉技术中,仍有待改进的点:

  • 如显著特征的检测、描述和匹配、图像识别和检索等。

Visual SLAM 目前要解决的问题

  • 当处于外部环境中;
  • 在动态环境下;
  • 面临显著特征过多或过少的情况中;
  • 当面对大规模环境的时候;
  • 当相机运动呈现不稳定性的时候;
  • 传感器出现部分或全部阻塞的情况中。

4 不同传感器比较

4.1 exteroceptive sensors

Laser sensors and sonar 的优缺点

  • 优点:*
  • 精准地获取环境结构的详细信息。
  • 缺点:*
  • 在高度拥挤的环境中不可用;
  • 不具备对象识别能力;
  • 成本高昂、笨重且体积较大,在航空机器人及类人机器人领域应用受限。

GPS sensor缺点

  • 在狭窄街道,水下,其他星球,偶尔在室内不能很好的工作。

仅采用camera

  • 优点:
    • 能够同时获取空间信息并重建环境外观。
    • 在目标检测与识别方面具有显著优势。
    • 具有低成本、轻量化和节能的特点。
  • 缺点:
    • 当相机分辨率不足时。
    • 在光照条件变化的情况下。
    • 当表面缺乏纹理特征时。
    • 快速运动会导致图像模糊。
  • Monocular SLAM 的优缺点:
    • 优点:
      • 能够实现单个摄像头比多摄像头系统更容易获取所需信息。
      • 在硬件配置和计算资源方面表现出高效率性(简单、灵活且经济)。
    • 缺点:
      • 不足以仅凭单一图像获得足够的深度信息以确定地标位置。
      • landmark initialization problem 的解决方案包括:
        • delayed (Lemaire etal. 2007)
        • undelayed (Vidal et al. 2007)

4.2 Proprioceptive sensors

  • 例如:编码器、加速度计及陀螺仪
  • 能够获取:速度、位置变化及加速度。
    • 优点:
      • 可以通过 deduced-reckoning 航迹推算(亦称 deduced-reckoning),实现对实体移动增量的评估。
    • 缺点:
      • 存含固有噪声(inherent noise),因误差积累导致;
      • 无法始终满足精确评估。

4.3 多传感器信息融合

  • 会增加费用,重量,设备功率。

5 Visual SLAM 现存重要问题

  • 累积误差导致 robot 位置评估结果前后存在不一致性(inconsistent estimates),地图重建结果也呈现不一致性(incongruous maps)
    • 原因分析:
        1. 对相机运动光滑性的基本假设与场景显著特征的存在;
        • 当前解决方案:
          • a. 引入关键帧概念(see “Appendix I”) (Mouragnon et al. 2006; Klein and Murray 2008)
          • b. 在模糊图像序列中实施目标跟踪 (Pretto et al. (2007) and Mei and Reid (2008))
        1. 基于仅由固定且刚性构成的场景的基本假定;
        • 当前解决方案:
          • a. Wang et al. (2007); Wangsiripitak and Murray (2009); Migliore et al. (2009),以及 Lin and Wang(2010)
        1. 因为重复元素的存在(如相同纹理、人工构造以及交通信号灯),导致大范围SLAM问题难度加大。

joidea??? 当移动轨迹不平滑时,在此基础上基于给定的速度值v配置相机帧率参数为f,并构建动态场景的时间序列建模以实现对运动物体的空间映射关系

joidea??? 当移动轨迹不平滑时,在此基础上基于给定的速度值v配置相机帧率参数为f,并构建动态场景的时间序列建模以实现对运动物体的空间映射关系

6 Visual SLAM problem 的解决方案

6.1 基于概率滤波器的经典方式

  • 概率滤波器中维护了一个包含机器人姿态 和环境中地标位置 的概率表达。
  • 方法有:
    • Extended Kalman Filter (EKF) * 缺点:
    • 对 bad associations 特别敏感,一个不正确的测量,会导致整个滤波器的发散;
    • EKF的复杂度是地图上landmarks 数量的二次方倍,很难维护 large maps。
      • 改进:
    • Atlas Framework (Bosse et al. 2003)
    • Compressed Extended Kalman Filter (CEKF) (Guivant 2002)
    • Sparse Extended Information Filter (SEIF) (Thrun et al. 2002)
    • Divide and Conquer Paz et al. (2008)
    • Conditionally Independent Submaps (CI-Submaps) ;Piniés and Tardós (2008)
    • FastSLAM Montemerlo et al. (2002,2003) <= Particle Filter * 描述:维护了一个实体位姿分布,作为一组 Rao-Blackwellized 粒子,每个粒子代表实体的轨迹,并使用EKF维护自己的map。
    • MonoSLAM :实时单目概率系统,只能在密闭的室内工作(因为它采用EKF来估计数据)。
      • 改进:Clemente et al. (2007),采用分层映射技术,基于GCBB(Geometric Constraints Branch and Bound )的一种鲁棒的数据关联算法,执行大的闭合环路(约250米)。
      • 单目视觉SLAM的一个问题:landmarks 的初始化(因为landmarks的深度无法从一次观测中计算出来)
        • 解决方案:
          • Davison (2003):采用延迟初始化技术;
          • Montiel (2006):提出了一种称为反深度参数化的技术,在一个EKF-SLAM系统中,从检测到它们的第一时刻,开始执行未延迟的landmark initialization。
    • Maximum Likelihood (ML,最大似然估计)
    • Expectancy Maximization (EM,期望最大化)
  • 方法评价:
    • 这些方法在small scale上是成功的,但在 large environments 中导航,或向 loop closure 中添加信息的能力有限。

6.2 增量式的SfM

  • 标准流程:
    • a. 提取图像显著特征;
    • b. 匹配图像特征;
    • c. 执行非线性优化(non-linear optimization):采用Bundle Adjustment (BA), 优化重投影误差(re-projection error)。
  • 发展:
    • visual odometry (VO) 的提出,Nistér et al. (2004)
    • Local Bundle Adjustment 的提出: Mouragnon et al. (2006, 2009), 基于VO;
      • 评价:视觉测程技术(VO) 允许在每一帧中处理数千个特性,而概率技术只能处理很少的特性。
    • Parallel Tracking and Mapping (PTaM):Klein and Murray (2007)
      • 它使用了一种基于关键帧的方法,并使用了两个并行处理线程。第一个执行线程执行大量特征的鲁棒跟踪任务,而另一个执行线程在BA技术的辅助下生成3D点地图。
    • 缺点:在环境中含有相似纹理 ,和移动对象 时,tracking会失败。
    • FrameSLAM and View-Based Maps (Konolige and Agrawal 2008; Konolige et al. 2009)
      • 这种方法的基础是,将地图表示为一个“骨架”,由帧之间的非线性约束图(而不是单独的3D特征)组成。
    • Strasdat et al. (2010b) 提出:
      • 为了提高单目SLAM系统的定位精度,建议增加特征量(SfM的基本属性)而不是帧数。
  • 评价:
    • 理想的SLAM系统,应该同时利用好SfM技术和概率滤波器的优点。

6.3 受生物学启发的技术

  • RatSLAM方法由Milford et al. (2004)提出,该研究基于啮齿类动物的海马结构模型,该结构负责动物的空间记忆功能,从而构建出定位与环境映射系统。
  • Collett (2010)探究了沙漠蚂蚁的行为模式,发现它们主要通过视觉标志而非化学信息素轨迹进行导航。

7 Salient feature selection (显著特征选择)

  • 应该具备涵盖points、regions以及边段的能力;
    • 根据Lemaire et al. (2007)所述的优秀特征应具备的属性:
      • 应该具有显著性和易于提取的特点。
      • 应该具备精确度(其测量结果可能非常精确)。
      • 不受旋转、平移、缩放以及光照变化等因素的影响。

7.1 Detectors (特征检测器)

遵循基于机器人实际工作环境的检测原则

7.2 Descriptors (特征描述符)

  • 最常用的是:基于直方图的SIFT描述器(Lowe, 2004)
    • PCA-SIFT:对SIFT算法的一种改进方法(Ke和 Sukthankar, 2004),该方法通过主成分分析技术减少SIFT特征的数量
    • GLOH(梯度位置-方向直方图):SIFT描述器的一种扩展形式(Moreels和 Perona, 2005;Mikolajcczyk和 Schmid, 2005)
    • SURF描述器:相比SIFT算法具有更高的稳定性(Gil等人, 2009)
    • SIFT算法的一些改进版本:
      • ASIFT:通过引入仿射不变性提高了算法的鲁棒性(Morel和 Yu, 2009)
      • BRIEF(二进制鲁棒独立元素特征):一种基于简单但旋转不变且抗噪声特性的快速二进制描述符(Calonder等人, 2010)
        • ORB:一种基于旋转不变和平移不变特性的快速二进制描述符,在鲁棒性和抗噪声性能上表现优异(Rublee等人, 2011)
      • PIRF:一种在位置不变性方面具有良好表现的鲁棒特征描述符(Kawewong等人, 2010)
      • GPU-SEIFT:通过在GPU上实现并行化计算提升了实时计算能力的SEIFT实现方法(Sinha等人, 2006)

8 图像匹配与数据关联问题

  • ( The image matching and data association problems)

8.1 image matching

  • 在第一个图像中遍历每个元素,在第二个图像中对应地遍历匹配的元素;
  • 将其划分为两大类:short baseline and long baseline;
  • 其中Baseline定义为照相机镜头中心轴线的位置。

8.2 data association

  • 用于将传感器的测量值与机器人地图中的元素结合起来;
    • 这一问题还包括了判断测量值是否为虚假信息以及确定其是否属于地图中未包含的内容。

8.3 short baseline matching

  • 图像在尺度或视角上的变化幅度较小;
    • patch(即矩形窗口)具有推荐大小为9×9或11×11像素点的特征,并通过从patch中采样的像素强度值进行表征;
    • 用于衡量两个patch之间相似程度的方法包括:
      • 归一化互相关算法(NCC);
      • 同时计算二维仿射变换(calculate homography)。
    • 短baseline系统的一个主要缺陷在于深度计算对噪声极为敏感。

8.4 Long baseline matching

  • 图像在尺度或视角上的变化较为显著,
    • 这是因为一个图像中的点可以映射到另一个图像的任意位置。
  • similarity measures (相似性度量)方法:
    • Euclidean distance, Manhattan distance, Chi-Square distance
    • epipolar constraint (极线约束) (Hartley and Zisserman 2003)
    • learning strategies (Grauman, 2010; Özuysal et al., 2010)
    • Correspondent graphs (Sanromá et al., 2010)
  • 使用鲁棒估计器(robust estimators),通过使用鲁棒估计器来处理错误的 correspondence情况:
    • RANSAC(Random Sample Consensus 随机样本一致性)
      • RANSAC的一个替代方案是active matching:
    • 一种基于贝叶斯理论的帧间通信技术;
    • 并结合Shannon Information Theory进行优化。
  • 另一种改进型抽样一致性算法(PROSAC):
    匹配算法(matching algorithms):
    • ROC曲线(由Fawcett于2006年提出)
    • precision(正确匹配的数量除以找到的所有correspondences总数)
    • recall(正确匹配的数量除以预期的所有correspondences总数)

8.5 Data association in visual SLAM(或典型问题)

a. 环路闭合检测 (Loop closure detection)

  • 检测方法分类(Williams et al. (2009)):
  • 分类依据:关联数据的来源(map space or image space)
    • map to map
    • image to image
    • image to map
  • 解决方案:
    • Ho and Newman (2007):使用相似矩阵,来编码捕获图像中,所有可能的对,之间的相似关系;
    • Eade and Drummond (2008):GraphSLAM 基于 a Bag of Visual Words (BoVW);
      • BoVW:其改进版本称之为 Vocabulary tree (Nistér and Stewenius 2006)
    • 描述:
      • BoVW在信息检索(Manning et al. 2008)和计算机视觉社区开发的基于内容的图像检索领域,取得了巨大的成功。
      • BoVW的经典模型,将图像描述为一组局部特征,称之为 visual words(视觉单词),
      • 这一整套词汇被称为 visual vocabulary(视觉词汇);许多BoVW方案通过对大量训练图像的描述符进行K-means聚类(但也可以使用其他方法)来生成离线词汇表 (off-line vocabulary)。
      • 优点:
    • 能快速找到相似的图像。
    • Angeli et al. (2008) :在Bayessian filtering方案中,使用incremental BoVW;
    • Cummins and Newman (2008) :a probabilistic framework;
    • Mei et al. (2010):提出基于co-visibility的a new topometric representation of the world。

b. 绑架机器人(Kidnapped robot)

  • 定义描述:
  • 机器人被放置于一个预先构建好的地图区域中,但其在到达该区域时的位姿信息缺失。
  • 或者当机器人因遮挡、传感器短暂故障或快速相机运动而导致误操作时。
  • 解决方案:
  • Chekhlov等人于2008年提出了一种能够容忍相机姿态不确定性的系统设计。
  • 该系统能够在连续不稳定运动或因遮挡导致的小幅跟踪误差中恢复稳定。
  • Williams等人于2007年开发了一个重 localization模块。
  • 该模块持续监测SLAM系统的运行状态,并实时监控系统运行中的异常情况。
  • 重 localization模块能够检测跟踪故障,在地图地标框架中定位关键点位置。
  • 一旦环境状况得到改善即可恢复正常跟踪过程。

c. 多会话和协作建图(Multi-session and cooperative mapping)

9 地图的表达(Representation of the observed world)

9.1 metric maps (度量地图)

  • 网格地图 occupied grid maps (Gutmann et al.2008)
  • 通过单元划分的方式将环境空间离散化表示自由和被占据的区域,并涵盖二维、二又五维及三维信息。
  • 基于地标的地图 landmark-based maps (Klein and Murray 2007; ...)
  • 描述:记录环境中特定关键点的三维坐标。
  • 缺点:缺乏障碍物检测和路径规划的能力。

9.2 topological maps (拓扑地图)

  • 描述:(Botterill et al. 2010),将环境表示为由 连接的,重要位置的列表(类似于图)
  • 优点:
    • 简化了地图大范围扩展的问题;
    • 不过,为了减少局部误差,有必要对map进行全局优化;
    • 试验展示,使用IMU和立体视觉,可以度量轨迹达10km (Konolige et al. (2009))。
  • 缺点:
    • 缺乏度量信息,用地图来为机器人guide是不可能的;
      • 改进:Konolige et al. (2011)提出了在单一一致模型中,混合metric和topological信息的策略。
    • 基于graph的环境表达;
      • 目前困难:
    • 当检测到错误的位置估计时,编辑graph的能力有待提高;
    • 生成非常大维度的全局地图的能力。

9.3 一些经典 Visual SLAM Systems 关键特点对比

10 测试数据库 Datasets to test visual SLAM systems

  • (a) The New College and CityCentre Repository, comprising datasets from outdoor scenes, was utilized in Cummins' research in 2008, as documented in a subsequent study involving Cummins & Newman in the same year;
  • (b) The New College Vision & Laser Dataset from the outdoor scene, characterized by its high-resolution imagery, was recorded in a study conducted in 2013;
  • (c) The Outdoor Scene Repository of Bovisa, which includes both indoor and outdoor data, was compiled for the Rawseeds project between 3D scanning technologies emerged;
  • (d) The Outdoor Scene Database for Cheddar Gorge, featuring both static indoor environments and dynamic outdoor scenes, was captured using advanced RGB-D sensors developed between various research institutions;

11. 一些代表性论文

  • SLAM技术旨在将问题划分为定位、制图和路径规划三个主要领域(Cyrill, 2009)。
  • Jones及Soatto(2011)开发了一种称为视觉-惯性SLAM的技术以提高视觉SLAM的鲁棒性。
  • 相机内外参数标定:Hartley与Zisserman(2003)。
  • 基于三角测量原理的研究表明,在计算机视觉中存在多种方法用于实现三维重建任务的基础研究工作是必要的前提条件。(Hartley and Sturm, 1997)。
  • 双目立体(Stereo Vision) SLAM系统代表性工作包括Konolige与Agrawal(2)(year), Konolige等人(year)以及Mei等人(年)的研究成果。
  • 单目(Single View) SLAM技术由Davison(年)首次提出并得到了广泛研究。

// 备注:red-interesting, green-idea, croci-TO-DO

全部评论 (0)

还没有任何评论哟~