论文笔记_SLAM_Visual SLAM for Driverless Cars: A Brief Survey
目录
1 论文基本信息
2 看本论文目的
3 问题场景
4 解决方案及创新点
5 主要内容
5.1 自动驾驶主要任务
5.1.1 任务分类
5.2 地图的表示形式
6 通用的 VSLAM-DC 方法的不同阶段
6.1 整体结构
6.2 visual cues acquisition (视觉线索获取)
6.2.1目标
6.2.2 相机个数选择
6.2.3 特征选择
6.2.4 现存挑战
6.3 current parameters initialization (当前参数初始化)
6.3.1 目标
6.3.2 常用方法
6.4 information management (信息管理)
6.4.1 目标
6.4.2 约束图模型
6.4.3 评价
6.5 loop-closure detection (闭环检测)
6.5.1 目标
6.5.2 原理描述
6.5.3 现存挑战
6.6 optimization (优化)
7 VSLAM中的可用资源
8 经典论文
1 论文基本信息
来源:IEEE智能车辆会议论文集Proceedings of the 2012 IEEE Intelligent Vehicles Symposium Workshops
年份:2012年
作者:德国·罗斯(German Ros),安吉尔·达席尔瓦(Angel D. Sappa),多纳德·庞萨(Daniel Ponsa)和安东尼奥·马丁内斯·洛佩兹(Antonio M. Lopez)
所属机构:
德国·罗斯和安东尼奥·马丁内斯·洛佩兹均属于西班牙排名第一的计算机视觉研究中心
安吉尔·达席尔瓦和多纳德·庞萨均来自巴塞罗那自治大学UAB
被引用次数(Google Scholar):42次
2 看本论文目的
- 了解vSLAM在无人驾驶上,能发挥什么样的作用。
3 问题场景
视觉SLAM方法综述及其应用前景
4 解决方案及创新点
- 设计了一种基于视觉SLAM技术在无人驾驶场景中的应用方案。
- 该方案首先分为五个关键模块:
- (i) 视觉特征获取,
- (ii) 初始参数配置,
- (iii) 信息管理,
- (iv) 循环闭合检测,
- (v) 最优化。
- 具体实现细节可参考下文图示部分。
5 主要内容
5.1 自动驾驶主要任务
- 环境模型的建立,首先应该考虑的是,主要任务是干什么用的。
5.1.1 任务分类
- 整体规划(Global planning):
- 目标确定、路径规划(最优路线、安全通道等)。
- 方向控制(Local motion planning):
- 方向调整、速度调节、运动可行性分析。
- 地形特征识别(Obstacle avoidance):
- 地形分析、路网解析、目标定位。
- 交通标志与信号的实时感知与判断系统设计(Traffic laws enforcement):
- 感知模块开发及优化设计。
5.2 地图的表示形式
- topological maps:
- 用于确定与已知区域相关联的实时车辆位置的地图形式。
- metric maps:
- 解决局部运动规划、避障及交通执法问题的地图表示方法。
- 总结:
- 基于局部度量与全局拓扑模型的混合模型[5], [6], [9]。
- JOCOMMENT: SLAM在无人驾驶中的应用方式可能对未来HAD地图的设计与发展产生影响。
- SLAM系统的主要输出应包含精确的局部信息。
- 目的是为了提供有效的操控执行和障碍避开的同时,
- 计算开销较大。
- 解决这一缺陷的方法是采用紧凑表示方法(compact representations)。
- 例如[12]提出了一种利用长方形条状柱子来近似垂直表面的技术,
- 以便区分自由空间与物体。
- 现在的一个挑战在于:
- 如何构建具有长期可视化的地图表示方法,
- 其中需考虑以下两个方面:
- 车辆之间共享地图;
- 长期内重用先前构建的地图。
6 通用的 VSLAM-DC 方法的不同阶段
6.1 整体结构

6.2 visual cues acquisition (视觉线索获取)
6.2.1目标
- 评估车辆姿态之间的关系
- 创建最终的地图
6.2.2 相机个数选择
单个相机的计算量较低。
多个相机:
* 缺点:处理时间有所上升
* 优点:成本相对较低;可能导致算法变得更加复杂[6]。
多个相机的选择:
* 便宜选择:monocular cameras;
* 高价选择:stereo cameras and arrays of cameras.
贵的选择通常具备更强的功能性。
能够直接测量深度。
6.2.3 特征选择
- 基于其属性和功能进行划分,
- 角落(Corners)
- 边缘(Edges)
- 摸棱两可的区域(Blobs)
- 更高级别的结构(Higher-level structures, 如平面、曲线等)
- 各类不同的特征间存在显著差异,在复杂程度上也有所区别:复杂程度较高的结构往往需要投入更多的计算资源。
- 角落(Corner)
- 被视为功能最为强大的特性,在多个实际案例中得到了成功运用[16][17][6][5]。
*. 多种不同的方法采用了多种不同的角落检测器与描述器组合:包括Fast-BRIEF[18]、Fast-SIFT[6]、Fast-SURF[19]以及纯SIFT[20]等方案。
- 被视为功能最为强大的特性,在多个实际案例中得到了成功运用[16][17][6][5]。
- 基于边缘和表面的方法也有人进行了深入研究:这类方法虽然在某些方面表现良好但往往面临额外计算开销较大的问题。
6.2.4 现存挑战
- 随着VSLAM系统中所包含信息的数量与质量的提升, 其性能将得到改善;
- 由于计算能力存在瓶颈, 我们所能处理的信息数量是有限的;
- 该系统的关联信息水平并非完美无缺, 在一致性方法的基础上进行优化[5].
6.3 current parameters initialization (当前参数初始化)
6.3.1 目标
- 生成当前状态的初始估计值(pose 和 map)。
- pose:通常表示车辆的spatial positioning和orientation。
- 在3D landmark初始化方面具有重要意义。
6.3.2 常用方法
- 结构从运动(SfM)
- 通过多帧序列追踪一组稀疏特征点,并利用这些点计算相机运动参数; * 运用统计方法:如RANSAC算法及后验优化技术。 * 其显著特点在于应用范围广泛。**
- 光流法
- 在图像场估计领域有广泛应用,但也可以借助额外计算手段初始化相机位姿;
- JOEXTEND: https://www.bilibili.com/video/av36620728?p=16
- 光流估计:
- 基于亮度恒定假设(BCM),估算单幅图像中像素点对应另一幅图像中的位置;
- 同时适用于静止背景及动态背景。
- 矩阵求逆运算耗时较长。
- 当矩阵存在特征值过小或接近零(导致行列式趋近于零)时,矩阵接近不可逆状态;即使能计算其逆矩阵,结果也可能不可靠。
- 通过全局能量最小化模型构建稠密匹配结果。
- 方法优势:精度略高于其他方法
- 参考文献: [19] H. Strasdat, J. M. M. Montiel, and A. Davison, “Scale drift-aware large scale monocular slam”, Proc. Robot.: Science and Sys., Zaragoza, Spain, Jun 2010;该文被引次数:481次
- 新方法的出现使得光流法与SfM方法界限愈发模糊[26]。
- 我们认为,SfM与光流方法在机器人及计算机视觉领域已达到较高成熟度水平,且具备良好的理解性。
6.4 information management (信息管理)
6.4.1 目标
- 统一所有信息在一个一致的框架内。
- 多种不同的策略基于它们的一致性和简单性而被提出,并且都利用约束图(a graph of constraints)来表示SLAM中的概念。
6.4.2 约束图模型
- 位置和标记(地图中的基本元素)被表示为节点。
- 它们之间的可观察性通过关联起来实现描述,并举例说明:从给定的位置对特定标记的观测能力。

- 两种不同的视角 * 贝叶斯网络:Bayesian networks(BN)
- [27] S. Thrun, W. Burgard, and D. Fox, Probabilistic Robotics (Intelligent Robotics and Autonomous Agents). The MIT Press, 2005 被引用次数:9844
- 代数约束图:graphs of algebraic constraints
- 更为通用
- [28] B. Triggs, P. F. McLauchlan, R. I. Hartley, and A. W. Fitzgibbon, “Bundle adjustment - a modern synthesis ,” in Proc. Int. Conf. Comput. Vision, Workshops. London, UK: Springer-Verlag, 2000 被引用次数:4233
- 标准估计技术(基于它们如何利用图中的信息来定义)
- 过滤方法:利用过去状态的信息来约束当前状态;
- 全局估计(GE)
- 基于利用图中所有可用的信息来估计整个问题(从t0到tn的完整轨迹和地图)
- 总结:
- 优点:产生最佳结果;
- 缺点:计算复杂性很高(与landmarks的数量呈三次方关系、与pose数目呈二次方关系)
- 实际应用中可能不可行
- 解决方案:
- 子图预处理共轭梯度法:“Subgraphpreconditioned conjugate gradients for large scale slam”,Proc.IEEE Int.Conf.Intell.Robots Sys., Oct2010
- QR分解:“isam: Incremental smoothing and mapping”,IEEE Trans.Robot., vol24 Dec2008
- 滑动窗口滤波器(SWF)
- 处于过滤和全局估计技术之间的一种折中方案;
- 设置一个滑动窗口节点子集(通常靠近当前位姿),只使用部分可用信息以降低计算复杂度;
- 特点:有利于提升实时性能但会牺牲部分系统精度。
6.4.3 评价
滑动窗口滤波器和位图策略(pose-graph strategies)被选作解决这些问题的有效方案之一。
考虑到这些技术利用全部原始数据而非边缘化处理能够带来更好的效果。
尽管如此但这一趋势带来了过高的计算负担使得实际的城市问题难以得到有效解决。
6.5 loop-closure detection (闭环检测)
6.5.1 目标
- 将以前看到的区域或特性,与当前的区域或特性,相关联的操作。
6.5.2 原理描述
- 首先设置一个新的位姿 pose。
- 将其加入图中的一个位置。
- 从该位置可见的位置标物 landmark 被加入图中,并与其相关的 pose 相关联。
- 如果我们的环闭合方法发现了这些标志与其他已识别的一组标志(它们都与同一个 pose 点相关),它能得出结论:这两个点代表同一个 pose 坐标必须合并成同一个点。
- 如果没有这样的匹配关系,则无需合并,在图中保存新增点及其相关的标物。
- 当需要将两个独立点合并时,则需校准之前对某些姿态和特征的估计(drift correction)。如果在一个长链路(例如多个连续关联的pose)中处理这些问题,则大多数中间结都需要重新校准坐标。
6.5.3 现存挑战
- 在局部层次上运行的闭环方法具有足够的鲁棒性,在完成相应任务方面表现突出;
- 全局层面的方法则不然;
- 面对环境条件的变化挑战时,必须采取措施以提升其重复性能力;
- 如处理极端光照条件与明暗突变。
6.6 optimization (优化)
- 延伸卡尔曼滤波器(EKF)*
在滤波体系中的核心应用;
是传统卡尔曼滤波器(KF)的一种优化版本;
通过线性化手段实现对非线性系统的建模尝试。 - 束装调整(BA)*
其特点包括:
在整体优化框架内进行问题求解;
基于最小二乘优化方案并利用稀疏结构以提升效率;
广泛应用于 photogrammetry领域;
针对涉及成千上万个未知数的复杂系统提供解决方案。
目前状况显示:
在实时VSLAM系统中采用BA算法处理问题的一部分[25]。
7 VSLAM中的可用资源
- 作者管理的一个资源库(软件平台及数据集):
- http://cvc.uab.es/adas/projects/slam
- 一个典型的案例:

8 经典论文
- VSLAM在无人驾驶上的应用:
- [5] G. Sibley, C. Mei, I. Reid, and P. Newman, “Vast-scale outdoor navigation using adaptive relative bundle adjustment ,” Int. J. Robot. Res., vol. 29, Jul 2010.
- [6] C. Mei, G. Sibley, M. Cummins, P. Newman, and I. Reid, “Rslam: A system for large-scale mapping in constant-time using stereo ,” Int. J.Comput. Vision, vol. 94, Sep 2011.
- 使用 stereo camera ,加速(speed-up)特征提取。
- [7] B. Kitt, A. Geiger, and H. Lategahn, “Visual odometry based on stereo image sequences with ransac-based outlier rejection scheme ,” in Proc. IEEE Intell. Veh. Symp., Jun 2010.
- 利用了过滤和RANSAC-based的离群值拒绝方案,来产生可靠的城市定位和地图。
- SFM经典论文:
- E. Mouragnon, M. Lhuillier, D. M., F. Dekeyser, and P. Sayd, “Generic and real-time structure from motion using local bundle adjustment ,” Image and Vision Comput., vol. 27, Jul 2009.
