视觉SLAM笔记(2) 相机
视觉SLAM中对相机的分类主要包括单目、双目和深度相机等大类。从工作原理来看,单目(Monocular)仅使用一个摄像头进行SLAM(Monocular SLAM),其数据为二维图像信息并缺乏深度数据;双目(Stereo)通过左右两个摄像头获取视差信息来计算物体距离;而深度相机(如RGB-D)通过物理测量手段直接获取物体距离信息,并具有更高的精度和较大的测量范围但受限于基线长度和环境因素。此外,在实际应用中还存在其他类型如全景 camera 和事件 camera 等新兴技术,在视觉 SLAM 中尚未成为主流应用。
视觉SLAM笔记(2) 相机
- 1. 相机分类
- 2. 单目相机
- 3. 双目相机
- 4. 深度相机
1. 相机分类
在 SLAM 中,特别关注未知环境这一特性。从理论上讲,“小萝卜”的使用环境无法加以严格限制,在这种情况下,默认依赖GPS等外部传感器正常工作的假设有待商榷。因而,在实际应用中采用便携式的传感器来实现SLAM技术问题成为了研究者们的主要关注点。
在讨论视觉 SLAM 时,则着重探讨如何通过相机实现定位与建模这一技术。在视觉 SLAM 中使用的相机与常见的单反摄像头不同,在于其通常较为简洁,并未配备昂贵镜头。它会持续以固定帧率捕捉周围环境的变化情况并生成连续的画面序列。相比之下普通的摄像头能够每秒拍摄30张图片而高速摄像机则具有更高的帧率
按照相机的工作方式,把相机分为三个大类:
- 单目(Monocular)
- 双目(Stereo)
- 深度相机(RGB-D)

从直观上看, 单目相机配备了一台摄像头, 而双目配置则配备两台. 在RGB-D原理方面, 该技术相对复杂, 除了能获取彩色图像外, 还能测定每个像素与相机之间的距离. 此外, 它通常配备多组摄像头, 并非传统相机的工作模式.
除此之外,在SLAM领域中还包括其他类型的相机类别如全景相机和Event相机等新兴类型。
尽管偶尔能够看到它们在SLAM中的应用实例,
但目前尚未被广泛采用,
尚未成为主流技术
2. 单目相机
只使用一个摄像头进行 SLAM 的做法称为单目 SLAM(Monocular SLAM )
这种传感器结构非常简单、价格低廉。因此单目 SLAM 广受欢迎。
单目相机的数据:照片
成像结果是基于真实世界中的实体在相机镜头上形成的投影图像。该图像采用二维平面坐标系进行表示和存储,并以此形式记录下三维空间中的物体位置关系。值得注意的是这种降维处理导致我们无法直接感知相机与景物之间的实际距离信息。
在单目相机系统中,难以利用单一图像推导物体与相机之间的距离关系(远近)。然而,在随后的学习过程中,这一距离将被视为SLAM中的关键数据来源。
由于人类成千上万次观察图片的经历,在脑海中形成了对场景间的空间感知能力(即所谓的距离感),对于绝大多数场景都能迅速建立清晰的空间认知。这种现象能够说明:事物在视觉系统中的呈现方式与其实际位置之间存在固有的关联性。比如,在一张图片中我们能够识别出物体本身的大致尺寸,并根据这些信息推断出其所在的位置关系。比如,在一张图片中我们能够识别出物体本身的大致尺寸,并根据这些信息推断出其所在的位置关系;再比如,在一个静止的画面中较近的物体不会被较远处遮蔽的事物所遮蔽;再如,在太阳光照射下许多实体都会在地面上留下自己的影子这一现象可以用来辅助判断其实际位置与距离关系;此外,在不同光照条件下许多事物都会表现出独特的阴影特征这一现象同样有助于理解其在空间中的排列位置及其相互关系等信息
这些信息能够辅助判断物体的远近关系,并非总是如此。当感知到的距离感失去效力时,在这种情况下就无法准确判定物体的远近距离及其实际尺寸。

在这一幅图像中,并非单纯地依赖这张图像便能清楚地区分出那些小人究竟是真实的人还是小型模型。只有当转动视角以观察场景的整体三维结构时。换句话说,在单一视图下,并不能可靠地判定一个物体的实际尺寸是多少。按照透视投影的原理,在实际距离较大的情况下(即近处物体),它们可能会在二维平面上呈现出与远处较接近尺寸的效果相似的状态。
单目相机仅能反映三维空间的二维投影。
因此若希望恢复三维结构,则需要调整相机的位置。
同样,在单目 SLAM 中遵循这一原理。
只有当相机发生位移后才能估算出其运动参数(运动参数)。
在对场景中的物体进行距离与尺寸测量的同时,我们可将其定义为场景的几何结构(结构)。
基于生活经验可知:当相机向右移时,在图像中事物会向左运动;这也告诉我们运动的存在带来了信息;我们还知道靠近的物体会以更快的速度发生移动;而较远的物体会以较慢的速度发生移动;因此,在相机发生位移时;这些物体现在在图像中的运动情况会形成一定的差异;通过视差现象我们能够定量分析物距差异
然而,在知道了物体之间的远近关系之后,这些数值仍然是相对尺度而非绝对值
想象在观看电影时虽然能够识别出场景中哪些物体比另一些更大
但我们依然无法确定这些物体的实际尺寸(Scale)
直观而言如果将相机的运动轨迹和平移距离按比例放大两倍
那么单目镜头所呈现的画面效果并不会改变
同样地这个比例因子可以任意缩放而不会影响成像效果
这表明通过单目 SLAM 方法估计出的轨迹和地图将与真实世界中的轨迹、地图存在一个比例因子
也就是说我们常说的尺度(Scale)也是一个不确定的因素
由于仅凭图像信息无法确定这个实际的比例因子
因此单目 SLAM 被视为具有尺度不确定性的问题
只有通过平移运算才能计算出深度参数随后才能消除这种不确定性
但因为无法确定实际的比例因子所以人们又不得不引入双目或深度传感器来解决这一难题
3. 双目相机
双目相机(Stereo )的主要目标是采用特定方法对物体进行距离测量,并以弥补单一视点难以确定物体距离的问题。

双目相机的信息包括左眼图像和右眼图像。基于左右视图的差异特征能够推断出场景中物体与相机之间的距离关系。
如果一旦掌握了距离信息,则可以通过单一图像重建场景的三维结构,并且成功地消除了对尺度的不确定感。
双目相机系统由两个单目相机构成;尽管如此,这两个相机之间的距离(即基线长度(Baseline))是一个已知参数。
利用这个基准线来推算每个像素的空间位置——这与其说人眼具有这样的特性不如说两者极其类似。
人类正是利用视差现象来判别物体远近,在计算机上则遵循相同的原理。
如果对双目相机进行延伸,则可搭建多目相机系统;尽管如此,并没有实质性的改进。
在计算机领域中,则需要进行繁琐的计算过程才能(不太可靠地)估算每个像素点的深度。
相比之下,则显得异常笨拙。
双目相机测得的深度范围与其间的基线长度呈正比关系
当基线间距增大时,能够实现的距离也随之扩大
因此,在实际应用中,为了提高双目相机的测量精度和覆盖范围,无人车往往配备具有较大尺寸的双目配置
双目相机的距离估计是通过左右眼的图像获取,并不依赖其他传感设备。因此该系统既可在室内使用,也可在室外应用。
双目或多目相机的缺点:
- 配置和标定过程均较为繁琐
- 其深度量程及精度受限于双目装置的间距和成像分辨率
- 视差计算过程对算力要求较高
为了实现实时输出整张图像的距离信息,必须依赖GPU和FPGA等硬件设备进行加速。
因此在现有的条件下,计算量 是双目的主要问题之一
4. 深度相机
虽然各自用于测定距离,但双目相机与深度相机在工作原理上存在显著差异
深度相机(又称 RGB-D 相机 )是 近十年来开始广泛应用的一种先进成像设备。该设备能够通过图像和距离信息重建物体的三维形状和结构进而实现复杂的环境感知功能。

该系统采用 红外成像技术 或 Time-of-Flight(ToF)检测设备进行测距测量,
类似于基于激光的测距仪一样,
系统能够通过发送光线并捕获返回信号来计算物体与相机之间的距离
该部分采用了不同于双目系统的传统方法,并非依赖于软件算法进行计算分析;而是采用物理测量技术进行数据采集与处理。相较于传统双目系统而言,在减少计算负担的同时能够显著降低能耗水平。
目前主流的 RGB-D 摄像头主要采用 Kinect/V2、Xtion Live Pro 和 Realsense 等不同技术平台进行设计与应用。然而,在实际应用中这类设备仍面临诸多局限性:其测量的有效距离范围有限(仅可达 3 米左右),图像采集系统的信噪比较低(影响精度),视野受限(仅适用于特定场景)且容易受到环境光污染的影响(影响检测效果)。此外,在复杂材质表面成像方面也存在明显不足:无法有效捕捉透过材料的高动态范围视频信号(限制了应用场景)。
在 SLAM 方面,主要用于室内 SLAM,室外则较难应用
参考:
相关推荐:
谢谢!
