Depth Estimation Summary 深度估计
求取场景所对应的深度值
通常采用的方式是通过kinect的红外传感器获取深度数据,并引用了NYU Depth V2算法(NYU Depth V2);同时也可以借助激光雷达技术(如KITTI数据集提供的解决方案)实现同样的目标。尽管kinect设备价格较为亲民(如KITTI),但其能够捕获的有效距离范围有限(通常在4米内),并且测量精度在超过该范围后会显著降低。相比之下,激光雷达设备的成本相对较高。
双摄像头可以测距和建立立体环境
首先区分三维与二维的概念。大家普遍能够理解的是,在平面图形中通常基于x轴和y轴构建坐标系(例如一张平面素描作品),这种情况下物体的整体呈现"平面"状态。而在空间中则增加了第三个维度z轴,在此框架下点的位置可以通过其到观察者的距离来表示,并以此表示为"深度(Depth)"
左右图像的“差异”到“深度”的转换,光学三角关系图 :

物体上的点P₁₂在左右图像中分别对应点P₁和P₂。通过计算由这三点组成的三角形参数, 我们可以确定点P₁₂的空间位置. 在工程应用中进行双目视觉三维重建时,默认的目标即为解决上述三角形问题. 相机系统可被视为一个基本的透视模型:

空间点p通过相机成像后映射至图像平面(x, y)的位置关系中,
其中O_c代表相机的光心位置,
WCS代表世界坐标系(WCS),
DCS代表设备(即相机)所处的设备坐标系(DCS),
ICS代表图像坐标的二维平面(ICS)。从空间中一点p经相机制造物后,在图像平面上对应的二维位置(x, y)可以通过相机内参数矩阵进行数学转换。
请继续查看之前的光学三角关系图中,请注意其中O1和O2分别位于左右两台相机的光心位置我们的目标是通过数学模型准确地计算出这两台相机之间的相对位置与朝向这个过程被称为相机姿态估计问题中的外参数标定通常我们采用的是基于多视图几何理论的方法即通过一系列对应点对(p1,p2)以及它们在另一幅图像中的对应点p12来建立方程组通过求解这些参数我们可以得到精确的旋转矩阵R和平移向量T综上所述它能够帮助我们建立完整的 camera pose graph 模型
现在仅需知道p_1、p_2的具体坐标值即可方便地计算出p_{12}的位置信息,并完成三维重建任务。我们将p_1与p_2统称为一对关键点(pair),它们分别对应于同一空间位置在不同摄像头中的成像结果。为了获取这些关键点之间的对应关系所进行的过程则被定义为立体匹配算法的核心环节,在整个三维重建过程中扮演着最为关键的角色之一——也是最为复杂的部分之一
深度求解的数学推算


参考文献:
https://zhuanlan.zhihu.com/p/29968267 深度学习中的单目深度估计问题 (Chapter.2):无监督学习章节
- https://www.zhihu.com/question/23418797 通过双目感知系统进行测距并构建三维环境模型, 那么使用双摄像头是否也能达到类似效果呢?
