论文笔记-深度估计(1)Depth Map Prediction from a Single Image using a Multi-Scale Deep Network
深度图预测基于单一图像的多层次网络
该研究者指出传统方法通常采用几何理论与优化算法相结合的方式以获取空间数据。然而就单幅图像而言仅凭几何特性无法准确推断其真实的尺度这一问题存在这是因为缺乏先验知识的情况下其尺度参数难以直接确定。例如在人像分析中需综合考察线条夹角透视效应物体尺寸等多种因素的基础上才能较为准确地推断出目标物的实际尺寸和距离关系因此通过融合其他辅助信息建立深度学习模型将有望提升单图像深度估计的效果
网络
为了解决该问题, 作者提出了一种监督式的学习架构, 包含两个模块: 粗部到精细 (coarse-to-fine) 网络体系. 在这一架构中, 粗部网络负责对整个图像进行整体预测, 而细部网络则用于细化局部特征并提升预测精度.

粗粒度层次结构与VGG等分类器具有相似设计。采用卷积-全连接结构所得输出作为该模型输入。其输出规模仅为输入规模四分之一。必须包含ReLU激活函数及Dropout防止过拟合;基于ImageNet预训练模型可显著减少计算开销。
第二个fine-scale网络用于精细调整目标物体的轮廓,例如其主要功能就是通过卷积操作来增强细节信息.这个网络仅由卷积层构成,令人想起了近期同类方法的表现(参看博文列表).
该网络通过卷积操作对原始图像进行处理后生成大小为原图四分之一的新图像,并将其输出与第一个网络的输出连接起来(通常情况下是将两个输出向量进行组合)。
在训练过程中会先对第一层神经网络进行优化使其达到最佳状态随后将该神经网络的输出作为第二层神经网络的输入继续对其进行优化这样设计的好处在于使得整个反向传播过程能够独立地在各自的子网中完成各自的梯度计算从而避免信息传递上的干扰
由于当前并未采用大家通用的deconvolution技术,其输入尺寸是原始图像的一半,而经本方法处理后得到的结果则是原始图像四分之一尺寸
价值函数
与传统的预测者不同,在评估预测准确性时会使用基于欧氏距离的传统衡量标准。相反,在这种情况下,作者提出了一种类似于方向余弦损失的新方法——尺度不变损失(Scale-Invariant Loss)。


在模型中,真实值与预测值之间的关系由以下公式定义:其中y^{*}表示真实值(通常是一个标量),而y则代表对应的预测结果;图像的像素总数为n;参数α则代表对所有数据点在对数空间中的插值计算所取的加权平均;这表明,在缩放不变性方面进行校正等同于将预测结果与真实值进行归一化处理后的差异程度。
此处特意提出该比例或尺度作为预测情况与真实值之间的对比基准。假设预测值为k乘以ai,则其与实际值之间的差异相同。
将其后的等式中的最后一项视为两个向量的乘积运算。通过观察可知,在两组预测深度具有相同方向性时——即每一对应位置上的数值均存在统一的比例缩放系数——这种预测方法与真实值之间的误差始终保持一致水平。

当λ∈[0,1]区间内取值为1时,则被称为尺度不变的误差(即最终预测结果与实际结果之间存在一个共同的比例因子);当λ取值为0时,则被称为L2损失(即最终预测结果与实际结果完全一致)。作者选择λ=0.5作为折中方案,并发现这种平衡效果最佳:既保留了绝对信息又包含了相对信息的比例关系。论文最后的评价体系是基于上述讨论设计的
最后作者提到会融合更多的几何信息,比如法向量等。
