基于深度学习的单目图像深度估计总结
图像深度估计被认为是当前计算机视觉研究中的一个重要课题。深度图(Depth Map)描述了各像素在空间中的位置信息,并被广泛认为是三维场景信息表达的一种基本形式,在自动驾驶、三维重建等领域均有其应用价值。基于深度学习的方法在单目图像深度估计方面取得了显著进展,并逐渐成为本领域研究的重点方向之一。为了便于日后查阅和学习最近阅读的一些论文资料
深度图预测基于单一图像利用多尺度深度网络-NIPS2014

这篇论文是首篇在单目图像深度估计领域应用深度学习方法的研究文章。该研究提出了一种多尺度(Multi-Scale)深度神经网络模型来解决单目图像中的深度估计问题。通过将整个图像先进行全局预测(Global Coarse-Scale Network)并随后进行局部优化(Local Fine-Scale Network),从而获得单幅图像的深度信息。
2.Unsupervised Monocular Depth Estimation With Left-Right Consistency-CVPR2017

采用无监督学习的方法来估计深度,基本思路是匹配好左右视图的像素,得到disparity map。根据得到的视差disparity,由d = bf/disparity,算出depth map。
本文是利用图像重建误差来最小化光度误差,虽可以得到很好地图像重建结果,但得到深度预测结果非常差。为了优化这个结果,作者采用Left-Right Consitency来优化。也就是以左视图为输入,以右视图为training中的监督真值,生成右侧对应的视图;然后又以左视图为监督真值,根据右视图生成左视图。最小化这两个过程的联合loss则可以得到一个很好的左右视图对应关系。最终网络得到一个四个scale大小的输出(disp1-disp4)。
Code:https://github.com/mrharicot/monodepth
Focuses on the real-time manner of unsupervised learning for depth estimation from monocular videos on CPU-IROS2018

本文基于《Unsupervised Monocular Depth Estimation With Left-Right Consistency》提出了一种名为pydnet的模块。该模块旨在解决计算量大导致正向恢复阶段占用大量内存的问题,并使得模型的实时性能受限于高端或高功耗设备的限制。这种方法是首个可在cpu上实现该功能的技术方案。
Self-supervised learning of depth estimation and ego-motion in the field of video analysis from CVPR2017

该文章提出了一种基于端到端学习的全连接网络框架,并通过视图重建技术生成人工标注数据集作为监督信号。该研究主要关注于单目图像深度估计与 camera 运动估计联合模型的设计与实现。尽管实验结果表明该方法的效果尚不理想,在方法论与泛化能力方面具有较高的参考价值。《Unsupervised Ego-Motion and Dense Depth Estimation with Monocular Video》这篇文章在zhou等人的基础上提出了两个新的loss函数,并在此基础上设计了改进型模型架构,在实验结果上取得了显著提升效果。
5.A Comprehensive Deep Learning Framework for Single-View Depth Estimation and Its Applications in Computer Vision and Robotics: A Comprehensive Survey](https://arxiv.org/abs/1806.02446)

该论文的核心思想在于将深度估计问题建模为回归任务,并提出了一种名为DORN的新网络架构。其架构参考了语义分割领域经典的方法如deeplabv2与pspnet等,并在此基础上进行了创新性改进以提升性能。DORN不仅在精度上表现优异,在同步收敛速度方面也表现出色,并且能够有效提取多尺度特征以提高模型鲁棒性。此外,在KITTI-depth预测任务中获得第二名位置,并荣获该领域的最高荣誉奖项‘鲁棒视觉挑战’的一等奖。
This paper presents an Attention-based Context Aggregation Network for Monocular Depth Estimation, which is a significant contribution to the field of computer vision. The proposed network effectively captures and integrates contextual information through a novel attention mechanism, thereby enhancing the accuracy of depth estimation. The experimental results demonstrate the robustness and efficiency of the proposed approach compared to existing methods.

这篇论文的核心思路在于将深度估计问题转化为分类问题(同时提出了一个问题:在语义分割领域已有的框架是否可以直接应用?)。
Wild Scene Depth Estimation: Self-supervised Monocular Depth Learning with Unknown cameras-CVPR2019
这篇论文今年四月是由谷歌AI与机器人实验室联合推出的最新研究成果,其效果堪称LiDAR水平.

该论文提出了一种基于单目视频学习深度、自身运动、物体运动及相机内参的新方法。主要贡献如下:
1.证明了可以通过无监督方式训练深度网络,并通过视频本身预测相机的内参(含镜头畸变参数);
2.首次采用几何方式从预测深度直接处理视频中的遮挡问题;
3.显著降低了对场景中移动元素所需语义理解的规模:仅需一个覆盖所有可能属于移动对象像素的单一掩码,而非分别分割每个实例并跨帧跟踪它。
本文尚未公布源码,并需进一步深入理解其工作原理。
