Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue
发布时间
阅读量:
阅读量
文章目录
- Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue
-
-
一、介绍
-
二、方法
-
- 2.1 自编码器损失
-
三、带跳跃结构的粗略到细致训练
-
四、网络架构
-
五、实验
-
六、相关工作
-
七、结论
-
Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue
- 目的:单目视觉深度估计
- 模型:无监督框架的深度CNN
- 输入:单目图
- 输出:深度图
- 训练数据:双目立体图
- 数据集:不到一半的KITTI
一、介绍
标注数据集较难获得,即便是现有的数据集,如KITTI,捕获的图像分辨率密度低于 5\%,并且可靠深度范围有限。
现有的使用监督学习训练CNN的泛化性较差。
也可以捕获大量立体图像建立数据集,并用标准几何方法计算视差图,用于训练。但真实图像存在传感器眩光、运动模糊、光照变化、阴影等影响,标准立体算法很少能充分处理这些因素。
二、方法
使用CNN模拟非线性变换,损失函数用输入图像与立体对中的另一个图像之间的光度差异表示,损失可微从而达到反向传播的目的。
2.1 自编码器损失
最小化标准颜色一致性,视差不连续处正则化处理孔洞问题。
两张图,首先用左图(Left Image)预测出反深度图(Predicted Inverse Depth),再根据预测出的反深度图和右图(Right Image)作为输入,通过拍摄两张图时相机的运动参数,进行 Inverse Warping 运算,生成预测的左图(Warp Image)。用 Left Image 和 Warp Image 之间的误差作为损失函数来训练模型。
三、带跳跃结构的粗略到细致训练
泰勒展开当前视差估计值线性化扭曲图像,以求反向传播的梯度。
需要在更精细分辨率下进行视差初始化,还需要CNN参数预测初始误差。
提出具有上采样的全卷积架构。双线性上采样滤波器初始化放大的视差。
四、网络架构
类似 Alexnet 架构,将 Alexnet 的全连接层替换为全卷积层,减少网络中参数数量,允许网络在测试时接受可变大小的输入。
跨层跳跃连接提高分辨率。
五、实验
使用 KITTI 数据集中的56个场景,28个用于训练,28个用于验证。
使用 MATLAB 中的 CNN 工具箱 MatConvnet 来训练模型。
六、相关工作
七、结论
主要目标是解决使用大量标记数据训练深度网络的缺点。
全部评论 (0)
还没有任何评论哟~
