Advertisement

《WSVD:Web Stereo Video Supervision for Depth Prediction from Dynamic Scenes》论文笔记

阅读量:

参考代码:wsvd_test

1. 概述

本研究提出了一种基于光流估计的深度估计网络模型。该方法首先采用左右双目图像作为输入,并计算得到相应的光流信息;随后将计算得到的光流应用于图像处理过程中的warp操作;这样处理后即可获得深度估计网络所需的三个关键输入:经过warp后的图像1、对应的光流信息以及原始的图像2。随后通过编解码网络完成深度信息的估算过程;同时为了获取大量具有丰富场景特性的双目3D数据集,研究者通过在YouTube平台筛选视频素材来构建WSVD数据集;由于这些数据来源未知(包括相机焦距和 stereo基线等参数),因此本研究采用了归一化梯度作为主要优化目标来设计其损失函数。

该文章所采用的深度估计方法属于回归类型。该研究利用具有多样场景的WSVD数据集,并结合与相机参数无关的梯度损失函数进行监督学习。从而获得较为稳定的深度估计结果。文中效果展示于图中:

在这里插入图片描述

在对WSVD数据集中的场景分布情况进行了详细统计分析后,能够清晰地呈现各场景所占的比例(其中字符所占的比例越高),如图所示。

在这里插入图片描述

2. 方法设计

2.1 方法pipline

在这里插入图片描述

该文所设计的pipeline架构如图所示,在编解码框架中整合了3个关键组件,并基于梯度损失函数实现了有效的参数优化。

2.2 损失函数

在双目系统中,深度可通过若干变量来表征:
q=\frac{d-(c_x^R-c_x^L)}{fb}
其中,fb代表焦距与基线之积;d_{min}=c_x^R-c_x^L为图像对中的最小视差值。然而,在上述关系中涉及的三个参数均为未知量,在此研究中提出了一种基于梯度的深度监督损失(NMG)。该方法通过对比网络估计的深度与视差图在梯度信息上的回归关系来实现监督学习目标。其损失函数定义如下:
L=\sum_k\sum_i|s\nabla_x^kd_i-\nabla_x^kq_i|+|s\nabla_y^kd_i-\nabla_y^kq_i|
其中\nabla_x^k,\nabla_y^k表示图像在尺度k=\{2,8,32,64\}下的x和y方向梯度;而s则由以下公式计算:
s=\frac{\sum_k\sum_i|\nabla_x kd_i|+\sum_k\sum_i|\nabla_y kd_i|}{\sum_k\sum_i|\nabla_x kq_i|+\sum_k\sum_i|\nabla_y kq_i|}
实验结果表明所提方法与ranking loss损失函数相比具有显著优越性

在这里插入图片描述

3. 实验结果

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~