论文阅读: GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose(CVPR2018)
CVPR2018_GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose
开发了一个集成学习框架来实现深度估计、光流计算以及相机姿态预测。
该框架基于左右一致性约束的无监督学习方法,并结合现有的 sfmlearner 进行优化与改进。
该论文主要贡献点:提出了一种基于几何一致性的代价函数(geometry consistency loss),以应对光照变化及其它相关情况。
- 解决移动物体和遮挡:通过rigid flow and object motion两种机制
同样,在介绍部分也表明了该方法对处理那些纹理模糊、边缘模糊等弱纹理区域具有显著优势。
1.基本结构和代价函数
如图:

总体分为两个阶段:首先,我们通过深度估计技术对图片进行处理,并计算出物体的位姿信息。随后确定物体的姿态参数。基于上述结果,在第二阶段我们引入残差流学习模块来解决物体运动建模问题。
第一步:DepthNet, PoseNet
第一步不考虑视频中运动的物体
DepthNet
对单帧图像进行深度估计
PoseNet 将来自不同序列的所有图像按通道拼接在一起作为整体输入,并通过该输入一次性完成对所有帧之间姿态的训练。其代价函数由以下公式定义:通过之前循环获得的深度信息和姿态估计结果进行重投影误差评估。

以及edge-aware depth smoothness loss:

第二步:ResFlowNet
作者通过ResNet进行处理运动物体研究,并形成了residual non-rigid flow模型。
该网络在初始阶段基于前一过程计算出初始光流场F1;随后,在当前帧中识别出运动物体对应于光流场F2;由此可知真实运动物体应整合两者的特征为F1+F2。
几何前后一致性(geometric consistency enforcement)
与传统的前后一致检测方法相似,在连续的两个帧之间执行光流一致性检测(作者在此会特意略过有遮挡的画面部分):

只是这儿作者提到只在没有遮挡的地方进行检查
最终的代价函数 :

除此之外,作者还基于FlowNet做了改进来估计光流,作为Optional.
2.结果
速度: 对于单个帧而言,在进行深度估计时耗时15ms左右、光流预测耗时45ms左右、位姿预测仅需4ms即可完成计算。
精度: 相较于其他方法,在深度估计方面表现更为出色;但与左-右一致性双目方法相比略逊一筹。至于姿态估计性能,则采用了与sfmLearner相同的验证方案(基于Kitti 00-08训练集及随后两组测试集),其结果较ORBSLAM提升明显。
尺度: 需要注意的是,在使用无监督单目深度估计方法得到的深度结果前需要乘上一个尺度因子;因此,在比较姿态时也需要将计算出的结果乘上该尺度因子才能与ORBSLAM2的结果进行对比。
作者指出存在两个关键问题:
1.这一规模显著的优化可能会导致陷入局部最优解的情况;
2.当场景中出现占据较大画面区域的移动物体时,预测系统可能无法准确判断其运动轨迹。
一个小收获:SfmLearner有更新,更正了之前的错误。
