Advertisement

论文阅读《Pyramid Stereo Matching Network》

阅读量:

Problem:

之前工作的问题

依赖于图块匹配,缺少在不适定区域利用环境信息寻找一致性匹配的能力

基于CNN****的立体匹配的主要问题:

如何有效利用环境信息

一系列端到端的视差预测的主要思想:

综合环境信息来减少模糊区域的误匹配,同时改善深度估计

PSMNet

  1. 将像素级特征扩展到有不同尺度感受野的区域特征,全局和局部信息被组合起来形成代价量,使视差估计更可靠
  2. 堆积沙漏3维CNN和中间监督机制来调整代价量,重复处理代价量,更好的提高全局环境信息的利用率

与CRL方法的比较:

  1. PSMNet没有视差优化这步
  2. 都没有后处理的端到端方法

Tip: 后处理方法,是对视差图再处理,也有利用物体的常规形状,3维模型来解决反射和少纹路区域的模糊匹配问题

主要思路:

在整个图像层次利用了全局环境信息,金字塔立体匹配网络引入了多尺度环境信息聚合来估算深度,用于合并全局环境信息的SPP模型和用于代价量调整的堆叠沙漏结构,左右特征图在不同视差级别上级联起来形成一个代价量,代价量要输入到3维的CNN去做调整,用回归方法计算输出的视差图。

Q:为什么用金字塔池化模型?

很难通过像素强度决定环境信息,富有物品环境信息的图像特征对一致性估计十分有效。SPP金字塔池化模块来优化收集有效的多尺度环境信息,SPP生成的不同层次的特征图被平整后级联起来。

Q:什么是cost volume?

本文是级联不同视差级别上的左右特征图形成的4D 匹配代价卷

有相关加correlation layer,对两特征图取patch,计算相关性;也有结合concate volume和correlation volume的Gwc-Net

SPP

3D CNN

该方法能够在反卷积恢复卷分辨率的过程中,补充丢失的细节信息和来自低层级卷的高频信息。为了保证网络能够提取到足够多的细节信息,将3个相同的编码解码器连接起来,并计算每个编码解码器输出的损失,以实现对网络的深度监督。最后,由编码解码器得到

的匹配代价卷,通过双边线性插值的方式恢复到原始尺寸,用于接下来的视差回归计算

视差回归

计算对于每一个像素点属于每一个视差值的概率,匹配代价卷经过3D CNN和上采样处理,得到在所有视差下每个像素的匹配成本,成本越大则表示匹配的概率越低,因此取预测成本的负值,并通过softmax操作进行正则化处理,得到每个像素属于不同视差的概率;然后,以概率值作为权重,对视差进行加权求和,得到每个像素点处的视差值

中间监督

采用了一种深度监督的训练方式,不仅对网络最终的输出结果进行监督,并且对网络中间层级得到的结果进行监督。就是对每个编码解码结构输出的卷进行视差回归,并计算损失

值。最终的损失值是由每一个层级的损失值加权求和得到的

LOSS

全部评论 (0)

还没有任何评论哟~