论文阅读《Pyramid Stereo Matching Network》
Problem:
之前工作的问题 :
依赖于图块匹配,缺少在不适定区域利用环境信息寻找一致性匹配的能力
基于CNN****的立体匹配的主要问题:
如何有效利用环境信息
一系列端到端的视差预测的主要思想:
综合环境信息来减少模糊区域的误匹配,同时改善深度估计
PSMNet
- 将像素级特征扩展到有不同尺度感受野的区域特征,全局和局部信息被组合起来形成代价量,使视差估计更可靠
- 堆积沙漏3维CNN和中间监督机制来调整代价量,重复处理代价量,更好的提高全局环境信息的利用率
与CRL方法的比较:
- PSMNet没有视差优化这步
- 都没有后处理的端到端方法
Tip: 后处理方法,是对视差图再处理,也有利用物体的常规形状,3维模型来解决反射和少纹路区域的模糊匹配问题

主要思路:
在整个图像层次利用了全局环境信息,金字塔立体匹配网络引入了多尺度环境信息聚合来估算深度,用于合并全局环境信息的SPP模型和用于代价量调整的堆叠沙漏结构,左右特征图在不同视差级别上级联起来形成一个代价量,代价量要输入到3维的CNN去做调整,用回归方法计算输出的视差图。
Q:为什么用金字塔池化模型?
很难通过像素强度决定环境信息,富有物品环境信息的图像特征对一致性估计十分有效。SPP金字塔池化模块来优化收集有效的多尺度环境信息,SPP生成的不同层次的特征图被平整后级联起来。
Q:什么是cost volume?
本文是级联不同视差级别上的左右特征图形成的4D 匹配代价卷
有相关加correlation layer,对两特征图取patch,计算相关性;也有结合concate volume和correlation volume的Gwc-Net
SPP

3D CNN
该方法能够在反卷积恢复卷分辨率的过程中,补充丢失的细节信息和来自低层级卷的高频信息。为了保证网络能够提取到足够多的细节信息,将3个相同的编码解码器连接起来,并计算每个编码解码器输出的损失,以实现对网络的深度监督。最后,由编码解码器得到
的匹配代价卷,通过双边线性插值的方式恢复到原始尺寸,用于接下来的视差回归计算

视差回归
计算对于每一个像素点属于每一个视差值的概率,匹配代价卷经过3D CNN和上采样处理,得到在所有视差下每个像素的匹配成本,成本越大则表示匹配的概率越低,因此取预测成本的负值,并通过softmax操作进行正则化处理,得到每个像素属于不同视差的概率;然后,以概率值作为权重,对视差进行加权求和,得到每个像素点处的视差值

中间监督
采用了一种深度监督的训练方式,不仅对网络最终的输出结果进行监督,并且对网络中间层级得到的结果进行监督。就是对每个编码解码结构输出的卷进行视差回归,并计算损失
值。最终的损失值是由每一个层级的损失值加权求和得到的
LOSS


