EdgeStereo: A Context Integrated Residual Pyramid Network for Stereo Matching
引: 本文着重探讨了基于Context信息的多阶段学习方法在视差细节提升中的应用。首先引入了一种名为CP-RPN的一阶段网络用于视差估计。随后采用多任务学习策略,并结合EdgeStereo方法利用mid-level特征填补视差估计中的细节缺失。边缘检测技术与视差估计方法之间存在相互促进的关系。
1.介绍
以往的方法有很多局限性:1.接受域限制。2.使用后处理导致速度很慢。
1)困难无纹理区域较难理解。
2)多阶段网络效率很低
3)计算很复杂
3 Approach
首先阐述基础型的CP-RPN结构,并详细描述其工作原理。随后讲述基于端到端架构的多任务EdgeStereo系统及其关键技术实现。其中包含HED网络,并探讨了该网络与CP-RPN之间的关联。
3.1 CP-RPN
三部分:
local stereo volume extraction 提取成本向量
context pyramid 内容金字塔
2-D编解码(残差金字塔) local stereo volume extraction 提取成本向量
类似于VGG网络中从conv1_1到conv3层的部分左右两侧共享相同的权重参数,并在ImageNet数据集上进行了预训练接着使用的是一种类似于dispnet-C的方法这里不做进一步详细说明我认为这种方法在特征提取方面存在一定的冗长性对计算效率的问题尚无明确结论
Context Pyramid
对于我们的网络内容体系而言,采用多维度或多层次的标准更为适宜。如果仅采用单一标准(即单维度或单一标准的情况),并且标度较小,则会导致许多原本连续的视差变得断裂或不连贯。另一方面,在标度较大时,则会使得一些微小的物体及其细节信息无法被准确捕捉到。
例如,在仅依赖全局先验信息的情况下,视差图可能会过于平滑而缺乏一些精细细节。例如,在较大的像素层间出现较大的梯度变化时,这些变化无法有效反映到视差的跳跃上。鉴于此,在实际应用中应尝试融合局部先验信息与多尺度的文本线索。
所谓的接受域尺度就是衡量文本使用程度的标准。进而这些多尺度提取的结果将被拼接在一起进行后续处理。从第一层拥有256个通道开始,在接下来的过程中逐渐减少至
三种内容金字塔context pyramid:

1)卷积内容金字塔convolution context pyramid:
相同尺寸的两个前后设置的卷积层,在层级递进过程中各层卷积核尺寸逐渐减小;具体设置中可采用7×7、5×5、3×3及1×1等尺寸
2)池化内容金字塔pooling context pyramid
这一变化的核心在于采用不同尺度的池化核(如1×1、2×2、4×4、8×8),之后紧接着加入一个1×1维度的卷积操作,并配合采样操作以确保输出分辨率与局部立体体积一致
3)Dilation context pyramid:
Encoder-Decoder(Residual Pyramid)编解码(残差金字塔)
在编码过程中非常直观,在此我们采用了四个连续的卷积模块,在每个模块中由两个连续的3×3卷乘运算构成,在第一个模块中stride值依次为2和1,在第二个模块中则保持stride值为1不变;整体设计中的下采样因子设定为64
解码过程与编码过程相互匹配。最容易掌握的是最小尺度的学习;由于输出规模较小的原因,在这一层次的学习所需细节也非常有限。从基础层开始逐步提升;系统地进行特征融合,并在每个阶段逐步优化细节;最终实现所有分辨率级别的观测映射。

完全由第一个模块实现视差block的相关计算过程。后续的学习阶段专注于视差的残差residual blocks这一重点方向进行深入研究。经过之前的实验测试发现效果并不理想。其中disparity block被安置在最低层以学习1/64尺度上的disparity map。而上层则负责预测对应尺度上的残差residual maps。结构如图所示无需赘述细节。
最后是L1Loss
3.2 EdgeStereo
边缘检测网络HED
边缘映射主要由中间层来获取特征信息,并进而促进细节的学习。这一目标函数在计算过程中采用了类似于VGG网络的架构设计。
边缘映射主要由中间层来获取特征信息,并进而促进细节的学习。这一目标函数在计算过程中采用了类似于VGG网络的架构设计。
CP-RPN与HED的关系
首先基于HED构建共享边缘特征, 即被称为aggregated edge channel feature aec. 从而CP-RPN捕获了丰富的语义边缘信息. 此外, 在多尺度concat过程中, aec能够通过下采样和平减通道数量实现有效的特征提取. 最终, aec被整合到aggregation A模块中, 合成最终的视差或者残差图.
2)另外一种方法是用HED的结果来regularize视差估计。将结果进行多尺度downsampling处理后进行融合。有助于生成最终的深度估计。
Multi - stage training strategy
第一步,基于边缘检测数据训练HED。VGG当中的(conv1_1到conv5_3都固定住!)
第二步,固定VGG与HED,用视差训练集来训练edgestereo。
第三步,联合训练。
4.试验
数据集
只用了flythings3d,如果样本集中有25%的部分视差值大于300的,就都去除掉。
Ablation Studies for Stereo Matching Task
Local Stereo Volume Extraction
指出本文提出的 VGG 提取塔在结构上超越了现有方法中的 dispnet-C 模型(后者仅包含两层卷积网络)。在构建 label space (Ls) 的过程中,我们整合了一个 unary 特征向量以获取更丰富的语义信息。
context pyramid
引入了该方法后,系统性能得到了显著提升。从实验结果可以看出,任何多尺度的context先验均能显著提高最终的视差估计结果。
Encoder-Decoder
本文算法适合于多场景,KITTI太过单调了,所以效果不是很好。



网络部分

