Transformer & 立体视觉 & Depth Estimation
1. Intro
在立体深度估计方面取得的成果具有重要意义,在该领域其核心作用在于重建三维空间信息。为此,在左、右相机成像过程中寻找相应的像素对应关系,并通过分析像素间的相对位置变化来推导视差。这种视差信息不仅有助于推断出物体的深度信息并构建完整的3D场景。近年来采用基于深度学习的方法进行立体深度估计取得了显著成效;然而仍面临诸多技术难题待解决。
一个主要挑战在于对视差范围的限制。理论上, 视差范围可从零延伸至图像宽度, 这一设定受相机参数(如分辨率和基线)以及与物体距离的影响。然而, 尽管许多性能最优的方法都受限于预设的手动视差上限(通常最大为192像素)[21]。这些方法基于“成本量”的概念, 即通过计算多个候选匹配的成本并求取总和来推导最终差异值。这种人为设定的视差限制是为了确保实现过程在内存上可行, 但这种固定模式无法适应复杂的物理场景或相机配置变化。例如,在自动驾驶系统中, 无论相机设置如何(即使视差超过192像素),识别近距离物体以避免碰撞的能力是至关重要的, 这表明传统的固定视差范围假设过于局限。
几何属性及约束(如遮挡特性及匹配唯一性)在现有研究中被视为关键要素。尽管[18]中提到这些属性在某些情况下具有重要意义,并且普遍应用于基于学习的方法中[28]却忽视了其局限性。在立体深度估计问题中发现遮挡区域缺乏有效的视差信息这一现象尤为突出。传统的基于学习算法往往依赖于对遮挡区域视差估计的假设[17]这种假设有时可能无法准确反映实际情况[29]为此提供置信度估计和视差值能够显著提升后续处理的效果例如在配准或场景理解算法中进行加权处理或异常检测都有助于提高系统性能然而目前大多数方法仍未能实现这一目标此外同一场景的不同视角不应将单个像素映射至多于一个对应点(直至图像分辨率限制)这一原则对于消除歧义具有重要作用然而现有的基于学习方法并未对此施加严格约束
上述问题的根源在于当代立体匹配理论的不足[2]。即试图构建一个用于计算视差的成本函数...在沿极线序列对序列匹配的角度来探讨视差估计的方法,则能够有效规避这些挑战[2]。这些方法并非首创,在1985年首次提出使用动态规划尝试过[28](注:其中极内和极间线信息与唯一性约束一起使用)。然而,在这种算法中仅依据像素强度之间的相似性来进行配准[2](注:无法超越局部匹配),从而限制了算法性能的发展空间[3]。近年来随着注意力机制在网络中的应用愈发成熟,在特征描述符间的长期关联捕捉方面取得了显著进展[36][31](注:促使我们重新审视这一理论)。基于此我们提出了一种基于Transformer架构的新端到端深度估计网络stereo Transformer (STTR) [36][31]。该网络的主要创新点在于其能够密集地计算逐像素相关的特征配准关系,并且完全不依赖于预先构建的固定视差代价体积假设[36][31](注:从而克服了现有方法所存在的诸多局限)。因此该方法不仅在合成图像基准上展现出良好的竞争性能[28][29][30](注:而且在真实图像上的推广效果同样令人满意)而且能在无需额外优化的情况下实现跨领域应用效果的一致性提升[28][29][30](注:这充分证明了所提出的stereo Transformer (STTR)具有强大的泛化能力)。
为了达成STTR目标,在技术创新方面取得了显著进展:我们引入了一种基于自关注与交叉关注交替机制的改进型Transformer架构,并在此基础上借鉴了稀疏特征匹配领域的最优传输理论研究成果[31]。相较于传统立体深度估计方法中的像素级强度相关性不足问题,在此设计下实现了像素级别的显式匹配与密集匹配能力的同时施加了严格的唯一性约束条件以解决潜在匹配歧义问题。此外我们还为特征描述符引入了相对像素距离编码机制并在特征匹配过程中采用了自定义注意力权重计算方法以进一步提升判别特征提取效率从而有效缓解了传统方法在处理复杂场景时可能出现的模糊识别问题。基于这些创新性技术开发了一种在现有硬件上可行部署的STTR方案使得所提出的模型能够高效稳定地运行于常规计算平台上并具备良好的扩展性和重用性特点为此系列研究工作奠定了坚实的技术基础
2. 相关工作
- Stereo Depth Estimation
-Comparison of STTR to Previous Learning based Stereo Paradigms
-Attention Mechanism & Transformer
该研究中的体系结构已成功应用于计算机视觉领域相关任务中(如图像分类[11]、目标检测[4]、全视分割[37]以及单应性估计与视觉定位[31]等),并显著提升了纯CNN架构的效果。这一现象与注意力机制捕捉长期依赖的能力密不可分,在本研究所述工作中具有重要意义。我们采用Transformer重新审视了序列到序列立体匹配范式。
3. The Stereo Transformer Architecture
3.1 Feature Extractor
该架构灵感来源于文献[23]中提出的沙漏形网络结构,在此基础上我们对其进行了创新性改进。主要区别在于对编码路径进行了优化设计,并引入了剩余连接和空间金字塔池模块[5]以提升模型的整体性能。通过转置卷积操作、密集块机制以及最后一个卷积层完成信息重建,在此过程中每个像素位置都会生成一个大小为Ce的向量eI(其中Ce表示编码器输出通道数)。这些变换分别关注局部与整体特征提取,并最终生成一个与输入图像保持一致的空间分辨率。
3.2. Transformer
图2提供了这里使用的Transformer体系结构的概述。我们采用了[31]中的交替注意机制:自注意计算同一图像中沿极线像素之间的注意,交叉注意计算左右图像中相应极线像素之间的注意。关于这两个注意模块的详细信息见章节3.2.1。如图2所示,我们交替计算N−1层的自注意和交叉注意。这种交替方案根据图像上下文和相对位置不断更新特征描述符,如第3.2.2节所述。在最后一个交叉注意层中,我们使用最受关注的像素来估计原始视差。我们在这一层添加了专属的操作,包括符合唯一性约束的最佳传输(第3.2.3节)和减少搜索空间的注意掩码(第3.2.4节)。
3.2.1 注意力模块
对于同一来源的图像而言,在交叉注意力机制中Qh参数基于源图像的空间位置信息构建;而Kh和Vh参数则分别基于源图像和目标图像的空间位置信息生成;这种双向关注机制使得信息传递更加高效;具体而言,在第一种情况中,注意力传递方向是从源到目标区域;而在第二种情况中,则是从左到右再到左的方向进行传播。
3.2.2 相对位置编码
通过利用与关键特征(如边缘)相关联的位置信息。因此,在输入数据的空间属性方面进行了呈现。我们选择了相对像素间距而非全局绝对位置表示法(因为其具有平移不变性)。在经典的Transformer架构[36]中,绝对位置编码被直接整合到特征描述符中。然而,在大范围且无纹理的区域中,在这种情况下 pixels之间的相似性可能会变得难以判断;尽管如此这一模糊性是可以解决的
3.2.3 最优运输理论
在STTR架构中, 代价矩阵M由公式2中的交叉注意力机制计算所得的关注力权重取反值得出, 并未采用Softmax函数, 其原因在于最优传输模型会在后续流程中对这些权重进行归一化处理以保证生成质量
3.2.4 注意力掩模
令xL, xR分别代表同一物理点在左、右极线上的投影坐标(自左向右以+x表示)。由于摄像机在立体架构中的布置使得经过校正后的各点满足xR≤xL。因此,在最后一个交叉注意力层中,左边图像中的每个像素只需关注右侧图像中同一坐标左侧位置更小的像素便足够了(即仅需关注右侧图像中满足x≤xL的所有点)。为了施加这一限制条件,在注意力机制中引入了一个下三角二值遮罩。附加的相关可视化可在附录B部分找到。
本节讨论了基于视差回归的方法及其在处理深度估计中的应用。与现有研究中普遍采用的加权求和策略不同,在本研究中我们提出了一种改进型赢家通吃框架[35]进行差异回归。该框架能够有效应对多模态分布特性带来的挑战,并展现出良好的鲁棒性性能。具体而言,在深度估计过程中我们首先通过最优传输分配矩阵T确定最佳匹配位置k,并在此基础上构建一个以k为中心、3像素大小的窗口N_d(k)用于匹配搜索操作。为了提高匹配可靠性,在该窗口内对各候选位移点的概率权重进行重新归一化处理以保证其总和等于1。随后将这些归一化后的概率权重与原始视差值进行加权融合得到最终预测结果


该大小为3像素的窗口内的概率模型和表示网络对当前分配的置信度进行评估,并以逆遮挡概率的形式呈现。基于这些评估结果的信息集, 我们可以建立一个回归模型来估计遮挡概率pocc(k)

3.3. Context Adjustment Layer
原始视差和遮挡图是在极线上回归 的,因此缺乏跨多个极线的上下文 。为了缓解这种情况,我们使用卷积来调整基于交叉极线信息的输入图像的估计值。上下文调整层的概述如图3所示。原始的视差和遮挡贴图首先沿着通道维度与左边的图像连接。两个卷积块用于聚合遮挡信息,然后是ReLU。通过Sigmoid激活来估计最终的闭塞。在ReLU激活之前,剩余块扩展通道维度,然后将其恢复到原始通道维度,从而细化差异。在ReLU之前的扩展是为了鼓励更好的信息流动[42]。为了更好地调节,原始视差与残余块反复连接。剩余块的最终输出通过长跳过连接添加到原始视差中。

3.4. Loss
基于文献[23]所提出的相对响应损失Lrr指标,在处理匹配的1个像素组以及因遮挡而未被匹配的像素区域时(注:此处将"1个"替换为"每个"),我们通过计算分配矩阵T中的各个元素与目标区域的相对响应损失Lrr值来进行评估和优化处理过程(注:此处将"对...采用"改为"通过计算...进行评估和优化处理过程")。网络旨在尽可能精确地定位真实的目标位置(注:此处将"目标是最大限度地关注..."改为"旨在尽可能精确地定位...")。考虑到视差具有亚像素精度的特点,在目标检测中通常会使用邻近两个整数像素之间的线性插值方法来恢复高精度的位置信息(注:此处将"使用最近的整数..."改为"通常会使用邻近两个整数...")。
匹配概率t *。具体来说,对于左图中ground truth为dgt,i的第i个像素,

在内存受限环境下可行的实现方案是关注机制的设计。该机制通过优化内部参数布局实现了对输入数据的有效感知与处理。值得注意的是,在实际应用中观察到的现象表明:该机制所占用的内存资源与其输入数据序列长度之间呈二次方增长关系。具体来说,在使用浮点数32位精度计算时这一现象表现得尤为明显

例如,在输入分辨率设为960×540,并采用8个解码器的情况下(Iw=960, Ih=540, Nh=8),训练一个由6个并行实现的Transformer架构所需总内存约为216GB[14]。该规模计算资源需求在现有计算硬件架构下难以满足实时性要求[8]。为此,在反向传播过程中[14],我们通过在各注意力块之间引入梯度保持机制[8]来优化资源消耗效率。具体而言,在正向传播阶段[14],通过仅存储关键中间状态来减少显存占用[14];而在反向传播过程中[14],我们利用这些预存中间结果逐步重建所需的梯度信息。
因此,在理论上,内存消耗受限于单一注意层的需求而无法无限扩展。此外,我们采用混合精度训练[27]以实现更快的训练速度与更低的内存消耗。
在此时此刻, 我们采用注意力跨步算法. 对于特征描述符的处理中, 在此位置上我们实施了稀疏采样操作, 在此过程中相当于对该特征映射进行了降采样处理.
复杂性分析 :
在现有的成本-体积框架中,在关联网络中的内存复杂度被评估为O(IhIwD)(其中D代表最大视差值),而在采用3D卷积层的情况下则达到O(IhIwDC)(其中C代表通道数量)。这种设计选择带来了明显的性能提升。然而,在这种架构下对预测范围外视差能力的最大化往往需要付出一定的代价。为了探索一种更为灵活的选择方案,在现有研究的基础上我们提出了STTR方法(如图1所示)。该方法通过引入一个可调节参数s实现了在视差范围与内存消耗之间的权衡关系:相较于现有研究,在相同的测试集上STTR能够实现更低的时间开销同时保持相近的空间占用水平。值得注意的是,在推理阶段我们发现可以通过调节s参数使其适应不同的应用场景从而进一步优化系统性能。此外为了满足实时性需求我们还提出了一种轻量级实现方案该方案能够在不显著影响模型性能的前提下显著降低计算开销并减少显存占用需求。具体实验结果请参考附录1中的详细数据对比分析
4. 实验、结果与讨论
FlyingThings3D子集是由随机生成的对象构建而成的数据集。MPI sinintel[3]是一种源自动画电影合成的数据集,在其中包含了逼真的人工制品样本:例如镜面反射效果与运动模糊现象。KITTI 2015[26]则是一个街景数据集合;其四分之一分辨率版本则聚焦于室内场景的详细捕捉。SCARED[1]则提供了一个用于腹腔镜手术医疗场景的数据库;在预训练阶段,则采用了场景流默认划分方法;而对于跨域泛化评估任务,则采用了每个数据集合所提供的全部样本;具体而言,在KITTI 2015基准测试中,则基于KITTI 2012与2015两个数据集合进行了模型训练,并保留了来自这两个集合中的各约二十张图像作为验证样本;其余相关细节均可见附录J中所详述的具体内容;至于模型训练所需时间及参数数量等信息,则完整记录于附录L中
超参数:
在本实验中采用了6个自我与交叉注意力机制 ,其中Ce设定为128。对Sinkhorn算法进行了10次迭代应用 。在训练过程中采用s=3作为注意力跨度,并选择AdamW优化器进行参数优化,并设置权重衰减率为1e-4。将所有损失函数的权重统一设定为w=1。为了实现对特征提取器和变压器的有效预训练目标,在场景流上进行了15个epoch的微调训练工作。具体而言,在特征提取器和Transformer模块上采用了固定的学习率策略(均为1e-4),而对于上下文调整层则采用了双倍的学习率(2e-4)。为了模拟真实场景中的立体伪影现象,在增强处理方面引入了不对称增强技术(左右图像存在差异),具体包括RGB偏移、高斯噪声添加以及亮度/对比度偏移等操作,并结合垂直偏移和旋转等变换手段实现更加逼真的效果模拟。针对KITTI 2015基准测试集,在预训练模型基础上引入了指数型学习率调度策略(衰减因子取值0.99)并进行了持续400次的微调优化过程以进一步提升模型性能。整个实验过程均在Nvidia Titan RTX GPU平台上完成,并通过多像素误差(MPE)以及绝对误差(EPE)等指标量化评估模型输出结果的质量表现。需要注意的是,在本节后续讨论中所提及的所有定量评估结果均仅针对未被遮挡区域进行计算;同时我们采用IoU指标来评估遮挡估计的效果表现
4.1. Ablation Studies

4.2. Comparison with Prior Work



5. Conclusion
我们提出了一种名为STereo TRansformer的端到端网络架构,并巧妙地结合了基于卷积神经网络(CNN)和Transformer架构的优点。该方法从基于序列对齐的角度重新审视了立体深度估计问题,并在此过程中实现了以下关键优势:第一点无需预先设定固定的视差范围;第二点对遮挡问题进行了明确处理;第三点施加了匹配唯一性约束以确保结果的一致性与准确性。通过一系列实验验证表明,在无需额外微调的情况下,该方法能够有效地推广至多个应用场景,并在经过优化后的基准测试中取得了令人鼓舞的结果。未来的研究工作将聚焦于通过多分辨率技术进一步提升模型的上下文表示能力以增强全局感知能力
Project: Citavi-202307 Xingtong Liu (2)
Re-examining Stereo Depth Estimation Techniques Through the Lens of Sequence-to-Sequence Models, Employing Transformer-Based Architectures.
2021 IEEE/CVF International Conference on Computer Vision (ICCV)
Li Z., Liu X., Drenkow N., Ding A., Creighton F.X., Taylor R.H., and Unberath M. (joined by others), the Johns Hopkins University {mathias,zli122}@jhu.edu}
