Depth-Aware Multi-Grid Deep Homography Estimation with Contextual Correlation 文献阅读笔记
题目:基于上下文相关性的深度感知多网格深度单应性估计
作者:L. Nie等
年份:2021
一. 摘要
传统的单应性估计方法高度依赖于特征点对应的数量和分布情况。因此,在具有低纹理特征的场景中其鲁棒性表现欠佳。针对这两个关键问题,在本文中作者提出了一个有效的解决方案,并在此基础上设计了上下文相关层(CCL)。该CCL能够有效地捕捉特征图之间的长距离关联关系,并且可以在学习框架中灵活应用。此外,在处理深度变化时由于单一的单应性变换难以有效表示具有视差的复杂空间变换现象文章提出了从全局到局部预测多网格单应性的新策略。为了进一步提升网络性能并在此基础上引入了一种新的感知深度的保形损失函数从而使得网络具备了更强的深度感知能力。
代码公开地址:https://github.com/nie-lang/Multi-Grid-Deep-Homography.
二. 介绍
本文的贡献如下:
开发了一种新的上下文相关层(CCL),以系统地探索长距离特征之间的关联性,在深度单应性的领域中,在准确性、参数规模以及运行效率等方面均超越了传统Cost Volume方法。
为了克服单一单应性的局限性,在对齐视差图像时受到限制的问题上,我们提出了一种多网格深度单应性网络。这种网络通过端到端的方式,在全局到局部范围内估算多网格单应性。
为了在对齐与形状之间寻求平衡,在这项研究中我们引入了一种基于深度感知机制的改进损失函数。这种新方法旨在通过精确计算内容间的匹配关系,在保证整体布局合理的同时实现内容的精确对齐以及自然网格结构的保持。
三. 相关工作
A. 线性单应性估计
基于像素级别的处理方案 通过迭代方法求取最佳单应矩阵以实现图像对齐,在此过程中综合考虑并采用L1范数、L2范数以及归一化相关度等指标作为评估标准。然而该处理方案在面对图像重叠率较低的情况时表现出较大的挑战性
利用特征的方法 通过减少稀疏特征点对应的投影误差来估计单应性矩阵。 这些方法首先利用特征点提取器检测出稀疏特征点集,在完成特征匹配后,采用一种剔除离群值的鲁棒估算法来求解各组对应关系下的单应性矩阵。 然而由于该类方法对特征匹配质量高度敏感,在实际应用中往往会在纹理信息不足、光照条件变化以及图像分辨率较低的情况下出现性能退化现象。
DeTone团队[16]最早将深度学习引入单应估计领域,并基于vgg架构设计了一个单应性回归网络。他们在开创性的研究中发现该网络能够计算出4个关键点处的8次位移以替代直接估计单应矩阵这一传统方法。针对卷积特征匹配耗时较长的问题Nie团队[19]提出了创新思路即建立特征金字塔与代价体积之间的连接关系从而实现对残差位移的精准估计。尽管优化后的模型在处理复杂场景方面表现更好但其在内存占用和运行时间上相较于前驱模型仍有明显提升
本文提出了一种新的方法CCL在深度单应性估计中的应用相较于传统的方法具有更高的效率 ,不仅提升了精度而且降低了计算复杂度。
B. 非线性多单应性估计
传统的方法中采用多单应性估计相较于单应性估计能够在视差场景中获得更为显著的效果然而在计算不同局部warp时由于其对特征点质量的要求更为严格导致在面对低纹理或低分辨率场景时往往达不到预期效果
基于学习的方法在多单应性问题上与视频稳定性密切相关,并可被视为一种简化的基准框架进行研究开发。 Wang等人[26]研究开发了一种多层次变换网络模型 来实现连续帧之间的对齐过程。 在网络训练过程中引入交叉一致性和局部规范性的约束项以保证模型的有效收敛性。 研究表明,在[34]文献中提出的MeshFlow[5]方案是一种深度学习替代方法具有较高的内容感知能力能够在小基线条件下有效识别动态物体并避免特征点检测带来的限制问题。 这些方法不仅不再依赖关键点检测而在纹理信息不足的情况下展现出明显增强的效果
但是,在图像拼接等低重叠率的应用场景中,这些学习框架表现出较差的稳定性,并且难以稳定运行。 相相比之下,我们提出了一种新型网络架构能够有效地解决这一问题。
三. 本文方法
A. 网络概述

图注概述:所提出的多分辨率深度单应网络框架进行了详细说明。预计能够在三层金字塔架构内实现该目标,在此架构中前两层单元负责预估全局范围内的几何变换信息,在此之上再由第三层单元推导出局部区域的高分辨率变形参数。图表直观展示了三层结构中的第三层单元布局情况,在这一层级上采用的多分辨率单应网络能够将变形模式表示为分层次的空间分布模式
解释:
通过ResNet网络对输入图像进行特征提取,并生成包含Scale1至ScaleN在内的多层特征图;我们分别将前两层特征金字塔取自Scale1和Scale2;对于第三层及以后各层,则采用各尺度层级对应特征图的累加结果构成最终特征金字塔
(2)前两层负责处理网格实施的整体变形操作 。其中,在第二层中所估计出的单应矩阵 H 会通过影响 rigid grid(刚性网格), 实现对该刚性网格实施整体变形以生成原始三维模型 **Original Mesh(Original Mesh))。此外, 这一映射关系也会应用于金字塔第三层级输出的结果上, 对其提取出的目标图像特征图实施整体变形操作, 从而使得后续的相关联层次只需要关注剩余部分的局部变形情况即可完成运算过程。
(3)上下文相关层的输出结果为Feature Flow ,其元素值代表特征点的运动规则。
在Residual Mesh Regressor中基于特征流的相关信息对网格进行回归计算,生成经过局部变换的网格.将其与原网格叠加得到最终的变换网格Final Mesh.
(5)网格的应用:通过Final Mesh执行warp操作以实现对TermImage的变形处理。
B. 上下文相关

图注翻译:
Step1: 通过卷积操作计算Correlation Volume(上下文相关量)。
Step2: 将上下文相关量转换为上下文相关概率。
Step3: 通过公式(5)计算最终的特征流Feature Flow。
解释:
1. Correlation Volume阶段
输入来源于特征金字塔的第三层计算所得的结果,在此处分析其元素值首先经过L2范数归一化处理。
(2)选取大小为K×K的patch块对经过归一化处理后的变量 Ft 进行分解,并将其分解得到的小块重新组合成



每个小块作为卷积核,并将这些滤波器应用于Fr这一区域进行卷积运算后,则能够得到反映该区域特征的Correlation Volume
(3)Correlation Volume的体积 为**

,** 每个元素值的计算公式如下:

其中,

在处理舍入操作方面,在本文中提出的方法Correlation Volume仅仅是Cost Volume的四分之一,在其方法论上体现出显著的优势
2. Scale Softmax阶段
相关体中每个位置都可以看作是一个具有


我们定义一个长度为K=3的向量,并规定该向量中每个分量取值范围限定在0至9之间。通过应用softmax函数对该向量进行激活处理后,则将特征匹配问题转化为分类任务(共


个类)。采用该方式将相关实体转换为相应的概率值。参考文献[35]中提到,这些向量将在激活前乘上一个常数缩放因子α (α > 1),从而提升类别间的距离。其后,在对比原始与引入α后的两种计算公式时,我们可以观察到显著的变化趋势

在比较Eq.3和Eq.4的分母时,可以看出该比例因子能够使匹配概率较高的pk下降(当k远小于


时),使匹配概率最高的pk提高(当k =


时)。 换句话说,在此情境下,弱相关性的强度得到抑制而最强相关性的强度则得到增强。如图所示(见图 Fig.4),这一结论得到了充分的证实。

解释:
(1)在图4中的第三列未引入α值的公式,在观察到图表中白色点数量较多时(即具有较高相似度但无明显关联性的样本),我们发现实际情况中相关性特征点的数量远少于此数值(即实际观测到的相关性特征数量显著低于理论预测值)。这是因为该公式在计算过程中包含了较多的弱相关性特征(即那些相似度较高但实际并无直接关联的数据项),而在图4中我们通过引入α参数进行筛选(即仅保留那些具有强相关性的数据项),从而使得最终筛选出的相关性特征数量显著减少。
(2)对公式(3),(4)的说明。

3. Feature Flow阶段
在这一步中, 我们深入探讨了深度单应性估计的核心问题 ——在目标图像的两个正交方向上预测4个顶点所对应的8个运动参数. 基于这一认识, 我们认为, 如果我们能够从特征映射中捕获紧密关联的特征运动关系并将其用于单应性预测, 将会显著降低预测挑战性. 因此, 我们建议将相关量转化为特征流, 即通过捕捉不同层次之间紧密的特征求导关系实现高效预测.
特征流的每个元素值计算公式如下:

最终得到从参考特征到目标特征的特征流(




2),作为后续回归网络的输入。
该表对成本量与我们的CCL之间的复杂性进行了对比分析。相较于成本量而言,CCL通过排除大多数不匹配的位置来生成特征流的紧凑表示,并从而实现预测能力的显著提升。

C. 后向多网格变形
如图Fig.6,我们把从目标图像域到参考图像域的运动方向称为前向变形 。

然后,在目标图像上布置一个网格后进行处理时,并非简单地将单网格(1×1)的形变扩展至多网格(U×V)如图6(c)所示;而是需要对每个像素赋予不同的坐标值以实现这种形变效果。换句话说,在多网格形变过程中我们实际上需要确定被形变后的目标图像中每一个像素所属的原始网格区域;由于目标图像经形变后形成的各个区域具有不规则的形状,在基于深度学习实现时难以高效准确地建立各区域间的对应关系;因此如果继续沿用传统的正向形变方法则会严重降低算法运行效率
为了缓解这一问题我们引入了一种反向变形方案。具体而言如图6 (d)所示我们在被扭曲的目标图像上构建了一个规则网格框架随后通过预测算法确定了该网格在参考域到目标域之间的运动学变化。与传统的前向变形方法相比我们的方法在后向变形过程中所得的目标图像网格结构更为均匀从而使得我们可以轻松对每个被扭曲的目标像素分别赋予独特的射影变换矩阵并充分利用GPU进行并行计算以显著提升处理效率
D. 无监督训练
1. 内容对齐损失
具体内容如下:

2. 深度感知的形状保持损失
本文探讨了形变保真损失的概念。
我们重新审视了这种形变保真损失:理想的目标函数应仅作用于具有相同层次感的对象(即同一层次上的网格),而不是作用于不同层次的对象(即不同层次上的网格)。
为此目的,在本研究中我们设计了一种基于深度感知机制的新模型——该模型能够估计不同深度层次上的几何特征,并将这些特征归一化处理以减少形变带来的影响
深度感知形状保持损失的计算流程如图7所示。 首先,我们采用基于单目视图的预训练深度估计模型[36]来预测目标图像的深度信息。 然后,在我们的网络中估计得到的多网格单应性被应用到深度信息扭曲处理上。 得到变形后的深度图后计算该深度图中每个网格区域的平均深度值 。 接下来,在扭曲后的深度图像基础上划分出M个不同的层次(Dk, k = 1,2,…, M),这些区域之间的间距设置为均匀间隔** 。 深度层次结构如图7 (b)所示(白色区域表示处于同一深度位置)。

假设所有单元处于同一深度层次,则可以通过统一的单应性矩阵对其进行形变处理,并保证变形后的结构确保每条边均为直线段。在此基础上,在与之相邻且位于相同深度层的单元中,则要求各边界的朝向保持一致(如图7 (c)所示)。其中图7(c)展示了两个单元A和B之间的相似度计算:

上面这个公式只是考虑深度相同时的情况,当我们引入深度后,公式如下:

解释:
U*(V-1)和(U-1)*V来源如下:

3. 目标函数
同时考虑内容对齐项和形状保持项,我们可以得到网络的目标函数:

四.实验
不作总结.
五. 本文提出的有用文献
1.《基于内容的无监督深度同质估计》
2.《稳定的线性结构与接缝测量用于双视图图像拼接》
3.《基于残差变形的图像拼接以应对大视角挑战》
4.《利用线-点一致性以保持结构在宽视角图像拼接中的应用》
5.《多网格变形变换学习用于深度在线视频稳定化》
6.《适应性地实现自然效果图像拼接》
7.《基于鲁棒弹性的抗变形图像拼接技术》
《DeepMeshFlow: Content-adaptive mesh deformation technique for robust image registration method》
