Advertisement

论文阅读《DPS-Net: Deep Polarimetric Stereo Depth Estimation》

阅读量:

该论文提出了一种基于DPS-Net的方法来解决基于偏振立体图像的深度估计问题。该方法通过构建RGB与偏振匹配代价体来处理无纹理场景中的匹配难题,并引入等深度代价体来消除方位角和天顶角的固有歧义性。具体而言,DPS-Net通过多源特征与相关性代价体构建等深约束,并结合双GRU结构进行视差优化。实验结果表明该方法达到了SOTA水准,在复杂场景下表现出色。

论文链接:Tian\_DPS-Net\_Deep\_Polarimetric\_Stereo\_Depth\_Estimation\_ICCV\_2023\_paper.html


概述

该立体匹配模型在处理无纹理场景的匹配时表现出色。然而,在实际应用中面临诸多挑战:一方面现有方法通常基于物体表面光滑这一假设;另一方面光照条件受限也会影响其效果;此外这些方法还难以应对偏振图像中的固有歧义性问题例如方位角和天顶角的歧义性(即从偏振图像恢复表面法向量时由于反射类型与非线性方程的影响可能导致多个解从而导致法向量的方向不唯一)。为此文中提出了一种名为DPS-Net的新方法通过融合几何知识与偏振信息估计两幅偏振图像的空间深度并解决传统立体匹配中的固有问题。具体而言文中采用了基于先验知识构建RGB与偏振匹配代价体的方法分别提取RGB域与偏振域中的匹配特征针对立体匹配中的固有歧义问题文中引入了一种等深度代价体用于解决无纹理区域下的模糊匹配问题这种方法通过利用偏振信息与几何约束能够有效消除方位角歧义其原理在于利用等深度轮廓与其法向量方位角分量正交的特点并结合偏振图像中的偏振角与方位角差异构建了一个统一的成本函数同时考虑了漫反射与镜面反射的影响机制以提高估计精度。此外文中还设计了一种级联双GRU结构将极化的等深度约束与多域视觉相似度相结合通过递归优化视差图并有效融合多源特征从而进一步提升算法性能最终实验结果表明该方法达到了当前最优水平SOTA


背景知识

半自动超分辨率重建算法是一种基于深度学习的知识密集型模型构建方法。该算法能够有效解决传统深度学习模型在训练数据不足时出现的问题。半自动超分辨率重建算法是一种结合人工知识与机器学习相结合的知识密集型模型构建方法。
基于深度学习的知识密集型模型构建方法是一种利用深度学习技术进行知识密集型模型构建的方法。
该算法能够有效地从有限数量的知识点中提取关键特征并生成高质量的结果。
基于深度学习的知识密集型模型构建方法通常包括数据预处理、特征提取、模型训练以及结果生成等多个步骤。

其中ϕ_c代表偏振角,在物体表面中具有特定的空间分布特征;而ϕ则具体指代物体表面某一点处的偏振角参数;此外ρ值则量化了该点处物体表面的局部偏振特性;同样I代表该点处观察到的物面亮度;而I_{min}, I_{max}, \bar{I} = (I_{min}+I_{max})/2分别对应于不同测向条件下的极小值、极大值以及平均值;这些参数共同构成了物面亮度变化的基本特征指标;其中最大亮度和最小亮度是基于不同测向条件下的极值状态;而平均亮度则是对这两者取均值的结果;这种平均度反映了物面整体上的光亮程度特征;此外还需要明确的是:使图像达到最佳对比度所需要的最优测向角度即为该点处的最大对比度方向;这个概念与物面法线方向之间存在密切联系;通过测量这一最优方向即可推算出物面向量的具体取向信息;而所谓的"偏振度"则是衡量这种最大对比度大小的关键参数指标;
当光束从空气介质射入被测物体表面时会发生镜像反射现象:反射光线会在特定方向上发生振动性变化:其振动方向仅限于一个特定平面内进行传播:这种现象可以用特定的角度参数来进行描述:即所谓的"天顶角"θ和平面方位角φ等基本几何参数组合共同表征这一现象特性;
这些关键参数之间的相互关系可以通过一组复杂的物理方程组来进行精确建模:例如:

\begin{gathered} \rho_d=\frac{(\eta-1/\eta)^2\sin^2\theta}{2+2\eta^2-(\eta+1/\eta)^2\sin^2\theta+4\cosθ√{\eta^2-\sin^2θ}}, \\ φ_d=φ~或~φ_d=φ+π, \end{gathered}

这些方程组不仅能够准确描述各物理量间的相互依存关系:同时也为实验测量提供了理论指导框架;

基于η作为表面材料的折射率表示,在镜面反射现象中,则满足以下关系式:

\rho_s = 1. 两个分数, 分子为

复制代码
两个表达式,

分母则由另一个复杂的表达式组成。
而相位角φ_s则等于φ加减π/二。

基于上述方程中的方位角与天顶角参数进行计算分析后, 可以推导出表面法线的方向. 然而, 由于未知的入射条件以及方程组具有非线性特征, 使得方位角与天顶角均存在多值解, 这在光学遥感中被称为方向模糊性问题.

模型架构

在这里插入图片描述

如图1所示,整体模型分为4个主要步骤:首先从RGB和偏振立体图像中分别提取特征;然后利用RGB和偏振立体特征分别构建匹配代价体;接着基于偏振信息计算等深;最后将相关性代价体与等深代价输入到GRU单元中进行不断迭代更新视差图。

Multi Domain Feature and Correlation Volume 多源特征与相关性代价体

特征提取 :分别使用特征提取模块从RGB立体图像与偏振立体图像中提取维度为256的特征图。RGB图像特征在不同的光照条件下提供了更一致的上下文信息,而偏振图像特征可能受到噪声的干扰。RGB图像在不同的光照条件下提供了更一致的上下文信息,而极化图像可能受到噪声的干扰。因此,文中选择了RGB图像特征作为上下文特征的来源,以保证上下文信息的一致性。
相关性代价体 :参考RAFT构建相关代价体,在纹理缺失和特征稀疏的情况下,利用偏振信息作为RGB信息的补充,从而提高立体匹配的效果:

\begin{aligned}\mathbf{IC}_{ijk}&=\sum_h\mathbf{f}_{ijh}^I\cdot\mathbf{g}_{ikh}^I,\quad\mathbf{IC}\in\mathbb{R}^{H\times W\times W},\\ \mathbf{PC}_{ijk}&=\sum_h\mathbf{f}_{ijh}^P\cdot\mathbf{g}_{ikh}^P,\quad\mathbf{PC}\in\mathbb{R}^{H\times W\times W},\end{aligned}\tag{4}

其中,
\mathbf{IC}_{ijk} 表示 RGB 相关的 2 次多项式项系数矩阵,
\mathbf{PC}_{ijk} 是 偏振相关的 2 次多项式项系数矩阵。
将 RGB 和 偏振相关的两个 2 次多项式项系数矩阵分别进行下采样处理后得到 4 层 的多分辨率系数矩阵金字塔结构。

Iso-Depth Cost and Ambiguity Solver 等深代价与模糊匹配

法线的等深约束:等深度轮廓与其上的点处法向量方向上的分量相互垂直。通过计算深度梯度并以视差替代深度变化率来近似获得方位角:

\tan(\varphi)=\frac{f_y}{f_x}\frac{\left(\text{d}_{0,-1}-\text{d}_{0,1}\right)\left(\text{d}_{-1,0}+\text{d}_{1,0}\right)}{\left(\text{d}_{-1,0}-\text{d}_{1,0}\right)\left(\text{d}_{0,-1}+\text{d}_{0,1}\right)}, \tag{5}

其中 d_{i,j} 为像素点 P(u,v)的邻域像素P(u+i,v+j)f为焦距。

统一深度代价:如文中所述,在构建这一指标时,默认考虑了所有可能的极化状态特性,并通过一种新的方法实现了对方向角φ与线偏振角ϕ之间存在的π-混淆与π/2-混淆的有效消除。该方法的核心在于提出了一种新的深度代价函数C(φ),其通过最小化运算将镜面反射与漫反射条件下的方向角误差进行整合。对于该参数的具体求解过程,则可以通过以下方法确定:

其中,C_dC_s分别表示漫反射和镜面反射的代价。
虚拟视差和虚拟相关特征 :为了抑制偏振噪声引起的代价扰动,并充分利用偏振提供的等深度约束,文中根据等深度代价计算虚拟视差,并生成相应的虚拟相关特征。虚拟视差和虚拟相关特征可以用于优化GRU中的视差细化,优化GRU是双GRU架构的一部分。为了区分不同的视差,文中将在更新块中不断更新的视差称为实际视差d_a,把根据等深度代价的梯度和迭代更新的步长α计算的视差称为虚拟视差d_v。虚拟视差的计算公式如下:

d_v=d_a-\alpha\nabla_d\mathbf{C}(\varphi,d).\tag{7}

Hybrid GRU-based Update Operator 混合GRU更新单元

文中使用混合GRU单元来挖掘多源信息并更新视差图。如图2所示:

在这里插入图片描述

首先, 多源上下文信息与集合信息被整合到更新块中进行融合, 并提取出多源相似性视觉特征 。随后, 将真实与虚拟视觉相关特征输入双GRU单元循环优化进行处理 。此外, 等深度代价作为输入信号, 并结合虚拟相关特征以一种间接的方式参与运算 。为了实现上述目标, 文章提出了一种混合优化策略, 避免传统优化过程中的两个主要挑战: 显式转换匹配问题以及非凸优化难题 。为了防止模型陷入局部最优并抑制噪声影响, 在混合优化GRU中采用了不同的策略 。此外, 级联方案平衡了视觉相似性和几何约束关系 , 在不同迭代阶段逐步细化视差细节

多源输入 :利用多源信息构建GRU模型的输入特征。在级联式双GRU架构中存在两个不同的输入分支。回归支路(Regr-Stream)采用的是实际视差相关的多源特征,在此过程中融合了RGB和偏振图像之间的相似度信息作为初始预测依据。优化支路(Optim-Stream)则基于虚拟视差相关的多源特征,并通过深度等深度代价的方法来指导后续优化过程。在将这些多源相关特征传递给GRU之前,我们采用了双层卷积模块分别对各域数据进行了特征提取处理,并对提取后的特征进行了独立编码运算。最终将编码后的各域特征以及辅助编码器输出特征进行拼接后作为当前时间步GRU单元的输入信号。
更新 :该模块的主要功能是用来循环更新视差估计和代价步长参数的空间操作网络。其中包含两个门控循环单元(Gated Recurrent Unit),分别是回归支路(Regr-Stream)和优化支路(Optim-Stream)。每个支路均具备一个隐状态节点,在每次时间步都会根据经过压缩编码后的混合特征不断更新其隐状态信息。通过引入专门的设计架构,在隐状态节点中能够解码出对应的视差增量以及优化步长参数值,并在此基础上生成新的视差估计结果并结合上采样技术恢复全分辨率的空间分布。


损失函数

\mathbf{L}=\sum_{i=1}^N\gamma^{N-i}\left\|d_{gt}-d_i\right\|_1.\tag{8}


实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
a
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~