Advertisement

【CVPR‘24】深度补全:Flexible Depth Completion for Sparse and Varying Point Densities

阅读量:

CVPR'24

CVPR'24

CVPR'24

摘要是对论文主要内容的简洁概述。
引言旨在阐述研究背景及其重要性。
方法主要包含以下内容:
3.1 基本深度估计架构:该架构基于多层感知机构建了高效的特征提取网络。
3.2 基于亲和性相关的偏差校正:通过引入亲和性相关项对模型偏差进行了有效修正。
3.3 置信度预测的校准:采用交叉熵损失函数对分类置信度进行了精确校准。
3.4 深度估计与结果整合:通过融合多源感知信息实现了深度估计与结果的有效整合。
3.5 损失函数设计:提出了一个包含多个损失项的新损失函数设计方案以优化模型性能。

复制代码
* 4\. 实验
* * 4.1 数据集和评估指标
  * 4.2 实验概述
  * 4.3 消融研究
  • 参考文献

摘要

近年来,在KITTI数据集上的64线LiDAR或NYUv2上采样的500个点等相对密集的深度图上,深度补全方法已展现显著的效果。然而,在处理极其稀疏输入(如4线LiDAR或仅32个深度测量值)的情况下其性能尚待充分评估。这些更加稀疏的情境则带来了新的挑战——与64线LiDAR相比,在这种情况下没有深度像素与其最近的深度点之间的距离增加了六倍(从5个像素增至30个像素)。经过观察发现现有技术在处理稀疏且分布不均的深度图时效果欠佳。为此我们提出了一种基于亲和度感知偏移校正模块(ASC),该模块通过预测图像像素与其潜在深度点间的亲和度关系实现了迭代对齐过程从而实现了对输入深度信息的有效融合与优化。通过这种方式我们的框架能够使单个深度点对整个预测图像产生适应性影响进而能够在仅利用少量线及少量点的情况下获得明显的性能提升。此外我们还展示了该模块在跨域迁移中的有效性——从KITTI到nuScenes以及从均匀采样到非规则分布采样均能实现性能提升。此外我们的校正模块设计简洁易于集成到现有的任何深度补全模型中特别适用于仅依赖RGB图像进行深度估计的任务

1. 引言

最近的研究主要基于 KITTI 数据集上的进展,在将 64 线 LiDAR 数据投影至 RGB 图像的同时或结合 NYUv2 数据集中随机采样 500 个深度点的方法进行密集化处理。尽管这些方法在密集输入场景中展现出色性能,在由经济型 LiDAR 和稀疏有效点(约占 0.04%像素)从结构光或 SfM 流程生成的稀疏深度图方面仍需进一步验证。为了适应各种传感器配置和应用场景的需求,模型还需要对其性能在更为极端的稀疏分布和分布外区域进行评估。

在这里插入图片描述

这些稀疏场景带来了新的难题。如图1所示,在使用64线LiDAR投影时,默认情况下图像像素与输入深度之间的平均距离不超过5个像素;而当采用价格更为低廉的LiDAR传感器时,这一数值显著提升至原来的六番水平。通过对比实验结果表明,在图2中随着这些像素距离的增大,深度预测误差呈现出明显上升趋势。尽管在这种稀疏设置下性能下降是可以预期的现象[1],但基于密集输入优化的方法在面对稀疏输入时往往表现出色不足。为了使深度补全模型能够在实际部署中展现出更强鲁棒性和广泛的适用性,在各种输入条件下均需达到理想性能要求。

在这里插入图片描述

在此背景下,在现有方法中核心的卷积处理深度点的方式就无法适应输入所呈现出来的可变稀疏性以及分布特征 [16, 25, 36, 47]。对于那些像素到点距离较大的稀疏性较强的深度图而言,在这种情况下每个这样的点都需要对整个图像或其局部区域进行深入细致的大范围甚至全局范围内的深度预测工作。具体而言,在这种情况下根据输入各depth point的位置布局以及它们在不同图像位置上的特征相似程度自适应地优化各自的影响力范围。基于此我们提出了一种创新性的depth completion框架通过利用预测出的目标位置与各个depth point之间的亲和性关系来进行迭代式的depth prediction提升工作。为此我们设计了一个基于亲和度偏差校正机制(ASC module)来识别并定位出具有较大depth error的相关区域并将这些区域内的depth prediction结果与原始input depth points进行精确对齐操作。随后通过引入置信度加权策略我们可以显著地提升了该框架在depth completion方面的性能表现

3. 方法

在这里插入图片描述

3.1 基础深度估计架构

我们的基于亲合性偏差校正(ASC)模块能够广泛应用于所有具备编码器与解码器架构的深度估计技术。在设计过程中特别注意输入模态对编码器的影响。主流的深度补全技术一般需要将RGB图像与稀疏深度图同时输入至编码器[16, 25, 33, 36, 65]这一参考文献范围内的研究工作都是基于这种假设作为其主要信息来源。然而我们模块采用解码器阶段融合深度的方式使模型即便仅将RGB图像输入至编码器也能完成预期任务我们发现对于密集型输入以及匹配训练测试分布的数据集RGBD联合信息比单独的RGB信息表现更为优异但在处理未见过的新稀疏分布数据时单独使用RGB信息则能获得更好的效果在此研究中我们将ASC模块应用于一种基础性的深度补全框架无论是不采用NLSPN[36]还是采用BTS[24]与AdaBins[2]两种具有代表性的单目深度估计架构(如图3.4所示)。

3.2 基于亲和度的偏移校正

对于解码器阶段的特征图而言,在AS C模块(如图3所示)中实现了根据输入点位置动态传播深度信息的能力。在单个解码器阶段中,请考虑以下定义:设F表示形状为H'\times W'\times C的空间特征图张量;设P = \{(p_j, d_j)\}_{j=1}^{N}表示所有输入深度点的位置及其对应的深度值列表;其中p_j\in R^{2}表示第j个输入点在二维空间中的位置坐标d_j\in R^{1}表示第j个输入点在三维空间中的深度值。随后通过多层前馈网络从当前特征图中推断出一个初始深度估计结果\hat{D}_{\text{initial}} = f_{\text{mlp}}(F) \in R^{H'\times W'\times 1}。在此基础上我们的模块将预测结果与输入深度点的位置对应起来,并将其整合回原始特征图中以便为后续解码器阶段提供必要的辅助信息

计算亲和度。假设我们将橱柜表面上的一个深度测量值作为输入。为了使我们的初始深度估计 D_{\text{initial}} 对齐于输入的深度测量值,请注意以下几点:首先,并非仅通过对单个像素级别的调整就能实现精确配准。相反地,在分析该关键点处的空间布局时(即与其相关的区域内的三维结构),我们需要考虑其在整个空间中的位置关系,并结合多级解码过程中的反馈机制来进行优化与调整。

3.3 校正置信度预测

尽管该模块为每个样本提供的初始预测提供了自适应纠正的可能性(ASR),但我们发现经研究发现,在样本_ depth_ 数量不足的情况下(即输入的_depth_ 数量不足五个),基于周围环境信息校正后的结果有时会比未校正的结果表现较差)。原因有二:其一,在此情况下(即样本_depth_ 较少时),由于每个像素缺乏足够的参考信息而难以获得准确校正;其二,则是存在一些关键区域无法显著提升整体_ depth_ 预测效果(例如,在橱柜顶部设置一个监测点可能有助于提升橱柜区域的预测精度)。

根据这些观察结果(如图3(d)所示),我们将初始深度预测与校正后的深度预测进行结合使用,并仅从每个深度图中选择最优结果进行融合。详细来说,在解码器特征层中被整合的是

D_{\text{fuse}}等于符号表示为(1− \alpha_{\text{fuse}})D_{\text{initial\_state}}的点乘加上\alpha_{\text{fuse}}D_{\text{offset}}的点乘结果

The \omega value for the fuse operation is obtained by mapping the output of \phi_\theta through the \sigma function.

其中

在这里插入图片描述

3.4 联合深度估计与完成

如3.1节所述,ASC模块支持使用RGB输入编码器进行深度补全.因此,我们的方法很容易应用于单目深度估计模型,使其能够根据深度点的可用情况来决定任务的执行.我们通过在估计阶段和完成任务阶段进行采样,并在专门进行深度估计的任务中避开ASC模块来训练这个统一模型.最终模型在两个任务上均表现出良好的性能.

3.5 损失

该流程生成了九个深度图——包含四个初始预测模块 D_{\text{initial}}、四个融合预测模块 D_{\text{fuse}} 以及一个最终预测模块 D_{\text{final}}。总损失值为

\mathcal{L} is defined as the sum of the final step loss and a weighted summation of the initial stage loss and fused terms across four distinct components.

在其中,\mathcal{L}_{\text{final}} 具体而言表示针对 D_{\text{final}} 的深度损失,并通过 \alpha_i 对各个尺度的深度损失之间进行加权平衡。

4. 实验

在这里插入图片描述

4.1 数据集和评估指标

遵循相关研究 [5, 34, 36, 47, 59] 的数据集设计。关于详细的数据集信息,请参见补充材料中的第 B 节。

KITTI

NYUv2 :按照深度图上遵循特定数量输入点的策略,在实际应用中,默认情况下我们会选择 2、8、32、200 和 500 这几个数值来进行采样操作。为了更好地模拟真实场景中的点分布情况,同时采用 SIFT 关键点作为基准进行测试,并且这些关键点通常集中在图像的角落区域附近。

VOID :我们使用官方的由基于 EKF 的 VIO SLAM 系统跟踪的 150、500 和 1500 个深度点。

评估 :在主文中,我们主要关注定量结果。广泛的可视化和定性分析在补充材料中进行。与之前的工作 [16, 20, 36, 59] 一样,对于 KITTI 和 VOID,我们报告 RMSE↓ 和 MAE↓(单位为毫米),对于 NYUv2,我们报告 RMSE↓(单位为米)、REL↓ 和 δ1.25↑。

在这里插入图片描述
在这里插入图片描述

4.2 实验概述

我们在一系列真实世界的设置下进行了广泛的基准测试:

  • 在本节中的第4.3部分中,本节的研究团队展开了对主要组成元素的消融性测试.
  • 分别在本节中的第4.4和第4.5部分中,在KITTI和NYUv2公开数据集上展开评估这两个数据集上的性能表现.

值得注意的是,在本研究中我们主要探讨了两种不同的设置方案:一种是固定稀疏性配置方案(Fixed Sparsity Setting),另一种是可变稀疏性配置方案(Variable Sparsity Setting)。对于固定稀疏性配置方案而言,在每个输入深度分布下分别进行了单独的训练与评估工作;而针对可变稀疏性的配置方案,则是在每个训练迭代期间随机从KITTI数据集中的线数量或NYUv2数据集中的点数量中进行采样,并将这些不同配置方案整合到同一个统一的模型架构中进行联合优化。通过将多个不同的输入分布用于统一的模型评估,在实际部署环境中模拟了深度稀疏性的动态变化情况。

  • 在第4.6节中, 我们对真实世界室内分布进行了评估, 包括NYUv2数据集上的SIFT特征点以及VOID数据集上的SLAM跟踪点. 实验结果表明, 在VOID数据集上, 提出的方法相比传统训练方案展现出更强的鲁棒性.
  • 在第4.7节中, 我们聚焦于未曾见过的新奇稀疏场景与模式. 具体而言: 第一, 我们的模型在面对输入分布变化时更具稳定性; 第二, 采用"可变"稀疏性作为训练方案是简单直接的方法, 并且生成的模型能够实现良好的迁移性能.
  • 在第4.8节中, 我们将ASC模块整合到多种基于仅RGB通道深度估计器的设计框架中, 实现了一体化估计与应用融合; 同时通过实验验证了该方法在变扫描线场景下的有效性.

实现细节 :为了保证实验的公平性与可比性,在实验阶段我们采用了更为细致的方法来重新训练所有模型参数,并根据具体情况选择了更适合稀疏度较高的数据进行训练。而非采用固定使用的64线或500点的标准检查点机制。鉴于KITTI数据集具有较大的规模特征,在时间采样基础上进行了6倍帧率的数据处理与训练工作。对于判别器中的初始模块(D_{\text{initial}}),我们采用了部分尺度不变损失函数策略 [13]。对于融合模块(D_{\text{fuse}})与最终判别器(D_{\text{final}}),NYUv2模型主要采用ℓ₁损失函数策略 [13];而同时针对KITTI数据集,则综合运用ℓ₁与ℓ₂两种损失函数策略 [36]的具体实施方式可参考补充材料中的第C节内容进行深入探讨

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.3 消融研究

首先, 我们对基于亲和度偏移校正模块设计方案进行了验证. 以评估该模块在传播深度信息方面的有效性为目标, 前两轮消融试验采用了EfficientNetB5[46]为主干构建了RGB输入编码器-解码器结构作为基础模型. 在可变稀疏性设置下进行模型训练, 并基于REL↓进行性能评估. 完整的结果展示包括所有关键指标与可视化分析, 请参见补充材料中的第D.1节.

本研究采用了多种亲和度指标:在本研究提出的新模型架构中(...),根据方程 2 计算得到的亲合度参数分别对特征向量与深度估计误差进行加权求和运算以实现校正(...)。通过逐层消融实验验证各组件的重要性,并对比仅采用深度信息直接加权的情况(...)。首先不整合置信度信息仅基于原始特征向量构建初步预测结果;随后采用L1范数与L2范数结合(\ell_1+\ell_2)作为监督信号指导后续优化过程。(如表1所示的结果验证了该方法的有效性)

在这里插入图片描述

参考文献

在这里插入图片描述
在这里插入图片描述
参考

全部评论 (0)

还没有任何评论哟~