Advertisement

【CVPR‘24】ProxyTTA:域自适应深度补全,Test-Time Adaptation for Depth Completion

阅读量:

【CVPR'24】域自适应深度补全:Test-Time Adaptation for Depth Completion

  • 摘要

  • 本研究提出了一种 novel 的特征提取方法,在实验中取得了显著的效果。

  • 引言

  • 本文旨在介绍本研究的目的和意义。

  • 相关工作

  • 研究现状综上所述,当前领域内的相关研究成果主要聚焦于数据分布不匹配问题的解决策略。

  • 方法

  • 针对不同数据模态之间的敏感性分析问题,在本节中我们进行了深入探讨。

  • 其中,在3.1节中详细阐述了针对不同数据模态之间的敏感性分析的具体步骤。

  • 在3.2节中讨论了源域数据准备阶段涉及的一系列关键步骤。

  • 最后,在3.3节中介绍了代理映射系统的部署至目标域则需要考虑多方面的因素。

    • 4. 实验
    • 5. 讨论

摘要

深度补全主要基于多传感器设置,在稀疏深度图中恢复密集深度图。尽管近年来取得了显著进展,
现有方法仍受跨域适应性问题影响,
例如从虚拟场景向真实环境迁移时的表现差异。
本文提出了一种名为ProxyTTA的新方法,
这是一种代理嵌入驱动的测试时自适应方案。
该方法通过将稀疏深度特征作为源域与目标域之间的桥梁,
有效应对目标域中RGB图像带来的跨域适应性挑战。
具体而言,
ProxyTTA通过代理嵌入学习在源域内捕获物体潜在几何与光度特征,
这些特征能够实现跨域传递。
实验结果表明,
ProxyTTA在多个真实世界数据集和合成数据集上均表现优异,
超越了现有的测试时自适应基准方法。

1. 引言

深度补全是一项极具挑战性的任务,其核心在于结合RGB图像与稀疏深度图的数据特性,推断出密集深度图.此任务对自动驾驶技术、机器人导航系统以及增强现实应用领域的发展具有重要意义.近年来,基于深度学习的方法已在该领域取得长足的进步.然而,现有方法往往仅能在合成环境等源域内实现良好效果,而将其部署到实际应用中的目标域时往往难以达到预期效果.具体而言,这种跨域迁移往往会导致模型性能的重大损失,因为RGB图像与深度图在源域与目标域之间存在明显的分布差异.

传统的深度补全方法中将深度与RGB图像进行融合被视为提升精度的核心。然而,研究表明,在测试阶段模型对不同模态的敏感性因领域转移而表现出显著差异。就具体而言,基于稀疏深度模态的表现通常显示出更高的稳定性,相较于基于RGB图像模态更具抗干扰能力。这一发现促使我们提出了一种新的基于目标域适配性的测试阶段自适应方法,即ProxyTTA,它巧妙地将稀疏深度特征作为连接手段,有效解决目标域中RGB图像带来的领域转移问题。

ProxyTTA借助一个代理嵌入模块得以实现;该方法识别并建立了源域稀疏深度与RGB图像特征之间的联系;接着,在测试阶段利用这种方法对目标域的RGB特征进行调整以使其与源Domain分布相匹配;从而显著提升了模型在目标Domain上的性能表现;结果显示ProxyTTA 在多个数据集中均展现了显著性能提升,并且超越现有的在线自适应测试方案;这些发现验证了我们方法在解决跨Domain迁移挑战方面的有效性,并凸显其潜在的实际应用价值。

2. 相关工作

3. 方法

在这里插入图片描述

为了简化使用过程,在本研究中我们基于一个预训练好的深度补全模型f_\theta进行研究工作。该模型能够通过校正后的RGB图像I\in\mathbb{R}^{H\times W\times 3}及其在图像平面上对应的低密度深度图z\in\mathbb{R}_{+}^{H\times W}来生成一个高密度深度图\hat{d}\in\mathbb{R}_{+}^{H\times W}。其中,在函数f_\theta的作用下有f_\theta(I,z)\rightarrow\hat{d}成立

为了简化说明问题,在本研究中假设该模型旨在通过基于源数据集 D_s = \{I_s^{(n)}, z_s^{(n)}, d^{(n)}\}_{n=1}^{N_s} 的监督学习来优化其性能参数。具体而言,在这一过程中, 模型将最小化预测输出与真实值 d \in \mathbb{R}^{H \times W}_{+} 之间的supervisory loss。值得注意的是, 在部署阶段前遵循测试时自适应(TTA)的常规做法, 则可以在实际应用中提前访问源域的数据样本以提升模型鲁棒性

在自适应测试过程中, 我们按照文献 [22, 38] 中所述的规定, 即我们的系统仅能接入目标域的数据集 D_t = \{I_t^{(n)}, z_t^{(n)}\}_{n=1}^{N_t}, 并通过在线学习机制动态调整模型参数以适应新增的目标域样本数量. 需要指出的是, 我们并未对测试环境做出任何假设; 尽管我们在受控实验中验证了监督学习框架的有效性, 但该方法也适用于完全无监督的学习场景.

我们的方法 ProxyTTA 分为三个阶段(图 3):

初始化阶段:为了实现模型的有效性,在初始化阶段,在预训练编码器的基础上增加了自适应层,并基于源域数据进行了相应的训练过程。
准备阶段:在准备过程中,在建立了一种从稀疏深度特征到图像以及对应的稀疏深度(作为代理)嵌入之间的映射关系。
测试阶段:在测试环节中,在不依赖源数据集的情况下需要完成以下操作:首先冻结该映射关系;其次利用该映射所生成的代理嵌入来更新目标领域中的自适应层参数。

在这里插入图片描述

3.1 数据模态敏感性研究

为增强该方法的效果,在探究其敏感性基础之上首次开展相关研究。在此基础上,我们通过引入零矩阵处理对原始输入进行干扰实验,并系统评估其影响效果。具体而言,在原始输入I或z的基础上分别施加零矩阵处理后得到(I, z)、(I₀, z)和(I, z₀),其中I₀和z₀代表与原输入相同维度的零矩阵。随后我们对预训练模型进行了多维度性能评估以明确各输入模态对模型行为的影响机制,并在某输入模态无法提供有效信息时评估模型的敏感度。实验结果表明,在源数据集Ds和目标数据集Dt的不同输入条件下预训练深度补全网络表现出显著的适应性特征(如图1所示),具体表现形式包括定性和定量分析结果(如图2所示)。

在源域中,在输入进行推理时同时采用了图像与稀疏深度。这种情况下表现出了最佳性能。值得注意的是,在仅有稀疏深度参与的推断(完全不依赖图像)\hat{d}_s(I_0, z)下所得的结果与其相比相当。这一发现提示了我们方法的第一个直觉:即使深度信息较为稀缺,也能维持场景重建的有效性。此外,在完全不依赖深度信息的情况下(即仅有图像参与)\hat{d}_s(I, z_0)所得到的结果明显不如前两种情况下的表现。这一现象凸显出在推理过程中对稀疏深度模态的高度依赖性,并且利用图像信息主要聚焦于细节部分的恢复。

在目标测试域中基于共变量转移原则当采用图像与稀疏深度结合进行推理时系统性能预计会出现下降趋势值得注意的是我们发现仅依靠稀疏深度\hat{d}_t(I_0,z)所生成的预测结果其性能表现与同时融合两个输入特征\hat{d}_t(I,z)所得结果相当然而经过深入比较实验我们发现\hat{d}_t(I_0,z)在绝大多数场景下展现出超越\hat{d}_t(I,z)的优势即在测试域中完全不依赖于图像信息的情况下推理效果较之带入图像信息的情况更为出色这一发现进一步支持了以下见解:(ii)领域转移对图像模态的影响更为显著而在深度方面的变化相对较小

基于这两个直觉的启发性思考,在研究过程中逐渐形成了这一方法论框架。考虑到物体形状在不同域之间通常表现出高度一致性,并且测量所得的稀疏点通常仅能提供粗略的信息,在这一前提下我们假设并试图利用这些特性来进行跨模态信息整合与重建工作。我们的目标则是通过利用深度补全网络能够从有限(粗略)的采样点重建出完整的三维结构,并结合多源感知信息来提升跨模态对齐性能。在此基础上我们提出了一种新的特征映射机制:即通过学习将编码来自稀疏深度信息的独特特征映射到源域中编码了两种模态的信息,并在此过程中实现了对目标域感知空间的有效引导与优化指导作用。为了实现高效的模型更新策略,在适应层的设计上采用了模块化策略以确保计算开销可控的同时不影响整体模型性能表现

基于我们对适应层功能的理解,在视觉编码架构中发现该技术模块具有显著优势

在这里插入图片描述

图 3. 概述。(a)在预训练过程中,在编码器中集成并行地对适应层进行联合优化;(b)构建阶段旨在学习一种代理映射机制,能够将稀疏深度特征与输入特征同步编码;(c)在迁移适配阶段,则通过部署模型至目标域环境,并结合代理嵌入信息动态调整模型参数。

3.2 准备阶段 - 源域

初始化该适应层以使模型能够更好地应对源域特性。由于整个网络无法在测试阶段自适应场景的变化特性,则需采取特殊设计策略。为了提升效率和性能,在预训练网络的编码器中加入一个自适应模块 m_{\phi}(即一个卷积神经元)。值得注意的是,在我们的方法中各阶段均采用冻结策略处理相关组件;具体而言,则是指除了自适应模块和代理映射外的所有组件都将被冻结处理;而这两者则将在模型准备阶段基于源域数据进行初始配置工作;随后将代理映射也加入到冻结处理流程之中,并用于指导自适应模块完成目标域的任务学习任务。为了简化整个自适应过程,在模型训练初期仅通过最小化源数据集上的监督损失来进行参数优化(如图 3-(a)所示)。最后我们将预训练编码器与该自适配模块结合表示为整体架构中的关键组件 e_{\phi}

基于源域的代理映射学习。如图1所示,在源领域中最佳结果是通过同时输入图像与稀疏深度模态进行推理而实现的最佳效果。然而,在模型转移到未曾见过的新测试领域时易受Domain Shift影响而导致性能下降。相比之下,在应对Domain Shift时具有更强灵活性的是稀疏深度而非RGB图像——无论是在合成领域还是现实领域中都能保持物体形状的一致性。为此我们提出的方法主要基于对Domain Shift不敏感的稀疏深度模态,并在此特性下实现下游适应过程中的作用发挥。为此我们采用了软映射机制[13]从编码的稀疏深度特征推导出对应的稀疏深度与图像特征以学习自同步采样的三维场景光度信息获取方法。具体而言该方法旨在建立一种将稀疏深度特征投射至与图像编码器分支相匹配的目标嵌入空间的方式即所谓的"代理"嵌入映射关系。换句话说该方法能够预测出与输入稀疏深度信息兼容性较高的残差图像特征从而填补传统编码器分支中因缺乏三维点云捕获而产生的缺项——即三维场景细节信息。值得注意的是由于该方法是在源领域内进行训练得到的结果因此所建立起来的目标嵌入空间可以直接用于后续引导Adaptive层m_{\phi}将测试领域中的RGB特征转换为与源领域相似的表现形式。

这种基于多层感知机(MLP)实现的映射能够用符号形式表示为三个函数:g_{\psi}(\cdot)g_{\psi}'(\cdot)h_{\omega}(\cdot);这些函数需要通过训练过程来确定参数值;在此过程中,我们需要使用两个嵌入向量 p_{\text{s}}q_{\text{s}} 作为输入数据进行学习。

s_* 等于 h_ω(g_ψ(\text{StopGrad}(e_φ(I₀, z_*)))), 而 q_* 等于 \text{StopGrad}(g'_ψ(e_φ(I_, z_*)))

其中符号e_\phi代表基于源数据集训练而成的集成适应层编码器;符号I_s, z_s分别代表源域图像与对应的稀疏深度;而I_0则表示无图像的情况。嵌入模块组由两个子网络组成:一个由参数\psi\$控制的嵌入模块gψ和一个由参数ω控制的嵌入模块hω;这两个子网络通过最大化p_s$$q_s之间相似度来进行更新操作。为了优化这两个嵌入模块的学习效果,则需要最小化相应的损失函数值。\n

\ell_{\text{prepare}} = 1− \left( \frac{p_{\text{s}}}{\|p_{\text{s}}\|} \cdot \frac{q_{\text{s}}}{\|q_{\text{s}}\|} \right)

其中范数 ||·|| 为 L2 范式,并定义 (a ⋅ b) 表示向量 a 与 b 的点积运算。为此目标,我们旨在通过最小化方程(2)对 MLP 头部参数组 g_{\psi}h_{\omega} 进行优化训练。值得注意的是,在本研究中所使用的 MLP 头部参数组 g'_\psi 的更新机制基于 BYOL [13] 中的 Exponential Moving Average 方法以防止模型过拟合:即更新公式为 g'_\psi = \tau \cdot g'_\psi + (1 - \tau) \cdot g_\psi

当我们训练映射时

3.3 将代理映射部署到目标域

适应阶段旨在通过最小化目标测试域数据 \{I_t, z_t\} \in D_t 上的测试时损失函数来更新适应层参数。为此,我们整合了学习所得的代理映射模块(MLP 头部)g^*_{\psi}(\cdot)h^*_{\phi}(\cdot) 以及被冻结的编码器中的适应层 m_{\phi},并将其表示为 e_{\phi}

适应损失 。为了适应,我们的损失由三个损失项的线性组合组成:

其中\mathcal{L}_{\text{l Adaptation Loss}表示自适应损失函数的线性组合

其中变量 \ell_z\ell_{\text{sm}} 分别对应于稀疏深度一致性损失与局部平滑性损失的各自代表,并通过权重参数 w 赋予各损失项不同的重要程度;同时引入辅助映射的一致性损失 \ell_{\text{proxy}} 作为额外的约束条件以优化整体模型性能

稀疏深度的一致性特性在三维空间中被用来描述物体的基本几何特征。

\ell_z = \frac{1}{|\Omega(z_t)|} \sum_{x \in \Omega(z_t)} |\hat{d}_t(x) - z_t(x)|

其中 x \in \Omega(z_t) 是稀疏点投射到图像平面上的像素位置。

局部平滑性 。在三维场景中假设局部平滑性和连通性作为基础前提下,在预测深度图\hat{d}_t上施加了相同类型的约束条件。具体而言,在x和y两个方向上的梯度(即\partial_X\partial_Y)上实施了L1惩罚机制以减少计算复杂度并提升估计精度。为了平衡每个方向上的权重分配情况,在计算过程中引入了λ_X与λ_Y这两个参数,并根据图像梯度的变化程度设定各自的权重值:其中λ_X(x)被定义为指数函数形式e^{-|∂_X I_t(x)|};同样地λ_Y(x)=e^{-|∂_Y I_t(x)|};此外还引入了一个Ω符号来表示整个图像的空间域范围

该模型采用最小化策略计算损失函数\ell_{\text{sm}}。具体而言,在样本集\Omega上进行平均处理,并将损失分为两个部分分别对应于X和Y变量域的变化程度。每个部分通过加权梯度模长的方式进行衡量,并对权重函数\lambda_X\lambda_Y进行线性组合以获得总损失值

代理一致性是指通过从上一阶段学习的映射正则化来实现适应。为了通过从上一阶段学习的映射正则化来实现适应, 我们固定了MLP头部\{g^*_{ψ}(·),h^*_{ω}(·)\}的权重参数,并对适应层m_ϕ进行了参数调整。首先, 我们利用无图像I_0以及目标测试域图像I_t获取特征p_tq_t:

KaTeX parse error: Double superscript at position 104: …}} = g^*{\psi}'̲(e{\phi}(I_t, …

为了提升基于代理损失函数 \ell_{\text{proxy}} 的优化效果,我们旨在优化特征间的余弦相似性,并通过这一目标来实现对适应层 m_{\phi} 的更新。

\ell_{\text{proxy}} = 1 - \left(\frac{p_{\text{t}}}{\|p_{\text{t}}\|} \cdot \frac{q_{\text{t}}}{\|q_{\text{t}}\|}\right)

4. 实验

在多样化的真实与合成数据集上进行过有效性验证,并分别涵盖了室内 SLAM/VIO 场景(VOID[45]、NYUv2[26]、SceneNet[25] 和 ScanNet[7])以及依赖激光雷达传感器的室外驾驶场景(KITTI[39], Virtual KITTI(VKITTI)[11], nuScenes[1], 和 Waymo Open Dataset[36]). 本研究选用了当前深度补全领域中的三种具有代表性的架构来进行测试:MSG-CHN20, NLSPN[27](基于 SPN), 和 CostDCNet18. 通过补充材料详细描述了实现细节, 包括超参数设置, 硬件要求, 评估指标以及其他实验结果.

在这里插入图片描述

采用两个来源数据集(VOID用于室内环境,KITTI用于户外场景)中的预训练模型(MSG-CHN、NLSPN 和 CostDCNet)。针对室内的应用,则将这些预训练模型迁移至NYUv2、SceneNet和ScanNet;而对于户外场景,则将这些预训练模型迁移至VKITTI(带雾)、nuScenes 和 Waymo。BN Adapt 具体指更新批处理统计量(即运行均值和方差)。CoTTA 则通过L1一致性损失替代代理损失,并非基于预训练模型的预测结果[43]。ProxyTTA-fast 则代表了一种无批处理更新方法,在测试中发现其适应时间较之前方法提升了约25.32%。

与基线及 BN Adapt 的变体相比(如表 1所示),我们的方法表现出显著的优势。具体而言,在室内场景中提升了约11.60%,室外场景中则提高了约19.73%,整体提升幅度为15.67%,从而实现了最先进的性能水平。从定性角度来看(如图4和图5所示),我们的方法在边界区域和均质区域显示出更优的表现。这种趋势主要归因于代理损失与适应层的作用机制:通过最小化权重调整的情况下保留从源域学习到的高级特征(物体形状),使得该方法能够在目标 RGB 模态与源域之间实现更好的映射关系。值得注意的是,在仅适应于适应层的情况下(如ProxyTTA-fast算法实现),仍能超越BN Adapt策略这一现象表明了我们设计选择的有效性。此外,在补充材料图1中展示了通过t-SNE [40]对源、目标域图像以及稀疏深度特征进行可视化分析的结果,并观察到生成的代理嵌入特征与源域特征具有较高的相似度

比较 BN 适应与 CoTTA 。为了评估我们适应层的作用效果,在实验中我们与 TENT [42] 的批处理归一化(BN)适应进行了系统对比研究。在 BN 适配过程中,默认情况下我们仅基于损失函数更新相关参数配置(即缩放器与偏移量)。实验数据显示,在测试集上该方法较传统 BN 适配方案提升了 32.77%的性能水平;而采用我们的自定义自监督学习框架(ProxyTTA-fast)进行自监督学习后,则进一步优化了模型性能表现(表 1)。从实验结果可以看出,在相同条件下我们的方法相较于传统 BN 适配方案的应用效果更高。

尽管如此,在采用批处理归一化更新策略后,则带来了最佳的性能提升(提升了预训练模型性能约44.53%),然而这一改进带来的代价是额外消耗了大约33.2%的时间成本。研究表明ProxyTTA在BN参数适配方面的改进表明:仅针对BN参数(如缩放因子和偏置项)的方法难以有效缓解大领域分布差异的问题;而ProxyTTA则通过引入代理嵌入空间来指导自适应层的更新机制,并有效优化RGB特征提取过程

我们采用了与 CoTTA [43] 进行了系统对比的方法,并对教师模型的预测进行了指数移动平均值更新以适应预训练权重。在此基础上结合了额外的损失 \ell_z, \ell_{\text{sm}} 以克服单靠 CoTTA 模型无法适应的问题。具体而言,在对比实验中发现,在无代理的情况下我们的方法较之 CoTTA 方法实现了25.26%的性能提升。CoTTA 更新机制涵盖了 RGB 和稀疏深度分支在内的所有模型参数这导致了参数漂移现象的发生。而我们则仅在 RGB 分支中进行了附加层更新这一策略基于第 3.1 节中所提出的最具域差异性的 RGB 模态研究以避免模型在学习过程中发生域漂移问题。此外在测试阶段增强 RGB 图像处理的能力虽然有助于缓解域转移问题但这种增强带来的小分布差异却难以有效应对较大的域差异情况

此外,在批处理归一化层更新方面实现了 26.52% 的平均提升幅度;同时相较于现有技术减少了约25.05%的适应时间。需要注意的是,尽管 CoTTA 方法依赖于教师模型在训练阶段占用额外内存资源,并且在推理阶段还需依赖推理阶段获取教师模型的预测结果;但整体而言,在平均提升幅度上超越了 BN 方法以及 CoTTA 方法的基础上提升了约 21.09%

在这里插入图片描述

5. 讨论

我们开发了一种在测试阶段自适应的深度补全方法,在多传感器协同工作的背景下进行了设计与优化。该方法通过对模型对每种输入模态的敏感性和域转移相关数据的研究发现,并结合其优势特点,在存在光度共变量转移(即从 KITTI 到 VKITTI)以及场景布局(即从 VOID 到 NYUv2 和 SceneNet)时表现良好。尽管可能会有这样的观点认为嵌入的应用特定于场景分布情况的不同属性特征组合问题存在局限性或适用范围受限的情况发生,但我们展示了这种观点并不成立.具体而言,VOID(教室、实验室和花园)、NYUv2(家庭和购物中心)以及 SceneNet(随机安排的合成房间)这三种场景布局各具特色,但在这种特定条件下,它们都具备相同的潜在光度特征.值得注意的是,相同的代理嵌入工具能够在跨域应用中发挥作用,即使具体的场景呈现形式不同,但只要其中的对象保持一致即可.

该方法在某些特定条件下可能会出现局限性;在这种情况下,“代理嵌入”在实际应用中可能不会带来显著的优势或者只会带来极小的优势。值得注意的是,在部署阶段之前我们能够访问源数据集,并假设这些数据能够被用于训练模型以实现自适应能力。然而,在许多实际场景中所使用的模型是基于私有数据训练而成的,并不具备直接访问源数据的能力。因此,“现成”模型的适应性仍是一个待解决的问题。尽管如此,在本研究中我们实现了“零 shot”自适应这一目标;除了本文的研究成果之外,我们还提供了完整的代码库和相关资源,并期望进一步推动对多模态任务中自适应技术的关注和研究。

全部评论 (0)

还没有任何评论哟~