Advertisement

论文阅读:DROID-Splat Combining end-to-end SLAM with 3D Gaussian Splatting

阅读量:

摘要

场景合成领域的最新进展为实现仅依赖渲染目标优化超图元的独立式SLAM系统提供了可能性[24]。然而,在追踪性能方面仍落后于传统方法[27]以及端到端SLAM系统[41]。目前,在鲁棒性、速度与准确性之间尚未实现最佳平衡,并且这一挑战尤其体现在单一视角视频处理上。为了突破这一瓶颈,在本文中我们提出了一种新型端到端跟踪器驱动的SLAM系统,并借助新型3D高斯喷射技术增强其渲染能力。我们的框架DroidSplat通过主流SLAM基准测试验证了其卓越的表现:不仅达到了最高的追踪精度而且实现了高效的渲染效果。通过并行构建现代SLAM系统的多个核心组件并结合高性能GPU加速技术(如常见的消费级GPU),我们成功实现了快速推理能力的同时保证了实时性要求。此外,在单目深度预测与相机校准领域的新突破使我们的系统即便是在缺乏已知相机内参的真实世界数据环境中也能表现出色

我们的贡献如下:

  1. 我们开发了一种高密度SLAM系统。这种系统融合了先进的端到端跟踪技术和高精度的超图模型。
  2. 我们通过系统级优化实现了现代SLAM系统的快速并行构建。通过全面消融实验发现关键组件对系统性能的影响。
  3. 我们在标准化SLAM基准测试中实现了几乎实时的跟踪与渲染性能。
  4. 该框架展现出极强的适应性,在复杂环境下也能可靠运行。

3. Our Approach

为了实现照片级真实感的密集场景重建这一目标, 我们采用了基于端到端跟踪器的密集型解决方案, 该方法能够为每个像素生成可靠的深度信息(即深度估计)。在此过程中, 我们首先对该深度图进行了共视点或高置信度区域的过滤处理, 然后将该输入传递给渲染模块。该模块通过对其所处理的对象进行优化设计, 并结合预定义的目标编码方案来实现对场景信息的有效提取与表示。值得注意的是, 由于所采用的Gaussian SPONGE算法具有极强的计算效率特点, 因此我们能够在与跟踪系统协同工作的前提下实现对该渲染目标的支持。本文的整体架构示意图见图2.

图 2. DROID - Splat。该系统通过基于光流目标的端到端 SLAM 技术实现了对运动目标的追踪、里程计重建以及生成初始密集地图。运动目标具备高度可调节性,允许系统动态微调相机内参、尺度基准因子及平移参数。通过先进的高斯映射技术结合渲染模型学习的方法,在照片级别实现了高度逼真的三维重建效果。由于系统中各模块均为可微分化设计并采用并行架构实现,在运行时能够灵活协调各组件之间的相互作用。

我们基于主流的 SLAM 组件进行层次化的系统整合。通过构建一个统一的技术框架, 我们显著提升了实时级图像级别的视觉重建效果。

3.1. End-to-end Tracking

我们的跟踪器基于在线端到端系统 DROID - SLAM 。一个图结构

由输入的有序图像流

I_{1}, dots, I_{n}nathbb{R}^{Nimes Himes Wimes3}

构建。这种结构在实践中是一个关键帧缓冲区,存储跟踪状态变量视差

extit{d}_{i}nathbb{R}^{Himes W}

和相机位姿

g_{i} n SE

递归神经网络用于计算dense optical flow。当场景中的运动足够丰富时,在图像中添加一个关键帧。一条边通常连接两个顶点,并且可以在图的不同位置显示。

表示帧

i

和帧

j

共视关系之间存在动态构建与维护的情况。该图在输入流上动态地构建和维护着其结构,在此过程中我们进行可微分优化以实现BA(Bundle Adjustment)。基于当前的姿态与视差状态信息,我们借助相机投影函数将三维空间中的物体映射到二维图像平面。

i

计算对应关系

p_{ij}=i_cegin{pmatrix}G_{ij}irci_c^{-1}eftnd{pmatrix}

在我们的所有实验中都应用了针孔相机模型这一方法论,在类似于文献中的研究(参考文献:10)情况下,在理论层面我们对这一函数进行了扩展以支持多种类型的相机模型(参考文献:40)。例如,在文献(参考文献:40)所描述的情况下,

p_{ij}

可以对相关体进行索引,这样我们就能沿着边

获取相关特征项。这些特征与其他关键信息如图像上下文以及隐藏状态共同作用后,在卷积门控循环单元(GRU)中进行处理从而生成新的状态信息。该GRU单元通过生成新的残差场来更新内部状态。

{r_{ij}nathbb{R}^{Himes Wimes2}}

以及相关的置信度

w_{ij} n athbb{R}^{Himes Wimes 2}

。残差引导当前对应关系,如

p_{ij}^{*}=r_{ij}+p_{ij}

通过积累位姿估计置信度信息并结合其变化趋势分析,在此基础上提出了一个适合可微分光束平差优化过程的方法框架。该框架能够有效提升定位精度的同时减少计算复杂度;该框架还能够有效提升定位精度的同时减少计算复杂度;该框架还能够有效提升定位精度的同时减少计算复杂度;该框架还能够有效提升定位精度的同时减少计算复杂度;该框架还能够有效提升定位精度的同时减少计算复杂度

athbf{E}=um_{nathcal{E}}eftathbf{p}{ij}{*}-\Pi_{c}(\mathbf{G}_{ij}^{\prime}\circ\Pi_{c}^{-1}(\mathbf{p}_{i},\mathbf{d}_{i}^{\prime}))\right|_{\Sigma_{ij}}{2} igma{ij}=peratorname{diag}athbf{w}_{ij}

(公式3)

这种通用损失函数不仅可以灵活地用于监督视差

d'

和位姿

G'

,而且如[10]所示,我们还可以直接利用内参

heta

来优化相机的校准:

egin{aligned}athbf{E}&=um_{nathcal{E}}eftathbf{p}{ij}{*}-\Pi_{c}\left(\mathbf{G}'_{ij}\circ\mathbf{P}_{i},\theta\right)\right|_{\Sigma_{ij}}{2} athrm{with}uadathbf{P}{i}&=i_{c}^{-1}eftnd{aligned}

(公式4)

现在[41]通过使用一个先验项对其进行正则化来支持RGBD - SLAM:

athbf{E}{reg}eft=um{inathcal{V}}eftathbf{d}_i*-\mathbf{d}_i{rime}ight^2

基于来自外部传感器的给定输入深度

d^*

由于我们致力于实现任意视频重建的目标,在单目深度预测领域中采用了该先验方法[2, 49, 51]。然而,在现有的单目深度预测模型中仍存在明显的性能瓶颈。鉴于此,在所谓的改进型伪RGBD模式下进行优化研究,并参考了相关文献[33, 56, 58]的工作

athbf{E}{reg,m}eft=um{inathcal{V}}eftathbf{d}_i*-(\mathbf{s}'_i\cdot\mathbf{d}'_i+\mathbf{o}'_i)\right|2

在完成针对图的固定次数束调整问题求解后, 从而更新我们的状态变量, 并继续推进, 直至下一次迭代. 在 P - RGBD 模式下, 我们需要注意谨慎处理, 可能会遇到的问题

s

o

G

此问题存在模糊性。鉴于此原因, 同如文献[58]所述, 在采用块坐标下降的方法进行操作时: 首先固定尺度和平移量以优化姿态; 随后我们锁定姿态图以优化结构、尺度及平移量; 经分析发现相机内参参数具有合理的收敛性。

heta

存在与单目变量类似的模糊性问题。由于这一原因,在[23]所启发的野外视频中,我们依次分为两个阶段完成处理工作。

  1. 固定初始参数,并利用公式3和4进行相机标定。
  2. 采用标定后的相机,在P-RGBD模式下运行公式5。

现代的SLAM系统[7, 27, 41]通常对地图的不同部分进行光束平差法:

  1. 前端部分基于输入的关键帧窗口提升小型图像的处理效率。
  2. 整体后端系统利用地图上的长期连接关系提高大型数据集的处理性能。

然而原始实现[41]是基于两个独立的GPU完成该操作的。我们则选择在一个单独的GPU上运行这两个进程,并实现了它们的并行同步优化。在放置调整后的地图至后端之前,在局部前端窗口内完成单目先验整合。相机内参设置通常包括多个参数如焦距、 principal点坐标等。

heta

被视为一个全局变量,它在后端进行优化。

3.2. Loop Closure

研究表明,在视觉里程计中实现高度准确性和鲁棒性不仅受限于优化自身的性能水平本身还与前后端构建的图结构密切相关

  1. 特征距离足够小


2. 相机方向距离足够小

  1. 帧间距离足够大

我们才将帧对

将...视为...循环候选。
一旦发现了候选配对...
为后端系统增加双向连接以扩展数据图。
该流程可在CPU架构下实现并行处理。
带来的额外开销非常有限。

3.3. Differentiable Rendering

在先前的研究中[13, 16, 24, 33],我们基于高斯超图元进行建模,在其定义为一组与我们的密集跟踪地图相关联的点集上展开研究。

。每个高斯分布都有一个旋转量

、一个缩放尺度

、一个密度

和球谐系数

在三角测量的基础上以恒定因子对地图进行下采样之后用来初始化高斯分布 这种方法类似于文献[24]中所提出的技术 高斯分布在依赖于密集渲染损失的反向传播的基础上被用来优化参数 而文献[18]中给出了详细的渲染过程描述

Ceft=um_{inathcal{N}}athbf{c}{i}lpha{i}rod_{j=1}^{i-1}eft,

其中

c

表示从球谐函数(SH)转换而来的颜色,且

lpha_i = igma_i dot G

。这使得我们能够在给定关键帧

G_i

的情况下渲染我们的地图,从而生成图像

I_i^{rime}

和深度

Z_i^{rime}

。我们遵循[24]进行中值深度渲染。高斯溅射法[16, 18, 24]采用一种混合渲染损失:
egin{aligned} L_{i}& =ambda_{1}L_{rgb}+eftL_{depth}   &=ambda_{1}eft   &+eftZ_i{\prime}-Z_i*ight nd{aligned}

这使得我们能够通过与参考值

I^*

Z^*

通过对比实现反向传播过程。每当渲染器发生更新时, 我们都会优化一批相机配置以提升场景重建质量。由于各个组件都是可微分的性质, 在理论上我们可以利用渲染目标来优化关键帧的位置, 并将其反馈给追踪器以完成交互式重建任务。因此, 我们希望探讨以下问题: 是否存在更适合跟踪的目标? 通过使用密集渲染目标进行微调, 我们是否能进一步提升系统性能? 此外, 我们的改进策略仅基于高斯分布覆盖3D空间的方式, 而传统自适应密度控制策略[18]是根据高斯分布的具体大小及其梯度特征来进行动态划分与复制操作的。这种方法在许多成功的SLAM应用中得到了广泛应用[13、16、24、33、54]。然而, 近期研究表明这一策略存在不足之处, 因此我们引入了基于MCMC模型[19]的新方法来进行改进, 这一改进不仅提升了算法性能, 同时也为基元数量设定了一个合理的上限值。为了全面评估不同策略的影响, 我们对现有系统进行了多维度对比分析, 并将3D超图元元素与其最近提出的二维Gaussian散射模型[12]进行了直接对比研究。其中二维Gaussian散射方法通过将三维基元坍缩至平面形式来近似表面几何特征。

全部评论 (0)

还没有任何评论哟~