Advertisement

【论文阅读|3DGS】CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scene

阅读量:

583541819cfe4e56b2396440c1db318e.png
3cdc5e33303d40f0b5813e797fc6d22c.png

文章链接:https://arxiv.org/pdf/2411.00771

摘要

摘要总结

3D高斯绘制(3DGS)的挑战 :尽管3DGS在辐射场重建方面取得了突破,但在大规模和复杂场景中,由于其无序性,准确表示场景表面仍然是一个难题。

CityGaussianV2的提出 :本文提出了CityGaussianV2,这是一个针对大规模场景重建的新方法,旨在解决几何精度和效率的关键问题。

基于2DGS的方法 :CityGaussianV2基于2DGS,解决了其在收敛速度和可扩展性方面的限制。

技术亮点

  • 分解梯度的密集化和深度回归技术( decomposed-gradient-based densification and depth regression technique**)** :用于消除模糊伪影并加速2DGS的收敛。
  • 伸长滤波器 :用于解决2DGS退化导致的高斯计数爆炸问题。
  • 并行训练优化 :通过优化CityGaussian管道,实现了存储压缩,减少了训练时间和内存使用,节省了至少25%的训练时间和50%的内存。

实验结果:

实验表明,CityGaussianV2在视觉质量、几何精度以及存储和训练成本之间取得了良好的平衡,证明了其在大规模场景重建中的有效性和实用性。

1 引言 (Introduction)

  • 3D场景重建的重要性 :引言部分首先强调了3D场景重建的重要性,以及其在照片级真实感渲染和几何重建上的追求。
  • 3DGS的优势与局限性 :介绍了3DGS作为主导技术的优势,尤其是在训练收敛和渲染效率方面,同时也指出了其在大规模场景中的局限性,特别是在表面表示和下游应用中。
  • 现有方法的挑战 :讨论了现有方法在可扩展性和泛化能力方面的挑战,特别是在处理大规模和复杂场景时的问题,如内存需求大、容量限制、高斯模糊和评估协议的不稳定性。

(大规模场景的重建往往还意味着显著的训练开销,要重建1.97km²的区域会产生接近两千万的高斯点,这意味着4.6G的存储以及31.5G的显存开销,以及超过三小时的训练时长)

  • 并行训练和压缩的必要性 :强调了实现高效并行训练和压缩的重要性,以及现有方法在训练成本和渲染速度方面的不足。
  • CityGaussianV2的提出 :介绍了CityGaussianV2,这是一种新的大规模场景重建方法,它通过采用2DGS作为原语,并结合深度回归和DGD策略来加速重建,同时引入伸长滤波器和并行训练来解决可扩展性问题,并通过向量树量化减少存储需求。
  • 评估协议的改进 :提出了一种新的评估协议,通过TnT风格的协议和基于可见性的裁剪体积估计策略,以实现对模型性能的稳定和一致评估。

In summary, our contributions are four-fold:

优化策略 :提出了一个新的优化策略,专门针对大规模场景下的2DGS,以加快其收敛速度,并提高其处理大规模数据的能力。

并行训练流程 :开发了一个高度优化的并行训练流程,不仅减少了训练和存储的成本,还确保了实时渲染的性能。

评估协议 :建立了一个新的评估协议,适用于大型无界场景,为大规模场景重建提供了一个几何基准。

高斯辐射场的应用 :CityGaussianV2是首批在大规模表面重建中应用高斯辐射场的方法之一,实验结果证明了其在几何质量和效率方面达到了最先进的水平。

2.相关工作 (Related Works)

2.1 新视图合成 (Novel View Synthesis)

NeRF技术 :NeRF通过MLPs隐式建模场景,是新视角合成的开创性工作。

MipNeRF改进 :MipNeRF通过引入抗锯齿技术,减少了渲染过程中的混叠伪影。

深度监督 :利用点云的深度信息加速NeRF模型的收敛,提高训练效率。

数据结构优化 :InstantNGP通过简化数据结构(如八叉树)提升NeRF的训练和渲染速度。

3D Gaussian Splatting (3DGS) :3DGS克服了NeRF在训练效率和渲染速度上的局限,是新视角合成的一个重要进步。

3DGS的优化 :后续工作在抗锯齿、存储成本和高纹理区域欠拟合方面对3DGS进行了改进。

2.2 高斯表面重建 (Surface Reconstruction with Gaussians)

表面提取技术的发展 :为了从无序且离散的3D高斯绘制(3DGS)中提取精确表面,已开发了多种算法,旨在提取明确的表面并规范化平滑度和异常值。

预训练与优化方法 :SuGaR预训练3DGS并与提取的网格结合进行微调,使用泊松重建算法快速提取网格。GSDF和NeuSG则优化3DGS与有符号距离函数以生成精确表面。

2DGS与GaussianSurfels :2DGS和GaussianSurfels通过折叠3D高斯原语的一个维度来避免模糊的深度估计,并确保表面平滑。

TrimGS与GS2Mesh :TrimGS提供了新的每个高斯贡献定义来去除不准确的几何结构。GS2Mesh作为一种后处理技术,直接从3DGS导出网格。

GOF与RaDeGS :GOF专注于无界场景,利用基于光线追踪的体积渲染和行进四面体算法提取网格。RaDeGS新定义了光线与高斯的交点,并导出曲面和深度分布。

扩展挑战 :这些算法在小场景或单个对象上取得了成功,但在扩展到大规模场景时,面临性能下降、密集化稳定性和训练成本等挑战,这些挑战尚未被充分探索。

2.3 大规模场景重建 (Large-Scale Scene Reconstruction)

3D重建技术的发展 :过去几十年中,从大型图像集合中进行3D重建的技术取得了显著进展。现代算法主要基于NeRF技术,尽管训练和渲染时间较长,但NeRF及其变体在3D场景重建和新视角合成中发挥了关键作用 。

3DGS的兴起 :3D高斯绘制(3DGS)的兴起,特别是VastGaussian,代表了大规模场景重建的范式转变。3DGS通过一组高斯椭球体显式地表示场景,使得渲染过程更加高效 。

细节层次技术(LoD) :随后的发展,如HierarchicalGS和OctreeGS,引入了LoD技术,使得场景能够在不同尺度上高效渲染 。

CityGS的全面流程 :CityGS提出了一个包含并行训练、压缩和基于LoD的快速渲染的全面流程,提高了大规模3DGS训练和渲染的效率 。

分布式训练和通信优化 :DoGaussian应用ADMM方法分布式训练3DGS,而GrendelGS促进了不同GPU上块之间的通信,FlashGS通过高度优化的渲染器显著降低了大规模训练和渲染的VRAM成本 。

几何精度的挑战 :尽管技术取得了进展,但由于缺乏可靠的基准,几何精度问题在很大程度上被忽视。本工作提出了一个可靠的基准和新算法,旨在实现经济高效的训练、高保真度和准确的几何 。

总结:

新视角合成技术 :从NeRF到3DGS,新视角合成技术不断进步,提高了渲染效率和质量。

表面重建方法 :多种算法被提出来从3DGS中提取精确表面,包括SuGaR、GSDF、NeuSG等,它们通过不同策略优化表面重建。

大规模场景重建 :以3DGS为基础的方法如VastGaussian、HierarchicalGS和OctreeGS,通过引入LoD技术,实现了大规模场景的高效渲染。

这三个方面涵盖了新视角合成、表面重建和大规模场景重建的技术进展,突出了3DGS在这些领域的重要作用和潜力。

3 方法(Method)

3.1 预备知识 (Preliminaries)

​​​​​3DGS简介

3DGS基础

  • 3DGS通过一组离散的高斯椭球体来表示3D场景,每个高斯椭球体包含中心点、协方差矩阵、不透明度和球谐(SH)特征,用于视点依赖的颜色渲染。
  • 协方差矩阵进一步分解为缩放矩阵和旋转矩阵,以便于处理和优化。

渲染和损失计算

颜色计算

复制代码
* 对于特定的像素p,通过alpha混合的方式计算其颜色cp​,考虑了位于射线路径上的高斯椭球体。
* 公式中涉及到的![\alpha _{i}](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-03/cY6vhFO7jk90EKtp8MwGBCdSIPo4.png)​表示第![i](https://ad.itadn.com/c/weblog/blog-img/images/2025-05-03/7B90Wc2ZOHFUYAsqJdpRzMChea1D.png)个高斯椭球体对像素颜色的贡献度,与高斯椭球体的不透明度和位置相关。

损失函数

复制代码
* 3DGS的优化通过损失函数L指导,该损失函数是L1损失L1​和D-SSIM损失LSSIM​的加权和。
* 通过自适应密度控制防止欠重建或过重建,基于视空间位置梯度∇densify来引导高斯椭球体的克隆或分割。

CityGaussian和2DGS

CityGaussian

复制代码
* CityGaussian旨在将3DGS扩展到大规模场景,通过预训练粗模型、分块并行调整、修剪和蒸馏来优化高斯椭球体。
* 通过vectree量化实现存储压缩。

CityGaussian旨在将3DGS扩展到大规模场景。如图4所示,首先以3DGS的进度在全训练数据上预训练一个粗模型。然后将高斯原语和训练数据分割成不重叠的块,并进行并行调优。在此之后,它采用LightGaussian的方法,应用额外的30,000次迭代进行修剪,10,000次迭代进行蒸馏。剪枝去除多余的高斯基于他们的渲染重要性,而蒸馏降低球面谐波(SH)度从3到2。然后进行矢量树量化,实现存储压缩。

关于修剪与蒸馏:

在3D高斯绘制(3DGS)和相关的算法中,修剪(pruning)和蒸馏(distillation)是后处理步骤,用于优化和压缩模型。这两个步骤通常在模型训练完成后进行,目的是减少模型的复杂度,提高渲染效率,同时尽量保持模型的性能。

修剪(Pruning)

修剪是指移除模型中不重要或冗余的部分,以减少模型的大小和提高效率。在3DGS的上下文中,修剪可能涉及到移除对最终渲染图像贡献较小的高斯椭球体。这些高斯椭球体可能对场景的细节和结构没有显著影响,或者它们的不透明度很低,因此在渲染过程中对像素颜色的贡献微乎其微。通过移除这些不必要的高斯椭球体,模型可以变得更加紧凑,同时减少存储和计算资源的需求。

蒸馏(Distillation)

蒸馏是一种模型压缩技术,目的是将一个大型、复杂的模型转换成一个更小、更高效的模型,同时尽量保留原始模型的知识。在3DGS中,蒸馏可能涉及到降低球谐(spherical harmonics,SH)的阶数,例如从SH degree 3降低到SH degree 2。球谐是一种用于近似环境光照明的方法,降低SH的阶数可以减少每个高斯椭球体需要存储的特征数量,从而减少模型的整体大小。

2DGS

复制代码
* 2DGS通过将3D高斯椭球体折叠成2D定向高斯盘(surfels)来解决表面估计的歧义问题。
* 引入深度畸变正则化和表面平滑损失LNormal,以确保从深度图估计的法线与渲染法线对齐。
16c7ced040d5404f90b6cacab0fc681c.png

3.2 优化机制 (Optimization Mechanism)

在这一部分,论文详细阐述了提出的优化机制,旨在加速收敛和稳定训练。如图2所示,该机制包括三个组成部分:深度监督(Depth Supervision)、伸长滤波器(Elongation Filter)和基于分解梯度的密集化(Decomposed-Gradient-based Densification,简称DGD)。
d700085cf05e4063941ce4f6ed5bebe0.png
f579189c2a2c4f2ea0d26b6cd8bd04da.png

深度监督 (Depth Supervision)

如图2所示,2D高斯被投影到给定相机姿态的屏幕空间,并由定制的光栅器渲染。得到的输出用于损失计算。GS算法需要迭代优化以消除每个视图中的单目线索,最终收敛到一个一致的3D几何。为了鼓励收敛,我们引入深度先验作为几何优化的辅助指导。遵循Kerbl等人(2024)的实践,我们使用Depth-Anything-V2来估计逆深度,并将其与数据集的规模对齐,我们将其表示为eq?D_%7Bk%7D​。假设eq?%5Chat%7BD_%7Bk%7D%7D表示预测的逆深度。相关的损失函数定义为eq?L_%7BDepth%7Deq?%3Deq?%5Chat%7BD_%7Bk%7D%7Deq?D_%7Bk%7D​∣。随着训练的进展,我们逐渐减少损失权重eq?%5Calpha以逐步抑制不完美深度估计的不利影响。

深度监督 是一种训练技术,它使用深度信息(即物体距离相机的距离)来指导模型的学习过程。这种方法的核心思想是,除了图像的外观(如颜色、纹理)之外,深度信息也能提供关于场景的重要线索。

伸长滤波器 (Elongation Filter)

如第1节所讨论的,扩展2DGS的一个关键障碍是在并行调整阶段某些原语的过度增殖。通常,一个2D高斯在远处投影时可能会坍缩成一个非常小的点,尤其是那些表现出极端伸长(Huang等人,2024)的高斯。这些高不透明度的小点在复杂场景中可以引起显著的像素变化,导致显著的位置梯度。如图3的左半部分所示,这些微小的、沙粒状的投影点在具有高梯度的点中占有相当大的比例。它们属于那些具有极端伸长的点。此外,一些点的投影小于一个像素,导致它们的协方差通过抗锯齿低通滤波器被替换为一个固定值。因此,这些点无法用有效的梯度正确调整它们的缩放和旋转。在块级的并行调整中,分配给每个块的视图远少于总数。这些远视图因此经常被观察到,导致退化点的梯度迅速累积。这些点随后触发高斯计数的指数增长,最终导致内存溢出错误,如图3的右半部分所示。

鉴于这一观察,我们实施了一个简单但有效的伸长滤波器来解决这个问题。在密集化之前,我们评估每个surfel的伸长率,定义为%20max%28s_n%2Cu%2C%20s_n%2Cv%29。伸长率低于某个阈值的surfels被排除在克隆和分裂过程之外。如图3的右半部分所示,这个滤波器减轻了内存溢出错误,并促进了更稳定的高斯计数演变。此外,表2中的实验结果表明,它在预训练阶段不会妥协性能。

基于分解梯度的密集化 (Decomposed-Gradient-based Densification, DGD)

我们发现,当2DGS迁移到大规模场景时,会遭受次优优化。我们的经验发现,与3DGS相比,2DGS在早期训练阶段更容易产生模糊的重建,如附录中的图10所示。正如Wang等人(2004)、Zhang等人(2024b)和Shi等人(2024)所指出的,与SSIM损失相比,L1 RGB损失对模糊不敏感,并且不优先保留结构完整性。附录中的表6进一步分析了自适应密度控制的梯度来源,验证了其梯度的参与对次优结果最为关键。为了缓解这个问题,我们优先考虑SSIM损失的梯度,并引入了基于分解梯度的密集化(DGD)策略。具体来说,密集化的梯度被重新定义为:
7b0a32174868480eaadf310f7a1a02de.png

3.3 并行训练管道 (Parallel Training Pipeline)

如第1节所讨论的,CityGaussian的后处理修剪和蒸馏过程耗时较长,并且在并行调整期间引入了显著的内存开销。鉴于这些问题,我们提出了一个新的管道,如图4所示。为了绕过蒸馏步骤,我们从一开始就使用SH度为2,将SH特征维度从48减少到27。这在整个管道中节省了大量的内存和存储空间。为了消除后处理修剪的需要,我们在块级调整期间整合修剪。具体来说,我们定义了每个高斯的单视图贡献,按照Fan等人(2024):
cbe613f120ec467d90fe0aca289d2c71.png

这个贡献在训练开始时和预定义的epoch间隔评估。我们的方法与Fan等人(2024)的不同之处在于,我们使用基于百分位的阈值来确定要丢弃哪些点。等于或低于此界限的点,包括那些多余的和从未观察到的点,将被自动移除。表2验证了我们的管道节省了50%的存储和40%的内存,同时减少了时间成本并略微提高了性能。

合并不同块的高斯之后,我们在2DGS上实现了vectree量化。我们首先评估每个点在所有训练数据中的贡献。最不重要的高斯在SH上进行积极的向量量化。其余关键的SH以及代表高斯形状、旋转和不透明度的其他属性以float16格式存储。

4 几何评估协议 (Geometric Evaluation Protocols)

本节介绍了CityGaussianV2在大规模场景重建中的几何评估协议,旨在提供一种可靠和标准化的方法来评估和比较不同算法的几何重建质量。

评估协议对于渲染质量已经非常成熟且可转移。我们遵循标准做法,通过测量渲染图像和真实图像之间的SSIM(结构相似性指数)、PSNR(峰值信噪比)和LPIPS(Learned Perceptual Image Patch Similarity)来评估。然而,对于大规模场景重建中的几何精度评估,尚无普遍接受的协议。最近,GauU-Scene(Xiong等人,2024年)引入了第一个基准,但其评估协议忽略了边界效应,导致评估结果不可靠。例如,如其自身论文(Xiong等人,2024年)所示,这样的协议显著低估了SuGaR的几何精度,而SuGaR在网格可视化中表现出了有希望的性能。此外,GauU-Scene没有在不同方法间对齐表面点提取过程,导致不公平比较。特别是,基于NeRF的方法从深度图中提取点,而3DGS则利用高斯均值。为了解决这些问题,我们从Tanks and Temples(TnT)数据集(Knapitsch等人,2017年)的评估协议中汲取经验,该协议包括点云对齐、重采样、体积界限裁剪和F1分数测量。对于所有比较的方法,我们首先提取网格,然后从表面采样点。尽管TnT的策略采样顶点和面中心速度快,但它会低估错误放置大三角形的效果。因此,我们均匀地在表面上采样相同数量的点。

关于TnT数据集:

Tanks and Temples(TnT)数据集是一个在计算机视觉领域内用于大规模场景三维重建的基准测试数据集。它由Arno Knapitsch等人在2017年创建,包含了两个详细的户外场景:“Tanks”和“Temples”,这两个场景都配备了高分辨率的图像序列和相应的相机姿态信息。TnT数据集提供了精确的三维点云和网格作为重建质量的参考标准,使得研究者可以评估和比较不同三维重建算法的性能。数据集的评估协议包括点云对齐、重采样、体积裁剪和F1分数测量等步骤,为算法的准确性和完整性提供了标准化的测试方法。TnT因其全面的数据和评估工具而受到研究社区的广泛认可,并被频繁用于推动三维重建技术的研究进展。

为了进一步应对边界效应的挑战,需要适当估计裁剪体积。核心在于检查每个点的可见频率,并估计一个界限,以排除很少观察到的点。为了效率,我们采取了一种变通方法,将点表述为高斯原语,并使用优化的GS光栅器检查它们的可见性。如图5所示,我们首先用真实点云初始化一个3DGS场,然后遍历所有训练视图以光栅化并计算通过输出可见掩模的可见频率。如果第j个点的频率au _{j}低于预定义的阈值,则将其排除。剩余的点随后用于计算地面平面上的alpha形状以及最小和最大高度。这个过程可以在1分钟内完成。与在所有点上估计的裁剪体积相比,我们的方法将F1分数的误差范围从0.1降低到0.003,实现了对模型实际性能的稳定、一致和可靠评估。
0d7616e4b00c4502bd52a35560ae93f8.png

可见掩膜的可见频率 是指一个点或区域在多个视角下被观测到的次数。简而言之,它衡量了在所有视图中一个点被看到的次数,从而帮助确定该点在场景中的可见性。

计算alpha形状 :alpha形状是一种数学方法,用于描述一组点的形状。在3D场景重建中,通过计算剩余点的alpha形状,可以得到这些点在地面平面上的轮廓或分布形状,从而评估重建场景的平面几何特性。

除了自动裁剪体积估计外,我们还在如此大规模的场景下加速评估过程,对真实点云进行下采样。下采样体素大小设置为0.35米。τ的距离阈值根据下采样真实点云中最近邻距离的统计数据,从0.3米变化到0.6米。

5 实验(Experiments)

5.1 实验设置 (Experimental Setup)

本节描述了进行实验时使用的数据集、实验的具体实施细节以及基线方法的设置,为评估CityGaussianV2的性能提供了基础。

GauU-Scene 数据集

  • 场景选择 :从GauU-Scene数据集中选择了三个具有代表性的大规模场景,分别是“Residence”(住宅区)、“Russian Building”(俄罗斯建筑)和“Modern Building”(现代建筑)。
  • 图像数量 :每个场景包含超过4000张训练图像和超过450张测试图像,这些图像提供了丰富的视角和细节,用于训练和评估三维重建算法。
  • 场景覆盖面积 :这些场景的覆盖面积从0.3平方公里到2.7平方公里不等,体现了不同规模和复杂度的城市环境。
  • 图像分辨率 :对于航拍视角的图像,遵循Kerbl等人(2023)的方法,将图像的较长边下采样到1600像素;而对于街道视角的图像,则保持原始的1000×1000分辨率。
  • 点云生成 :使用COLMAP软件包结合提供的相机姿态信息生成初始的稀疏点云,这些点云仅用于几何评估。

下采样:

将图像的较长边下采样到1600像素是指在处理图像时,确保图像的较长边(无论是宽度还是高度)被缩放到1600像素,同时保持图像的纵横比不变。这意味着如果图像的宽度大于高度,则宽度会被缩小到1600像素,而高度会根据原始纵横比相应调整

MatrixCity 数据集

  • 数据集构成 :MatrixCity是一个合成数据集,专注于城市规模的神经渲染和相关任务。
  • 场景版本 :在实验中,分别对MatrixCity的“aerial view”(航拍视角)和“street view”(街道视角)版本进行了测试。
  • 图像数量 :与GauU-Scene类似,MatrixCity的每个版本也包含大量的训练和测试图像,提供了不同的视觉挑战和场景细节。
  • 场景特点 :MatrixCity提供了城市景观的详细视图,包括建筑物、道路和自然元素,适合用于评估大规模场景重建算法的性能。

实施细节 (Implementation Details)

  • GPU资源 :实验在8个A100 GPU上进行。

  • 参数设置 :设置了梯度缩放因子ω为0.9,修剪比例为0.025。对于深度失真损失,由于发现其对性能有害,因此将其权重设置为默认值0。深度损失LDepth的权重从0.5指数衰减到0.0025。

  • 损失函数 :LNormal损失在预训练7000次迭代后激活,并在并行调整阶段从一开始就激活。由于发现原始的正常监督对于复杂场景重建过于激进,因此将LNormal的权重减少到原始值的四分之一。

  • 学习率和密集化计划 :遵循CityGaussian的默认设置,训练过程中学习率会根据需要进行调整,特别是在街道视角由于视图稀疏性,会使用更低的学习率和更长的密集化间隔。

  • 深度渲染 :使用中值深度来提高几何精度,这是一种常见的技术,可以减少深度估计的噪声和误差。

  • 网格提取 :采用2DGS的TSDF(Truncated Signed Distance Function)基础算法,体素大小设置为1米,SDF截断设置为4米,这些参数对于提取高质量的网格至关重要。

  • 块划分和量化 :实验中还涉及到块划分和量化的参数设置,这些细节对于并行处理和模型压缩至关重要,具体参数在附录中提供。(附加细节)

基线方法 (Baselines)

  • 对比方法 :与包括SuGaR、2DGS、GOF在内的最新高斯绘制方法以及NeuS、Neuralangelo等基于NeRF的方法进行比较。

表面重建:

SuGaR (Surface-aligned Gaussian Splatting)

  • 概述 :SuGaR是一种结合了高斯绘制和表面对齐技术的方法,旨在通过与提取的网格结合来优化3DGS的表面重建。
  • 特点 :SuGaR利用泊松重建算法进行快速网格提取,能够生成较为精确的表面。

2DGS (2D Gaussian Splatting)

  • 概述 :2DGS通过将3D高斯椭球体折叠成2D高斯盘(surfels)来解决表面估计的歧义问题,从而提高几何重建的质量。
  • 特点 :2DGS通过深度畸变正则化和表面平滑损失来优化表面重建,使其在几何精度上具有竞争力。

GOF (Gaussian Opacity Fields)

  • 概述 :GOF专注于无界场景的表面重建,使用基于光线追踪的体积渲染技术来获得场景内的连续不透明度分布。
  • 特点 :GOF通过从不透明度场获取SDF(Signed Distance Function)并使用行进四面体算法来提取网格,适用于大规模场景。
  • 为了确保公平比较,研究者们遵循了Lin et al. (2024)和Liu et al. (2024)的建议,将GS-based方法的总迭代次数和NeRF-based方法的预热和退火迭代次数加倍。

  • 观察到GOF的网格提取生成了超过1G的极高分辨率网格,远大于SuGaR和2DGS原始设置产生的网格。为了确保比较的公平性,调整了这些方法的网格提取参数,以使它们的分辨率对齐。

  • 在大规模场景重建方面,由于其他同期的基于航拍视图的方法在提交时尚未开源,因此选择了CityGaussian (Liu et al., 2024)作为代表性方法。

  • 对于CityGaussian的网格提取,采用了2DGS的方法,并使用中值深度进行TSDF(Truncated Signed Distance Function)积分。

5.2 与SOTA方法的比较 (Comparison with SOTA Methods)

本节深入探讨了CityGaussianV2与当前最先进(State-of-the-Art, SOTA)方法在表面重建方面的比较,包括定量和定性分析,以及对训练成本的考量。
b403a5cff4bb47c2ad20558d7e4f8254.png

性能指标:

PSNR (Peak Signal-to-Noise Ratio) :衡量重建图像与真实图像之间的平均误差,数值越高表示误差越小,图像质量越好。

SSIM (Structural Similarity Index) :评估图像结构相似性,范围从-1到1,1表示完全相同,越接近1表示结构相似度越高。

LPIPS (Learned Perceptual Image Patch Similarity) :基于深度学习的图像相似性度量,用于评估图像感知质量。

F1 Score :衡量模型在几何重建中的精确度和召回率的调和平均值,是几何精度的直接指标。

如上表所示 :NeRF基方法在大规模场景下容易失败,因为它们在稀疏监督下容易发散,且训练时间通常超过10小时;GS基方法在几个小时内完成训练,表现出更强的性能和泛化能力。

对于GauU-Scene数据集 ,从视觉比较,通过直观比较重建结果,CityGaussianV2能够准确捕捉场景中的复杂结构,如图7所示,该方法在重建细节如窗户和树木方面表现出色。从几何质量,CityGaussianV2在F1分数上超越了2DGS,表明其在几何重建上更为精确。与CityGS相比,CityGaussianV2在保持PSNR性能的同时,F1分数提高了0.1,显示了其在几何重建上的进步。
e656d6c818b54a4c8cc6c93b2cc7c382.png

对于具有挑战的MatrixCity数据集 上,我们从航拍和街景两方面评估性能。对于MatrixCity-Aerial,我们的方法在所有算法中获得了最好的表面质量,F1分数是2DGS的两倍,并且明显优于CityGaussian。此外,SuGaR和GOF都无法完成训练或提取有意义的网格。在街景中,CityGS和专门的几何方法(如2DGS)在几何方面的表现明显不如我们的方法。如附录中的图9所示,我们的方法提供了质量更好的道路和建筑物表面重建,其渲染质量可与CityGS相媲美。

关于训练成本 ,如表2所示,CityGaussianV2 (ours-s)的小版本将训练时间减少了25%,内存使用减少了50%以上,同时提供了优越的几何性能和与CityGS相当的渲染质量。更小的版本(our -t)甚至可以将训练时间减半。这些优点使我们的方法特别适合具有不同质量和即时性要求的场景。
7a897702fac64358b021619b024cb4b7.png

5.3 消融研究 (Ablation Studies)

消融研究 是用于验证模型中各个组件有效性的一种方法,通过逐一移除或修改某些部分来观察对最终结果的影响。在CityGaussianV2的消融研究中,作者们针对模型的不同方面进行了细致的分析,以展示每个组件对整体性能的贡献。

表2的上半部分着重于优化机制。如图所示,限制高伸长高斯密度对预训练性能的影响可以忽略不计。然而,如图3所示,该策略对于在微调阶段防止高斯计数爆炸至关重要。此外,表2表明,我们的分解密度梯度(DGD)策略显著加快了收敛速度,提高了1.0 PSNR、0.04 SSIM和近0.02 F1分数。关于不同损失的梯度如何影响性能的更详细分析包含在附录中。上面部分的最后两行证实了deep - anything - v2 (Yang et al ., 2024)的深度监督大大提高了几何质量。

表2的下半部分检查我们的管道设计。通过并行调优,渲染和几何质量都有了实质性的改进,验证了扩展的成功。对于修剪,我们使用更激进的修剪比率0.1,导致50%的存储和内存减少。这个结果也强调了微调对实时性能的重要性。然而,LightGaussian的(Fan et al ., 2023)修剪策略在保持渲染质量方面存在不足。通过从头开始使用SH度2,我们进一步减少了超过25%的存储和内存使用,对渲染性能或几何精度的影响很小。速度提高了4.2 FPS。我们的基于贡献的矢量树量化步骤需要几分钟的压缩时间,但存储空间减少了75%。此外,通过使用7000次迭代的结果作为预训练,总训练时间从3小时减少到2小时,模型大小缩小到300 MB以下。这种紧凑的模型非常适合部署在智能手机或VR头显等低端设备上。但是,将块分区替换为由7000次2DGS迭代生成的块分区会导致PSNR和F1分数的显著下降。这种次优结果强调了快速收敛对于有效训练微小模型的重要性。

6 结论 (Conclusion)

在本文中,我们揭示了扩展基于GS的表面重建方法的挑战,并为大规模场景建立了几何基准。我们的CityGaussianV2采用2DGS作为原语,消除了其在收敛速度和扩展能力上的问题。尽管如此,我们还为2DGS实现了并行训练和压缩,与CityGaussian相比,显著降低了训练成本。在多个具有挑战性的数据集上的实验结果证明了我们方法的效率、效果和鲁棒性。

全部评论 (0)

还没有任何评论哟~