Advertisement

上交最新!第一个稠密语义Gaussian Splatting SLAM!

阅读量:

点击下方卡片 ,关注**「3D视觉工坊」** 公众号

选择星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:SLAM,拉你入群。文末附行业细分群

扫描下方二维码链接,并加入我们的3D视觉技术交流群。该群中汇聚了众多用于实战的3D视觉问题案例,并提供各个模块的学习资源:包括最新的顶会论文选集、专业书籍推荐、开源代码库和学习视频库。此外,并提供近20门系统课程的学习机会(这些课程均向星球成员免费开放)。如果你渴望入门于3D视觉领域并致力于相关项目与科研工作,请加入我们的交流群吧!

c2009799382d970a307e1c0249cf2091.jpeg

0. 这篇文章干了啥?

本研究采用了三维几何建模(3D GS)技术开发出一种深度语义SLAM系统,并成功解决了无需依赖人工设定固定的边界且避免了系统长期运行时积累的定位偏差的问题。

改写说明

对于基于辐射场的语义SLAM技术而言,在实际应用中面临两个主要挑战:其一是在开放环境下(即无预设边界),现有的方法难以利用有限的二维信息实现对三维场景实时感知的能力;其二是在持续追踪过程中(即长时间运行),由于姿态估计系统的误差积累效应明显增强,最终会导致整体定位精度逐渐下降。

针对第一个主要挑战,在SemGauss-SLAM中通过引入二维特征级别的损失函数来指导场景表示的优化过程,并成功实现了3D高斯参数估计的加速收敛效果。针对第二个关键问题,在该框架中通过共视帧间的语义关联性分析,并提出了一种基于语义信息的束调整方法,在相机姿态估计和三维高斯模型构建方面实现了协同优化效果。该方法通过多视角语义一致性约束关系构建了一个有效的优化框架,在动态场景追踪过程中有效降低了姿态漂移累积效应的同时显著提升了语义图构建的质量和精度水平。

下面一起来阅读一下这项工作~

1. 论文信息

标题:SemGauss-SLAM: Dense Semantic Gaussian Splatting SLAM

作者:Siting Zhu, Renjie Qin, Guangming Wang, Jiuming Liu, Hesheng Wang

机构:上海交通大学

原文链接:https://arxiv.org/abs/2403.07494

2. 摘要

我们开发了SemGauss-SLAM系统,在该系统中首次实现了基于3D高斯表征的人工智能语义定位与建模技术。该系统能够实现精准的人工智能感知与高效的数据处理能力,在动态环境中的稳定运行表现优异。我们的研究工作首次将深度学习算法与几何建模相结合,在动态场景分析方面取得了突破性进展。在这个创新框架下,我们成功实现了从数据采集到模型训练的一体化管理流程,并在此过程中不断优化算法性能以提升系统的泛化能力。此外,在这一研究过程中我们还成功实现了对复杂场景中的目标识别与定位能力的有效提升,并在此基础上建立了一套完整的评估体系用于验证系统的性能表现

3. 效果展示

SemGauss - SLAM通过整合语义特征到3D高斯表征中来实现稠密语义SLAM。该建模策略不仅在精确性上实现了丰富的语义图构建,并且与基于辐射场的方法相比,在生成高质量的新型视觉区域方面表现更为卓越。

f397935aa44da19b1eb933f57f0b9476.png

Replica数据集上渲染质量对比。

b9205d6789927f711d5569d8c66a00d0.png

与SNI - SLAM在Replica的4个场景上进行语义新视点合成的定性比较。

da2b186d0bb52877b62d3876915d0263.png

4. 主要贡献

(1)首次提出SemGauss-SLAM系统,并定位其为首个实现三维高斯语义SLAM技术的解决方案。该系统不仅实现了精准的语义构图与视觉效果逼真的三维重建能力,在方法学层面还创新性地将语义特征融入三维高斯架构中以构建精确的语义地图,并通过采用层级式损失机制为三维高斯模型优化提供了更为系统的指导方案

借助多维度语义限制的约束条件,我们实施了基于语义的束调整算法,并综合优化了相机姿态及3D高斯体表示。最终实现了低漂移跟踪效果与精确的语义映射。

(3)针对具有挑战性的数据集Replica和ScanNet进行系统性评估后发现,在地图制作、跟踪、语义分割以及新视角合成等方面表现优异,并相较于现有基于辐射场的SLAM方法,在多维度指标上实现了显著超越

5. 基本原理

该系统采用RGB-D流作为其核心数据输入源。该系统中的RGB图像会被传递至专门的功能模块中进行语义特征求取过程。随后通过预训练好的分类模型对这些提取到的特征数据进行识别与归类操作从而获取相应的语义标签信息。在此过程中除了上述提到的关键数据外还共同构成了一套完整的监督信号框架其中包含语义特征求取结果、对应的语义标签标识以及原始采集到的RGB图像与深度测量数据等多维度的信息集合。与此同时该系统的智能算法会将提取出的空间信息分布于3D高斯分布网格中并将其作为构建初始高斯表征的基础元素。随后基于此生成的空间信息又会被用来对后续渲染过程中的相关参数进行优化调整从而实现对相机姿态定位与环境三维重建的整体目标达成

fb96faddc1edb82df960ff5376901704.png

该系统同时完成了基于RGB的建图和语义建模任务,在初始化阶段始于对场景的整体表征建立基础。通过将第一帧中的每一个像素点进行反向变换至三维空间中,并构建起初始的三维高斯分布模型得以实现。随后,在新帧与现有地图覆盖区域重叠程度低于50%时,则采用新增高斯模型的方式进行动态更新以维持精度。

现有基于辐射场的语义SLAM系统基于输入RGB-D帧构建用于姿态估计的RGB与深度损失,并通过估计相机姿态与最新帧实现场景表示优化;然而,在仅依靠单帧约束进行姿态优化时会导致跟踪过程中的漂移累积问题;同样地,在单一信息层面上对场景进行表示优化可能导致全局语义级别上的不一致性更新;为此提出了基于语义信息驱动束调整的方法——SemGauss-SLAM算法——该方法通过多视图约束与语义关联实现了对3D高斯表示与相机姿态的有效联合优化

dbe881f53b8a90868ff18b0f97335bec.png

6. 实验结果

在跟踪精度方面较其他稠密语义SLAM方法实现了显著提升,在Tracking Accuracy指标上较前驱方法实现了约47%的增长。这种改进得益于对贝叶斯调整策略的优化,并通过整合语义一致性信息进行多维度约束从而有效降低了追踪过程中积累的偏差

e56c94504926ac7bb8ff00f1f554531c.png
d8adb0cd40ab69ce9f836254cb2a35ed.png

该系统在渲染质量评估结果方面表现出色,在基于Replica数据集的实验对比中,在PSNR、SSIM以及LPIPS指标下均展现出最优的性能水平,并超越了现有其他稠密语义SLAM算法的表现。

20bb8f7f51ab1ff4449f766ff369d6a5.png

重建结果。 相比于其他基于辐射场的方法,在准确度方面SemGauss-SLAM较大地提升了其重建精度。这种性能提升得益于整合语义感知BA过程而实现相机姿态与场景表示的联合优化。具体而言,SemGauss-SLAM通过共视帧构建几何约束,并借助这些约束实现更高精度的重构建构。

f4aea24a8dd0ebec630f8f54afd9b805.png

SemGauss-SLAM在mIoU指标上显著超越其他稠密语义SLAM方法,在测试集上实现了高达26%的性能提升,并可达到95%的mIoU准确率。这种性能优势得益于将语义特征嵌入到3D高斯体中以构建丰富的语义表示能力,并且通过在语义特征级别直接定义损失函数来指导优化过程。此外,该方法所提出的语义感知BA技术有助于提升高精度的表现水平,在多个共视帧数据的支持下构建全局一致的语义地图以实现精确的语义表示能力。

5755f41004ee033af150505764d76ab0.png

该系统在新视角下的语义评估结果方面表现出显著优势:与现有的稠密语义SLAM相比,在新视角下对场景进行合成时的最大分割准确度提升幅度达到75%以上。该系统通过采用3D高斯特征嵌入的方法实现了对场景的语义描述能力,并建立了一种连续性的语义建模机制。这种建模机制对于构建具有语义连贯性的场景具有重要意义,并且能够有效减少由于急剧转换导致的一致性问题的发生概率;从而使得不同视角下的语 semantic表示准确度得到显著提升,并为实现高精度的新视角下语 semantic合成奠定了基础。

375d03cc9f85bc21eaea38c54edde014.png

7. 总结

该文章开发出一种新型稠密语义SLAM系统——SemGauss - SLAM。该系统能够实现对环境的高精度三维重建、确保相机运动估计的稳定性,并构建完整的场景语义模型。通过将图像和空间信息相结合,在每个像素位置生成具有语义意义的空间分布,在此基础上实现对场景的整体建模与优化。研究者还设计了一种基于多视图约束的优化框架——特征级损失用于3D高斯场景优化——以提升系统的鲁棒性和准确性。此外,在相机定位与空间表示之间实现了良好的平衡:引入语义信息的同时建立了多源感知器的信息融合方法——BA算法——从而实现了低漂移跟踪与精确建模的目标。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

这里给大家介绍一门我们最新的前沿课程《基于NeRF/Gaussian三维重建技术的全新SLAM算法》

主讲人介绍

d147cd88a6b72d7997feef0a657f6ad9.png

课程大纲

2bf8d35fba3b388c142cc8b4e38466a8.png
aca1f4873d6c6871026bbca4c4a1f272.png

课程亮点

本课程通过理论与实践结合的方式全面讲解基础入门NeRF/Gaussian Based SLAM技术的核心内容。通过系统的学习路径帮助你掌握基础算法原理、深入解析相关研究文献以及全面分析核心模块实现。

从理论上讲,在学习线性代数知识的过程中逐步深入到经典的计算机图形学领域中去理解现代三维重建技术的原理与起源;

从代码实现的角度出发进行实践教学,通过具体的练习和手把手的实际操作指导帮助大家快速掌握并实现计算机图形学、NeRF等相关技术。

学后收获

入门基于NeRF/Gaussian的SLAM领域

学会如何在快速抓取一篇论文的关键点和创新点

如何快速跑通一篇论文的代码并结合代码掌握论文的思想

逐行NeRF代码进行解析,掌握每个实现细节,并手动复现并作改进

课程设置

系统要求:Linux

编程语言:Python

基础要求:有Python、PyTorch基础

适合人群

对于一位想要深入研究新论文的新手来说,在使用其 accompanying code 方面可能会感到困惑。

SLAM定位建图、NeRF三维重建小白

从事三维重建工作的人员可参考

NeRF论文的初始阅读者

对SLAM、NeRF感兴趣的学员

课程答疑

本课程的答疑主要集中在对应的鹅圈子中。学员在学习过程中如有任何问题时,请随时在鹅圈子中提问。

1630beafb753be689deebed5ce2b5826.png

▲长按购买课程

3ebe87181349c9d2c8a6594facc6faab.jpeg

▲长按添加小助理微信:cv3d007,咨询更多

备注:以上图片和视频部分来自网络,如果侵犯了您的权益,还请联系删除!

全部评论 (0)

还没有任何评论哟~