MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors 具有三维重建先验的实时稠密SLAM
摘要
本文介绍了一种基于MASt3R的实时单目密集SLAM系统,该系统能够在野外视频序列中实现稳定运行,并且不需要对相机模型做出任何假设。作者提出了点图匹配、相机跟踪和局部融合、图构造和环闭合以及二阶全局优化等高效方法。通过已知校准,对该系统的简单修改可以使其在各种基准测试中达到最先进的性能。总之,本文提出了一种易于使用的单目SLAM系统,能够产生全局一致的位置和密集几何形状,并以每秒15帧的速度运行。
项目地址 :https://edexheim.github.io/mast3r-slam/
开源地址 :comming soon~
论文方法
方法描述
本文提出的深度学习SLAM算法名为DUSt3R(Deep Unsupervised SLAM),该算法主要由MASt3R预测和点映射匹配、跟踪和局部融合、环闭合以及全局优化等组件组成。首先,通过网络预测出每个像素在图像中的深度值,并将其转换为向量表示。然后,使用这些向量作为输入,在两个相邻帧之间进行点映射匹配。接下来,利用匹配结果来估计相机的位姿,并将新的点映射与之前的点映射进行融合。最后,使用循环闭合技术来进一步提高地图的准确性。



方法改进
相比于传统的基于特征点的SLAM算法,DUSt3R具有以下优点:
- 不需要先验知识:DUSt3R不需要任何先验知识,如相机内参或关键点检测器。
 - 精度更高:由于使用了深度信息来进行匹配和姿态估计,因此相对于传统方法可以获得更高的精度。
 - 实时性更好:由于使用了GPU加速,DUSt3R可以在实时性要求较高的场景中运行。
 
解决的问题
DUSt3R可以有效地解决SLAM中的几个问题:
- 全局一致性:DUSt3R通过循环闭合技术来实现全局一致性,从而避免了传统方法中可能出现的地图漂移问题。
 - 姿态估计误差:由于使用了深度信息来进行匹配和姿态估计,因此DUSt3R可以更准确地估计相机的姿态,从而减少姿态估计误差。
 - 特征点缺失:传统方法通常依赖于特征点来进行匹配和姿态估计,但在某些情况下可能会出现特征点缺失的情况。而DUSt3R则可以通过深度信息来进行匹配和姿态估计,从而避免了这个问题。
 
论文实验
本文主要介绍了基于深度学习的单目SLAM系统MASt3R在多个真实世界数据集上的性能表现,并与现有算法进行了比较。具体来说,作者在以下几个方面进行了对比实验:
相机位姿估计:作者在TUM RGB-D、7-Scenes、ETH3D-SLAM和EuRoC等多个数据集上评估了相机位姿估计的RMSE(均方根误差),并与其他算法进行了比较。结果显示,MASt3R在所有数据集上都取得了最先进的轨迹误差结果,并且在没有使用校准信息的情况下也能够实现高精度的相机位姿估计。


密度几何评估:作者在EuRoC Vicon房间序列和7-Scenes序列中对MASt3R的几何重建结果进行了评估,并与其他算法进行了比较。结果显示,MASt3R在7-Scenes序列中的准确率和Chamfer距离等指标上优于其他算法,而在EuRoC序列中虽然在ATE(绝对轨迹误差)指标上不如DROID-SLAM,但在几何准确度上却更优。


附加研究:作者还进行了一些附加的研究,如Ablation Studies(消融实验)和Qualitative Results(定性结果)。其中,消融实验证明了使用平行投影匹配和特征精炼方法可以显著提高系统的准确性,而定性结果则展示了MASt3R在不同场景下的性能表现。
综上所述,本文通过多个数据集的对比实验,证明了MASt3R在单目SLAM领域具有较高的性能表现,并提出了一些有益的研究思路。
论文总结
文章优点
该论文提出了一种基于MASt3R网络的实时密集SLAM系统,能够处理野外视频,并取得了最先进的性能。该系统使用了两种新颖的技术:前端点云匹配和后端全局优化。该系统的优点包括:
- 实时性能:该系统能够在低延迟下运行,且在单个GPU上可以达到每秒30帧的速度。
 - 点云匹配技术:该系统使用了高效的点云匹配算法来提高地图构建的效率和准确性。
 - 后端全局优化:该系统采用了第二阶优化算法来提高地图的精度和鲁棒性。
 
方法创新点
该论文的主要贡献在于提出了一个基于MASt3R网络的实时密集SLAM系统,其主要创新点包括:
- 使用MASt3R网络作为基础:该系统使用了MASt3R网络来预测点云,从而避免了传统SLAM中需要手动设计先验知识的问题。
 - 前端点云匹配技术:该系统使用了高效的点云匹配算法来提高地图构建的效率和准确性。
 - 后端全局优化:该系统采用了第二阶优化算法来提高地图的精度和鲁棒性。
 
未来展望
该论文的未来工作方向包括:
- 全局一致性问题:虽然该系统可以在前端过滤点云以解决全局一致性问题,但仍需要进一步研究如何在全球范围内保持点云的一致性。
 - 多相机支持:目前该系统仅支持单个相机,未来的扩展方向是支持多相机系统。
 - 模型泛化能力:该系统依赖于特定的数据集进行训练,因此需要进一步研究如何使模型具有更好的泛化能力,以便适应更广泛的场景。
 
