Point SLAM论文阅读
Point SLAM引用:
Sandström E, Li Y, Van Gool L, et al. Point-slam: Dense neural point cloud-based slam[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 18433-18444.Point SLAM原文链接:https://openaccess.thecvf.com/content/ICCV2023/papers/Sandstrom_Point-SLAM_Dense_Neural_Point_Cloud-based_SLAM_ICCV_2023_paper.pdf
Abstract
本文开发了一种基于点云的稠密神经即时定位与建图(SLAM)方法。针对基于RGB-D输入的情况而言,
我们通过迭代更新的方式不断优化了点云结构,
从而实现了对具有高度并行性的密集深度感知任务的有效求解。
研究表明,在相同的基于点的神经场景表示框架下,
Tracking和Mapping均得以实现。
值得注意的是,
Point SLAM方法允许根据输入数据中信息密度的变化
动态调节锚定点分布密度,
这种自适应策略能够有效减少计算资源消耗,
在细节区域减少时间和内存占用的同时,
在需要高解析度的地方增加点密度。
此外,
Point SLAM方法不仅展示了卓越的时间效率优势,
其在跟踪、建模和实时渲染准确性方面均优于现有技术;
同时展现出与现有先进稠密神经SLAM方法相当的表现。

图1. Point SLAM的优势。基于空间自适应锚定点神经特征的方法下图所示的优势在于其能够在捕捉高频细节方面超越传统方法的同时实现高效的时间与内存占用平衡。相较于NICE-SLAM而言,在捕捉高频细节方面表现出色这不仅提升了渲染质量,在重建精度和追踪准确性等方面也展现了显著优势。第一行呈现了特征锚点的位置信息;相比之下,在NICE-SLAM中,则根据物体深度及图像边缘变化等因素动态调节采样密度。其生成效果在不同场景中进行了详细展示;特别是高频率纹理区域(如花瓶表面、百叶窗图案等)上展现出明显的性能优势
1.Introduction
稠密视觉即时定位与地图构建(SLAM)是计算机视觉领域中的一个重要挑战,在增强现实(AR)、虚拟现实(VR)、机器人导航与规划任务[17]、细致遮挡分析[7]以及场景细节的理解[72]等多个领域中得到广泛应用;这些技术对于准确理解场景和感知环境具有重要意义。
在SLAM过程中估计稠密地图时,传统上采用不同的场景表示,同时Tracking通常独立于估计的稠密地图,这导致了不必要的数据冗余和独立性。
相机追踪通常通过稀疏点云或深度图进行,例如通过帧到模型的追踪[36, 66, 6, 38, 21]以及结合环闭合[15, 77, 5]。
常见的稠密地图表示有:体素网格[36, 37]、体素哈希[38, 15, 21, 20]、八叉树[16, 49, 29]或点/表面云[77, 5, 48]。
学习的场景表示[42, 30, 8, 32]的引入,使得基于学习的在线映射方法[63, 64, 31, 18, 24, 41]和离线方法[43, 1, 57, 73]取得了快速进展。然而,这些方法中的大多数都需要真实值深度或3D数据来进行模型训练,并且在测试时可能无法泛化到未见过的真实世界场景。
为了消除训练和测试之间的差异,最近的SLAM方法依靠通过体积渲染的测试最优化。
对比传统的方法,神经场景表示具有吸引人的特性,适用于地图绘制,如改进的噪声和异常点处理[64],对未观察到的场景部分的更好的孔洞填充和修复能力[69, 79],以及数据压缩[42, 58]。
类似于DTAM [37]或BAD-SLAM [48],最近的神经SLAM方法[79, 69, 53]仅使用单一的场景表示来进行跟踪和建图,但它们依赖于常规的网格结构[79, 69]或单一的多层感知机[53]。
受BAD-SLAM [48]、NICESLAM [79]和Point-NeRF [67]的启发,Point SLAM所探讨的问题是:
基于点的神经场景表示能否用于实时SLAM中的跟踪和建图?
改写说明
- 
不同于将特征点固定在规定的网格上, Point SLAM方法根据输入数据中蕴含的信息密度动态分配点位,实现了内存与计算精度之间的平衡。
 - 
在渲染过程中, 我们放弃了基于表面元的溅射技术,转而采用光线追踪的方式协同优化神经特征点. 同时, 使用MLP解码器将这些特征转化为场景几何与颜色估计.
 - 
在最小化RGB-D渲染损失的过程中, 我们采用交替优化策略协同优化Tracking与mapping.
 - 
与现有方法不同的是, Point SLAM无需构建自由空间模型,仅对表面区域内的少量关键点进行编码.
 - 
在一系列室内RGBD数据集上的实验表明, 所提出的Point SLAM方法在稠密神经网络基下的跟踪、渲染及建图性能均达到了目前最先进的水平——如图1所示即为实验结果示例。
- 提出了Point-SLAM,这是一种能够实时的稠密RGBD SLAM方法,它在场景探索过程中以数据驱动的方式迭代地扩展点云,并在其中锚定神经特征。证明了所提出的基于神经点的场景表示可以有效地用于建图和跟踪。
 - 提出了一种动态点密度策略,该策略能够在计算和内存效率方面取得提升,并在重构速度、内存与准确率之间进行权衡。
 - Point SLAM方法在各种数据集上的跟踪、渲染和映射准确率方面显示出明显的优势。
 
 
2.Related Work
稠密视觉SLAM与建图
Curless和Levoy[13]的工作,为许多采用截断带符号距离函数( TSDF )的3D重构策略奠定了基础。后续发展包括KinectFusion [36]以及更具扩展性的技术,如体素哈希[38, 21, 40]、八叉树[49],以及通过稀疏图像特征实现的姿态稳健性[4]。进一步的扩展包括用于SLAM的跟踪[37, 48, 53, 79, 5, 70],BundleFusion [15]实现了回环检测。为了解决深度图噪声问题,RoutedFusion [63]引入一个融合网络,该网络输出体素网格的TSDF更新。
NeuralFusion [64] 和 DI-Fusion [18] 通过隐式学习场景表示扩展了这一概念,从而实现了更好的异常点处理。
许多近期的工作不需要深度输入,仅通过RGB相机就能实现稠密在线重构[35, 10, 3, 50, 54, 47, 23]。
最近,依赖于测试时间最优化的方法其对测试时间约束的适应性而变得流行。
由于依赖于test time optimization的方法对test time 约束具有适应性,该类方法逐渐流行。 例如,Continuous Neural Mapping[68]从一系列深度图进行不间断映射,学习场景的表达。
神经辐射场[32]启发了稠密表面重构[39, 59]和姿态估计[45, 25, 62, 2]的相关研究。这些研究成果促成了全稠密SLAM pipeline的诞生[69, 79, 53, 28],这些pipeline代表了当前最有望实现精确和鲁棒视觉SLAM的趋势。
[80]是关于在线RGBD场景重构的综述。与Point SLAM的工作相比,目前没有任何神经SLAM方法支持具有高逼真度的输入自适应场景编码。
与此同时,ESLAM [28] 通过轴对齐特征平面处理RGBD SLAM,而NICERSLAM [78]、NeRF-SLAM [45] 和 Orbeez-SLAM [12] 则专注于仅使用RGB的SLAM。
场景重建

图2:Point SLAM架构。给定一个估计的相机姿态,映射过程如下进行:首先向神经点云中添加一组稀疏的神经点,然后通过沿射线的体积渲染生成深度和颜色图像。对于每个采样的像素,在射线上采样一组点xi,并提取几何和颜色特征(分别为P g (xi)和P c(xi)),使用球形搜索半径r内的特征插值。每个神经点位置pk根据其到采样点xi的距离wk进行加权。特征与点坐标xi一起传递给占用和颜色解码器(分别为h和gξ),以提取占用率oi和颜色ci。通过施加深度和颜色重渲染损失到传感器输入的RGBD帧,神经点特征在映射过程中得到优化。在映射步骤之后,在地图固定的情况下优化相机的外参进行跟踪。
大部分稠密的空间重建任务可被划分为三类:(i)基于网格的方法,(ii)基于采样点的技术,(iii)网络架构的应用。其中,在现有研究中发现基于网格的方法占据主导地位,并进一步细分出以下几种典型实现:首先是以密集采样网格为基础的传统方法;其次采用分层空间分割策略构建八叉树数据结构;最后则利用体素化编码技术实现高效的查询与存储。
- 网格的一个显著特点在于其邻域查找与上下文聚合操作均实现得非常高效且便捷。
- 八叉树结构同样适用于这种网格系统。
 - 然而该方法也存在一些主要缺陷:其主要缺陷在于其分辨率必须在构建过程中预先确定,并由此导致难以根据后续需求进行动态调整。
 - 这种限制同样适用于八叉树结构:即在复杂度较低的区域可能造成内存浪费,在超出预设分辨率的选择范围时则无法充分解析细节。
 
 
该点表示方法旨在解决网格问题并提出了一种解决方案,并已在多个领域得到了广泛应用,并在相关研究中得到了引用
- 类似于网格的分辨率设置,点密度无需预先设定,并且能够在不同场景中自然适应。
 - 点集能够较为集中地聚集在表面附近区域,并通过这种方式有效减少内存占用,在模拟自由空间时不会造成资源浪费。
 
对于稠密SLAM技术而言,在邻域搜索方面可以通过将三维空间的搜索问题转化为二维平面的搜索问题来提高效率[65, 48]。具体实现方法是将点集投影到关键帧上以完成快速定位[65, 48]。
- 不允許進行本地情境更新
 - For a rapidly expanding scope size, the network capacity cannot keep up with the scale’s development.
 
在这项工作中, Point SLAM采用了网络基础的方法来实现神经隐式表示,并通过固定三维空间中的神经点特征,实现了良好的可扩展性和高效的局部更新.
- 表面参数化元素通常难以实现具有适应性的形状模板。
 - 由于特征平面的信息表示过于简略, 多个表面场景的重建会面临较大的挑战。
 
因此不建议采用这些方法来处理稠密SLAM问题。与此相反,在构建场景空间模型时需考虑并附加可优化的特征信息。
3.Methon
本节全面阐述了Point SLAM的技术框架及其如何将神经点云作为稠密RGBD SLAM的核心特征进行部署。描述姿态随新场景探索而发生的变化,在估计的过程中数量逐渐提升(见公式 3.1)。Point SLAM通过逐像素梯度计算来动态调节点密度分布,并结合第3.3节的内容进一步优化渲染效率,在图2中简要展示了整体框架。
3.1.神经点云表示
用N个神经点定义神经点云:

其中, pi代表位置坐标, 具有三维空间属性; fi,g属于集合特征描述符, 由32个特征分量构成; fi,c涉及颜色特征描述符, 同样由32个颜色分量组成.
拓展策略 在每个建模阶段及预估相机姿态时,在二维图像上按等距间隔采样X个像素坐标,并从颜色变化最为剧烈的5Y区域中选取关键样本Y次作为代表节点。通过现有深度数据进行逆向投影到三维空间模型中,在预先设定的有效搜索半径内寻找邻近节点;若未找到邻近节点,则沿此射线方向追加三个神经元节点;这三个新增节点位于当前深度值D处,并在其基础上分别向外扩展(1-ρ)D和(1+ρ)D的距离(其中ρ是一个介于0与1之间的超参数系数)。若寻找到邻近节点,则无需再添加额外神经元;否则维持原有配置不变并退出循环过程;为了保证网络稳定性,在每次迭代过程中均需重新初始化权重参数并应用正态分布型激活函数至各层感知器单元;最终所得神经元网络模型即构成了一种基于自适应密度更新机制的空间表征系统
动态分辨率控制
为了优化对计算资源和内存的利用效率,Point SLAM系统通过动态调节点密度实现了资源与精度的最佳平衡。该策略能够在细节较为简单的区域实现高效的建模过程,在需要解析复杂细节的地方则提高了局部空间采样密度。系统通过分析相机观测到的颜色梯度变化情况,并在此基础上限定搜索半径r的变化范围:
r = f(\Delta G_c)
其中\Delta G_c表示基于颜色梯度的变化量。

其中,在图像处理中,∇I(u, v) 定义为像素位置 (u, v) 处的梯度大小。通过设定搜索范围(rl, ru),可以用来调节压缩效果与内存占用。有关参数设置的具体信息,请参考补充材料中的详细说明。
3.2.渲染
为了实现深度与色彩的表现效果,在采用了体渲染策略的情况下,在基于相机位置O进行采样的基础上选取了一系列采样点xi。

zi代表点沿深度轴的位置(单位为米),其值为一维量;di代表从传感器出发的光线方向向量(三维空间中的单位向量)。具体而言,在距离待渲染像素传感器深度为D米的前后各延伸ρ倍深度(即(1−ρ)D到(1+ρ)D米范围内),我们均匀分布地选取5个代表性采样点作为后续计算的基础参数输入。值得注意的是,在基于体素的方法中,为了估算相机与表面之间的空隙区域而需要进行更多的几何估算工作,这比Point SLAM算法所需的样本数量要多得多。例如,在NICE-SLAM算法[79]中采用了48个采样点(其中16个位于表面附近区域,在相机感知范围内布置了额外的采样点)。通过减少光路中可选采样点数量实现了对实时渲染能力的有效提升。

采用_h和gξ分别表示几何MLP解码器与颜色MLP解码器_的方式,在其中ξ被定义为g网络的可训练参数。同时,在构建h和g的过程中采用了与Nice SLAM相同的架构设计,并利用其提供的一种预训练且固定的中间几何解码器_h来进行辅助构建。此外,在解码器的工作流程中,默认输入三维点xi后会对其进行可学习的高斯位置编码处理;这种编码操作旨在缓解多层感知机(MLP)在有限频宽方面的局限性,并通过关联提取出相关特征信息。进一步地,在每个采样点xi处,则会分别用Pg(xi)与Pc(xi)表示其对应的几何特征向量与颜色特征向量。
对于每个采样点xi而言,在其周围半径为2r(r由公式(2)计算得出)范围内会执行逐像素查询操作;只有当该区域内至少存在两个相邻采样点时才能继续后续处理步骤;否则该采样点的空间占据状态会被设定为空值零。
在上述邻居采样点集合中,默认取其最近邻8个样本进行计算;而对于这些邻居之间的相对位置关系,则采用基于反平方距离加权的方式进行评估:
具体来说,
对于每个采样点xi,
在其周围半径为2r范围内,
首先筛选出所有满足条件的空间邻接关系;
随后,
按照从近到远的原则,
依次选取前8个满足条件的空间邻接样本;
最后,
对这些被选中的邻居样本,
按照其空间距离倒数平方的比例赋予不同的权重系数。

在颜色特征方面,在提取相邻点特征fkc时进行了非线性处理:

其中

随后构建了一个权重函数αi(如公式(8)所示),该权重值表示光线在点xi处终止的概率;其定义域为有限区间内连续可导的空间坐标点集合。”

在光线追踪过程中,在每一束光线路径上,在各个采样点上对各层深度值进行加权平均运算得到最终的颜色值;基于公式(9),我们实现了相同的视觉效果。

同时计算沿射线的方差:

具体细节,详见Nice SLAM。
3.3.建图与跟踪
建图
在建图过程中,在RGBD帧中均匀提取M个像素点,并以减少重绘损失的方式确保其与相机读数D(深度)和I(图片)保持一致。

该方法融合了几何L1深度损失与颜色L1损失,并通过超参数λm对给定的真实值ˆDm, ˆIm展开优化工作。在最小化loss的过程中实现了几何特征fg、颜色特征fc、以及相关解码器g中的ξ、θ等关键参数的有效优化。
跟踪
在映射之外,在每一帧中优化相机外参{R,t}以实现目标跟踪。对整个帧中的Mt个像素进行采样,并基于恒定运动速度模型初始化新姿态。该方法通过计算第二最近姿态与最近姿态之间的相对变换来更新前一已知姿态的状态。
目标跟踪系统的损失函数Ltrack由两部分组成:颜色域损失项与深度域损失项。

该方法明确指出,在L tracking过程中,深度区域的权重参数依据计算出的标准差值确定;同时,在颜色区域中使用的权重参数则受λt这一变量的影响。那么{R,t}这对参数是如何影响L tracking效果的?这里的{R,t}具体指的是在当前帧处理过程中还是在整个采样过程中使用的参数组合?
3.4.曝光补偿
对于那些帧间曝光变化显著的情况,我们引入了一个额外的模块来降低对应像素之间的色差。受[44]启发,在每个图像中学习了一个潜在向量,并将其作为输入传递到具有参数φ的曝光多层感知机Gφ中。网络G共享参数并在同步过程中进行优化。它生成一个仿射变换(由3×3矩阵和3×1平移组成),该变换用于在应用跟踪损失或映射损失之前对公式(9)中的颜色预测进行变换。
4.实验
该研究详细阐述了其实验环境,并通过对比最新的RGBD SLAM技术,在标准数据集如Replica(ID 51)、TUM-RGBD(ID 52)以及ScanNet(ID 14)上进行了性能评估。完整的额外信息可在附录中找到。
实施细节
为了实现高效的最近邻搜索功能, 我们采用了基于FAISS库[19]的设计方案, 其主要优势在于能够高效地利用图形处理器进行处理任务。具体而言, 在实验平台Replica上采用了ρ=  以确保良好的性能表现; 在TUM-RGBD平台上采用ρ=   的配置以适应不同的应用场景; 而在ScanNet平台上则进一步优化至ρ=    。此外, 我们还设置了合理的参数范围: 其中rl为6毫米, ru设为8毫米; gu取值为1.5厘米, gl保持在最小值; β₁设为-2/3, β₂设为13/15₀以确保算法稳定性和收敛性。为了保证实验的一致性与可重复性, 所有数据集均为X=6,₀₀₀个样本数量进行测试。其中TUM-RGBD平台下的测试集规模则定位于Y=   , 而ScanNet平台则采用Y=   的设置以减少计算负担并提高效率
评估指标
采用 marching cubes 方法生成的网格,并采用 F 精度作为评价指标。其中 F 精度定义为 Precision 和 Recall 的调和平均值(见 §7)。所有项评估均基于 1 cm 的距离阈值执行(如 [79] 所述)。此外还补充了深度 L1 指标(如 [79] 所示)。对于跟踪精度,则采用了ATE RMSE [52] 作为量化标准。对于渲染效果,则提供了峰值信噪比(PSNR)、SSIM [61] 和 LPIPS [75] 三个评价维度(如图 3 所示)。渲染效果评价是通过每隔 5 帧沿估计轨迹渲染全分辨率图像来进行参数求解的(除非另有特别说明)。默认情况下,默认种子号为 0、1 和 2 进行三次独立实验取平均结果作为最终输出
数据集
Replica 数据集 [51] 聚焦于提供高精度室内场景的3D重建能力。基于Sucar等人[53]公开的数据集合框架,在该数据集中实现了对RGBD传感器轨迹的有效提取。此外,在真实世界数据处理方面取得显著成果表明Point SLAM框架可灵活运用TUM-RGBD数据集合 [52] 和ScanNet数据集合 [14] 。其中,TUM-RGB-D姿态依赖于外部动作捕捉系统的精确捕获;而ScanNet则采用了BundleFusion技术实现其姿态建模。
Baseline 方法
主要采用PointSL AM技术对比现有最先进的密集神经RGBDSL AM方法(如 NICE-SL AM [79 ]、Vox- F usion [69 ] 和 ESL AM [28 ])。我们将 V ox- F usion [6 9 ] 的结果重新呈现,并将其报告为 V ox- F usion *.
对于 N ICE S L AM ,在 R e plica 中采用 40 次跟踪迭代,并以 1 cm 的分辨率对场景进行网格划分。

图展示了Replica [51]平台上的重建性能。在图中a部分中采用点状SLAM方案能够超越现有的所有方法,在此图表中前三个结果通过标记显示达到了最佳效果。点状SLAM技术平均而言能实现比现有方法更高的精度重构,在此过程中需要注意的是,在Office环境中的粗略人体模型构建可能会导致较低的质量表现;而更为精细的人体建模则能显著提升整体效果。

在 Replica [51] 平台上的图形渲染性能研究中(图 4 所示),基于神经点云自适应密度特性分析表明

Table 1 lists the tracking performance on Replica [51], measured by ATE RMSE (cm). Overall, Point SLAM demonstrates superior tracking performance compared to existing methods. These gray values are sourced from multiple papers and represent studies that we were unable to reproduce. In the table, we report the average results of all other methods across three independent runs. The Vox-Fusion∗ approach represents the reconstructed results.
4.1.重建
图 3a 通过对比实验将 Point SLAM 与 NICE-SLAM [79]、VoxFusion [69] 和 ESLAM [28] 在几何重建精度方面进行了全面评估。实验结果表明 Point SLAM 在所有评估指标上均优于其他方法,并分别展示了 NICE-SLAM、Vox-Fusion 和 ESLAM 深度 L1 指标的平均提升幅度为 85%、82% 和 63%。
图 3b 研究表明 Point SLAM 方法较以往方法在网格重建方面显著提升了对精细细节的处理能力。这一优势得益于其基于神经点云的适应性点密度调节机制,在捕捉表面细节的同时有效降低了内存占用。
4.2.跟踪

表格 2展示了 Replica [51] 的渲染性能(Point SLAM 在常规的渲染指标上超越了现有密集神经 RGBD 方法)。这些方法(NICE-SLAM 和 Vox-Fusion)的数据来源于文献 [78]. 对于定性评估结果,请参阅图 4.)

表 3展示了基于 TUM-RGBD [52] 的跟踪性能数据。Point-SLAM 在整体性能上始终优于现有基于密集神经 RGBD 的方法(上半部分),并且正在缩小与基于稀疏跟踪方法之间的差距(下半部分)。注:括号内仅列出成功情况的平均值。

表 4展示了ScanNet [14]平台上的跟踪性能指标(ATE RMSE值越低越好 [cm])。所有场景均在基准轨迹(00)上进行评估。本研究参考了NICE-SLAM算法的设计思路,并基于此构建了改进方案。在场景编号为0000时的Vox-Fusion框架中曾出现过一次跟踪失败的情况,在括号内部分我们仅展示成功跟踪结果的平均值。
在表1中展示了Replica数据集上的跟踪性能。整体而言,在现有方法的基础上,Point SLAM表现出更优的效果。这一优势源于对神经点的引入使得场景重建更加精准。表3中的TUM-RGBD数据集评估实验表明,在真实世界数据上实现良好的迁移能力是Point SLAM的一大特点。与现有传统的SLAM方案相比,Point SLAM仍存在一定的差距。这些差距主要源于采用了更为复杂的追踪方案如环路检测等技术手段。最后,在表4中展示了ScanNet场景下的跟踪性能对比结果。值得注意的是,在该数据集中引入了一种称为曝光补偿的新模块以提升性能表现
在ScanNet场景下进行测试发现 Point SLAM能够实现具有竞争力的表现水平 但这一结论建立在对运动模糊和镜面反射现象的有效建模基础之上
4.3.渲染
表 2 对比分析了不同算法在渲染性能上的差异,并具体展示了其在现有密集神经 RGBD SLAM 方法上的显著改进效果。图 4 展示了一组典型全分辨率渲染结果,在此过程中 Point-SLAM 算法生成了更为细致且精确的画面细节。
4.4.进一步统计评估

图 5:Nonlinear Appearance Space 经过外观特徵的 Fθ 非线性预处理过程可有效解决高频纹理问题,例如百叶窗、桌面上的锅以及枕上之树的花纹等细节图案。
Non-Linear Appearance Space
在有和没有非线性预处理网络 Fθ 的Replica数据集的 Room 0 场景上评估 PointSLAM。图 5 显示,特征的简单线性加权无法解决像百叶窗这样的高频纹理,而当 Fθ 时优化时,这可以成功地完成。我们评估了整个轨迹的 PSNR,并显示出 17% 的增益(32.09 对 27.41)。
我们发现,当跟踪误差更大时,例如在 TUM-RGBD [52] 或 ScanNet [14] 上,MLP Fθ 没有帮助,禁用它。高频外观只能通过像素准确的姿态来解决,这些姿态正确地对齐帧。
Color Ablation

表 5:颜色消融。实验表明,颜色信息对于跟踪和重建是有价值的。

图6:动态分辨率消融效果的研究。我们在 Room 0 场景中探讨了不同搜索半径 ru 对系统性能的影响。Point-SLAM 方法在跟踪与定位精度方面表现出良好的稳定性。(a) 和 (b) 分别展示了不同条件下的结果对比图。当搜索半径设置在约8厘米时(ru≈8cm),渲染质量逐渐降低 © 同时内存使用量随之提升,在多次实验后确定最佳参数设置为ru=8 cm。
通过在不同配置下禁用RGB输入以评估Point SLAM pipeline的性能(表5总结了房间0处的各项性能指标)。当停止利用RGB进行追踪时会导致追踪效能下降对深度L1指标以及渲染质量造成负面影响。重建性能主要取决于基于良好相机姿态的深度数据然而,在提升相机姿态方面具有显著优势的是RGB信息这表明RGB信息对于提升追踪与重构效果具有重要意义。
Dynamic Resolution Ablation
实验研究表明:Point SLAM方法对于搜索半径上限 ru 的选择显示出良好的稳定性。图6a至6c分别列出了不同 ru 值下的ATE RMSE、深度L1与PSNR性能对比结果。其中,在跟踪与重建指标上表现出良好稳定性;然而,在PSNR指标上呈现出逐渐降低的趋势(如图6b)。此外,在帧捕获结束后(如图6d),每个 ru 对应的神经点数量也得到了统计分析(如表2)。通过实验发现:当 ru 设置为8 cm时(如图5),系统性能达到最佳状态;这也成为我们在所有测试场景中统一采用的标准设置
Memory and Runtime Analysis

表6为Replicaoffice 0上的时间和内存使用情况统计表。其中解码器所占空间相当于所有多层感知机占用的空间总量。嵌入空间则用于完整描述场景所需的所有细节信息。采用Point SLAM算法后,在资源消耗方面表现出很强的能力
表6展示了在Replica office 0这一特定场景下对各算法进行性能评估的结果数据集
Drawbacks Point SLAM的框架在TUM-RGBD和ScanNet数据集上实现了跟踪性能的优越性
- 我们认为可以通过动态调整点位置以实现实时优化的系统架构,并据此构建一个更具鲁棒性的解决方案来应对深度噪声的影响。
 - 点密度的局部适应性遵循一种简单的启发式方法,在理想情况下还应通过学习机制得以进一步优化。
 - 我们进一步认为,在测试环境中进行自适应调节的可调节参数不仅包括关键帧选择策略等常规设置,并且还涉及用于确定搜索半径的颜色梯度上下限等技术细节。
 - 尽管我们的框架在渲染效率和重建质量方面表现优异,并显著优于现有最先进的技术;但在处理运动模糊和镜面反射等复杂场景时仍显不足。
 
5.结论
我们开发了一种名为Point-SLAM的新系统架构,在密集型SLAM领域展现了独特优势。该系统基于深度学习生成的点云模型实现了精确的地图构建与实时跟踪功能;其中的数据驱动方法能够更精准地将特征与实际表面位置对应起来;而动态分辨率算法则根据输入信息密度自动调整采样频率以实现最佳平衡;整体来看,在内存占用和计算效率之间找到了一个平衡点,并显著提升了三维重建的质量;通过一系列测试实验发现,在重建质量和渲染效率方面均超越了现有的主流解决方案;同时具备良好的跟踪性能、实时性和低内存占用的优势
Acknowledgements
本研究获得了VIVO合作项目对于实时场景重构的支持以及FIFA的研究资助。我们对Danda Pani Paudel和Suryansh Kumar提出的建设性讨论表示感谢。
