Point NeRF 论文阅读
Point_NeRF
参考文献:
- Xu Q, Xu Z, Philip J, et al. Point-nerf: Point-based neural radiance fields[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 5438-5448.
文献链接:
总体介绍

Figure 1. Point-NeRF 使用神经 3D 点表示和渲染连续的辐射体积。通过多视图图像的网络,前向推理来预测基于点的辐射场,之后针对每个场景进行优化,最终实现在几十分钟内超过NeRF的重建质量。同时,Point-NeRF利用COLMAP[42]等现成的重建方法,执行点修剪和增长,自动修复这些方法中的孔洞和异常值。
Abstract
像NeRF的体积神经渲染方法,可以重建高质量的场景,但在优化每个场景的时候,需要很长的时间;另一方法,深度多视图方法(MVS)可以通过网络推理快速重建场景几何。Point SLAM方法将二者相结合,使用具有神经特征的3D点云重建辐射场。
1.在基于光线行进的渲染管道中,聚合场景表面附近的神经点特征来有效渲染
2.根据预训练深度网络的直接推断,生成初始化的神经点云。该点云可以微调,实现在超过NeRF视觉质量的同时训练时间快30倍。
3.与其他 3D 重建方法相结合(COLMAP),并通过一种新颖的修剪和生长机制处理此类方法中的错误和异常值。
1.Introduction
在根据图像数据建模场景、渲染照片新视角方面,NeRF系列的论文获得了很好的效果,这些方法使用全局的MLP构建辐射场。因为每个场景拟合耗时,对大片的空旷区域进行不必要的采样,这些方法重建时长缓慢。
本文提出的Point NeRF,使用3D神经点来建模连续的体积辐射场。 1.与依赖每个场景拟合的NeRF不同,Point NeRF通过根据跨场景进行预训练的前馈深度神经网络,有效初始化。 2.利用近似实际场景几何的经典点云,避免空场景空间中的光线采样(该方法,能够比其他神经辐射场更有效的重建和更精准的渲染
Point NeRF由具有神经特征的点云表达,每个神经点编码了局部3D几何特征和外观。 先前的基于点的渲染技术 [2] 使用类似的神经点云,但使用在图像空间上运行的光栅化和 2D CNN 执行渲染。本文将神经点视为 3D 中的局部神经基函数,以此模拟连续的体积辐射场,从而能够使用可微光线行进进行高质量的渲染。 具体来说: 对于任何 3D 位置,使用 MLP 网络聚合其邻域中的神经点,以回归该位置的体积密度和视相关辐射,这表达了一个连续的辐射场。
Point NeRF提出了一个基于学习的框架来有效地初始化和优化基于点的辐射场 , 使用深度多视图立体技术(MVS)生成初始场,即应用基于成本体积的网络来预测深度。
同时,训练deep CNN 从输入图像中提取 2D 特征图,自然地提供逐点特征。
来自多个视图的神经点组合成一个神经点云,形成场景的基于点的辐射场。Point NeRF利用端到端的基于点的体渲染网络训练点生成模块,渲染新视图,使用GT监督,该模块直接在推理时预测基于点的辐射场。开始预测时,初始基于点的场在短时间内针对每个场景进一步优化,以实现照片般逼真的渲染。在图1中,可以实现21分钟优化并优于多天训练的NeRF。
该方法通用,可以基于其他重建技术的点云生成辐射场。COLMAP[42]等技术产生的重构点云,在实践中包含对最终渲染产生不利影响的孔洞和异常值。本文将点增长和修剪作为优化过程的一部分,在高密度的点云生长边界附近生长点,低密度区域修建点,最终实现了重建和渲染质量的提升。在图1中,COLMAP点转换为辐射场并成功填充大孔并产生照片般逼真的渲染。
Point NeRF在DTU数据集[17]上训练模型,并在DTU测试场景 、NeRF合成 、Tanks & Temples[22]和ScanNet[11]场景上进行评估。结果表明,该方法方法可以实现最先进的新视图合成,优于许多现有技术,包括基于点的方法[2]、NeRF、NSVF[28]和许多其他可推广的神经方法。
2.Related Work
场景表示
体素,点云,网格,深度图,隐函数等均可用于3D的场景表示。最近,基于体积神经辐射场的方法,实现了高质量的场景表达。对于NeRF,通常利用对整个场景进行编码的全局MLP进行场景重建,在重建大规模且复杂的场景时,效率低下且昂贵。而Point NeRF,使用局部的神经表示,将体积辐射场与近似几何场景的点云相结合,分布细粒度的神经点以此模拟复杂的局部场景几何和外观 ,产生了高于NeRF的渲染质量(见图6,7)
对比具有每个体素神经特征的体素网格,Point NeRF基于点的表示更适合表示,以此获取了更好的质量,同时直接预测良好的初始神经点特征,绕过大多数基于体素方法所需要的每个场景优化。
多视图重建与渲染
多视图三维重建,可以使用SFM和MVS方法解决。点云通常是MVS或深度传感器的直接输出,尽管它们通常被转换为网格[20,30]进行渲染和可视化。网络有时会引入误差,为了高质量的渲染,可能需要引入基于图像的渲染。Point NeRF则是直接使用深度MVS的点云实现逼真的渲染。
点云已广泛应用于渲染,通常是通过基于栅格化的点飞溅,甚至是可微栅格化模块[25,51]。然而,重建的点云往往有孔洞和异常值,导致渲染中的伪影。 基于点的神经渲染方法通过溅射神经特征并使用 2D CNN 渲染它们来解决这个问题 [2,23,33]。相比之下,我们的基于点的方法利用 3D 体积渲染, 比以前的基于点的方法产生更好的结果。
神经辐射场
NeRFs方法额能够实现新视图合成和高质量重建,现在已经向动态场景捕获、重照明、外观编辑、快速渲染、生成模型发展。然而,很多方法仍然遵循原始的 NeRF 框架并训练每个场景 MLP 来表示辐射场。
Point NeRF使用具有空间变化的神经特征的神经点对辐射场进行编码,这种方法可以比具有有限网络容量的纯 MLP 对更复杂的场景内容进行建模。
更重要的是,Point NeRF表明基于点的神经场可以通过预先训练的深度神经网络有效地初始化, 该网络可以跨场景进行泛化 ,并产生高效的辐射场重建。
先前的工作,提出了可推广的辐射场方法。PixelNeRF[57]和IBRNet[50]在每个采样射线点聚合多视图2D图像特征,回归体渲染属性进行辐射场渲染。 Point NeRF利用场景表面周围 3D 神经点中的特征来模拟辐射场,避免了巨大空白空间中的采样点,并导致比PixelNeRF和IBRNet更高的渲染质量和更快的辐射场重建
MVSNeRF [8] 可以实现非常快速的基于体素的辐射场重建。然而,MVSNeRF的预测网络需要固定数量的三个小基线图像作为输入,只能有效地重建局部辐射场。 Point NeRF可以从任意数量的视图中融合神经点,并实现MVSNeRF无法支持的完整360辐射场的快速重建
3.Point-NeRF Representation

图2 Point NeRF概述 (a)多视图图像中,使用基于成本体积的3D CNN Gp,γ 为每个视图生成深度,通过2D CNN Gf从输入图像提取2D特征。聚合深度图,得到基于点的辐射场,每个点具有空间位置pi,置信度γi和未投影的图像特征fi。(b)合成新视图时,进行可微射线行进。只计算神经点云附近的阴影(如xa,xb,xc),每个阴影位置,聚合来自K个神经点领域的特征以此计算辐射度r和体积密度,最后使用体积密度来累积r(类似于将体积密度作为权重,结合采样点的r,最后累积计算射线投影的最终辐射值)。整个过程是端到端可训练的,基于点的辐射场可以通过渲染损失进行优化。
体渲染和辐射场
使用可微的射线行进方法,可以定量评估基于物理的体渲染。具体来说,单像素亮度能够根据像素行进光线进行计算,具体来说就是沿射线采样M个阴影点,并使用体密度累积辐射:

其中,τ表示体积透过率;σj和rj是xj处每个阴影点j的体积密度和亮度,∆t是相邻阴影样本之间的距离。
辐射场表示任意3D位置的体密度和视相关辐射r。NeRF提出使用多层MLP回归辐射场,Point NeRF利用神经点云,计算体积属性,实现更快更高质量渲染。
基于点的辐射场
使用P = {(pi,fi,γi)}[i = 1,…,N]表示神经点云,每个点位于pi,与编码局部场景内容的神经特征向量fi相关联。同时,每个点分配一个尺度置信度值γi∈[0,1],表示点位于表面的可能性。 最终,利用神经点云回归辐射场。
根据3D位置x,查询该点半径为R范围内K个神经相邻点。基于点的辐射场可以理解为一个模块,该模块利用阴影位置相邻的神经点,回归出对应的体密度和颜色亮度:

具体来说,使用具有多个子 MLP 的类似 PointNet [39]的 神经网络进行回归。总体而言,我们首先对每个神经点进行神经处理,然后聚合多点信息以获得最终的估计。
逐点处理
使用MLP网络F处理每个相邻神经点,并通过以下方式预测阴影位置 x 的新特征向量:

该网络为局部 3D 函数,通过对局部帧的神经点建模,输出x处的特定神经场景描述 fi,x。相对位置 x - p 的使用,使网络对点的描述保持不变,可以实现更好的泛化。
视图相关的辐射回归
使用 标准逆距离加权 来聚合从这些 K 个相邻点回归的神经特征 fi,x,以获得描述 x 处的场景外观的单个特征 fx:

然后,基于MLP网络R,在给定观察方向 d 的情况下从该特征回归与视图相关的辐射:

逆距离权重 wi 广泛用于分散数据插值;Point NeRF利用该方法聚合神经特征,使更接近的神经点对阴影计算的贡献更大。此外,在这个过程中使用逐点置信度 γ;这在具有稀疏损失的最终重建中进行了优化,使网络能够灵活地拒绝不必要的点。
密度回归
同理,为了计算 x 处的体积密度 σ,遵循类似的多点聚合。首先,使用 MLP网络 T 回归每个点的密度 σi,然后进行基于逆距离的加权,由下式给出:

因此,每个神经点直接贡献体积密度,点置信度γi与这一贡献明确关联。在点删除过程中利用了这一点(参见第 4.2 节)
讨论
不同于以往的基于神经点方法(栅格化特征点,使用2D CNN渲染),Point NeRF的场景表示和渲染在3D中。通过使用近似场景几何的点云,Point NeRF的表示自然有效地适应场景表面,同时避免在空场景空间中采样阴影位置。对于每条射线的点采样,Point NeRF采用了一个有效的算法,查询相近的神经点,具体信息在补充材料中。
4.Point-NeRF Reconstruction
下文具体介绍用于高效重建的基于点的辐射场管线。
首先,利用跨场景训练的深度神经网络,通过直接网络推理生成初始基于点的场(4.1)。
通过点增长和修建技术进一步优化每个场景,最终实现高质量辐射场重建(4.2)。
图三显示工作流程,其中包含用于初始预测和每个场景优化的相应梯度更新。

图3,虚线表示辐射场初始化和每个场景优化的梯度更新
4.1.生成初始基于点云的辐射场
给定已知的图像组I1…IQ和点云,Point NeRF通过优化随机初始化的每个神经点特征和具有渲染损失的MLP(类似NeRF)进行重建。然而,这种逐场景优化的方法依赖于存在的点云,而且可能速度较慢。 因此,Point NeRF提出一个神经生成模块,通过前馈神经网络预测点属性,(包括位置p,神经特征fi和置信度γi),以此实现高效的重建。 这个直接的网络推理,输出一个好的初始化基于点的辐射场。该辐射场能够进行微调,以此实现高质量渲染。在很短的时间内,Point NeRF能够实现和NeRF相当或更好的渲染质量,而NeRF需要更多的时间进行优化。
点的位置和置信度
利用深度MVS方法生成使用基于成本体积的3D CNN 的3D点位置 ,这样的网络能够生成高质量的密集几何,同时可以实现很好的跨区域泛化。在视点q下,对于每个带相机参数的输入图像,我们使用MVS Net,首先通过从相邻视点扭曲2D图像特征来构建平面扫描成本量,然后使用深度3D CNN回归 深度概率体积 。其中,深度图由概率加权的每个平面深度值通过线性组合计算得出,将深度图未投影到3D空间, 获取每个视点下的点云{p1,…,pnq} 。
深度概率描述了点在曲面上的可能性,当对深度概率体积进行三线性采用后,可以得到每个点pi处的点 置信度γi 。上述过程可进行如下表述:

其中 Gp,γ 是基于 MVSNet 的网络。Iq1 , Φq1 ,。… 是 MVS 重建中使用的附加相邻视图;在大多数情况下,我们使用两个额外的视图。
点特征
使用2D CNN Gf提取每张图像的2D神经图像特征图,这些特征图与来自Gp,γ的点深度预测对齐,用于直接预测每个点的特征fi:

特别是,对具有3个下采样层的Gf使用VGG网络架构。将不同分辨率的中间特征组合为fi,提供一个有意义的点描述,可以对多尺度场景外观进行建模。
端到端重建
Point NeRF将来自多个视点的点云相结合,得到最终的神经点云。根据端到端的渲染损失,训练点生成网络和点表示网络,使得Point NeRF能够产生合理的初始辐射场。这方法还能够合理的权重初始化Point NeRF表示中的MLP,显著减少了每个场景的拟合时间。
此外,除了使用完整的生成模块外,Point NeRF的管道还支持使用从 COLMAP [42] 等其他方法重建的点云,其中Point NeRF的模型(不包括 MVS 网络)仍然可以为每个点提供有意义的初始神经特征。详情请参阅补充材料。
4.2.基于点的辐射场的优化
上述的pipeline,可以为新场景输出合理的基于点的初始辐射场。对于特定场景(见图3),通过可微光线行进,通过优化神经点云(点特征 fi 和点置信度 γi)和表示中的 MLP 来进一步改进辐射场景。
对于初始点云,特别是来自外部重建方法的点云(例如,图1中的Metashape或COLMAP),通常可能包含降低渲染质量的孔洞和异常值。在每个场景的优化中,直接优化现有点的位置会使训练不稳定,难以填充大孔洞。相反,Point NeRF引入新的点修剪和生长技术,这些技术逐渐提高了几何建模和渲染质量。
点修剪
在第三节中,设计了点的置信度γi,来描述神经点是否临近场景表面。利用这些置信度的值,来修剪一些不必要的离群点。其中,点置信度与体积密度回归中的逐点贡献直接相关(方程 7)。 因此,低置信度反映点局部区域的低体积密度,表明该处空洞。每10K次迭代,修剪γi <0.1的点。
在点置信度上施加了稀疏性损失:

这迫使置信值接近于零或接近1。如图4所示,这种剪枝技术可以去除离群点,减少相应的伪影。
点生长
提出新的技术以此增加点,覆盖原始点云中缺失的场景几何。不同于直接利用现有信息的点修剪,点生长需要恢复不存在点的空区域信息。基于Point NeRF表示的局部场景几何,逐步增加点云边界附近的点以此实现这点。
特别是,本文利用在射线行进采样的点的阴影位置,识别新的候选点。具体来说,使用射线中不透明度最高的阴影位置识别点位置xjg:

计算 εjg 作为 xjg 到其最近神经点的距离。
对于行进射线,如果αjg >Topacity和εjg > Tdist,则在xjg处生长神经点。这意味着位置位于表面附近,但远离其他神经点。通过重复这种增长策略,辐射场可以扩展到覆盖初始点云中的缺失区域。点增长特别有利于由COLMAP等不密集的点云(见图4)。实验表明,即使在只有 1000 个初始点的极端情况下,该技术也能够逐步增长新点并合理覆盖对象表面(见图 5)。

图4。神经点云和渲染新的视图,有或没有点修剪和增长(P&G)。P&G在使用从Point NeRF的模型或COLMAP[42]重建的点云时改进了几何图形和渲染结果。

图 5. 从椅子场景的 1000 个随机采样的 COLMAP 点开始,点增长机制可以帮助完成几何形状并在仅由 RGB 图像监督时生成高质量的新视图。
5. Implementation details
网络细节
将频率位置编码应用于逐点处理网络 Gf 的相对位置和逐点特征,以及网络 R 的观察方向。从网络Gf中不同分辨率的三层中提取多尺度图像特征,从而得到一个包含56个(8+16+32)通道的向量。同时,附加了每个输入视点得观察方向,以处理与视图相关得效果。 因此,最终得逐点神经特征是59(3层向量+3输入视角)通道向量。 有关阴影过程中网络架构和神经点查询的详细信息,在补充材料中。
训练和优化细节
Point NeRF在DTU上训练完整的pipe line,使用与PixelNeRF和MVSNeRF相同的训练和测试分割。首先,使用与原始MVSNet相同的gt深度值预训练基于MVS Net的深度生成网络,然后,仅使用L2渲染损失Lrender端到端训练Pipeline,利用具有真值得光线行进监督渲染像素,最终获取Point NeRF重构网络。使用初始学习率为5*e^(-4)的Adam优化器训练整个pipeline。其中,前馈网络需要0.2s从3个输入视图生成点云。
在逐场景优化阶段,采用结合渲染和稀疏损失的损失函数进行优化:

其中,在所有实验中都使用 a = 2e^-3。每10K次迭代执行点增长和修剪,最终实现高质量重建。

表 1. Point-NeRF 与基于辐射的模型 [28, 31, 50] 和 DTU 数据集 [17] 上的基于点的渲染模型 [2] 的比较,以及 [8] 中介绍的新颖视图合成设置。下标表示优化过程中的迭代次数。

表 2. Point-NeRF 与基于辐射的模型 [28,31,50] 和 Synthetic-NeRF 数据集上的基于点的渲染模型 [2] 的比较 [31]。下标表示迭代次数。Point NeRF的模型在 200K 步后收敛时不仅优于其他方法(Point-NeRF200K),而且超过了 IBRNet [50],并且在仅优化 20K 步(Point-NeRF20K)时与 NeRF [34] 相当。Point NeRF的方法还可以基于COLMAP (Point-NeRFcol200K)等方法重建的点云初始化亮度场
6.Experiments
6.1.DTU测试集的评估
在实验中,利用直接网络推理和逐场景微调优化中产生新颖的视图合成,并于之前最先进的方法(PixelNeRF,IBRNet,MVSNeRF)以及NeRF进行比较。其中,IBRNet和MVSNet利用类似逐场景微调,PointNeRF使用10K次迭代微调并与所有方法比较。此外,在只有1K次微调展示了Point NeRF的结果,以此证明优化效率。
表1 显示PSNR、SSIM和LPIPS所有方法的定量结果;图六展示了定性渲染结果。可以看出,在10K次迭代后,Point NeRF的结果达到了最好的SSIM和LPIPS,明显优于MVSNeRF和NeRF。虽然IBRNet产生的PSNR略好,但是如图六所示,在最终的渲染上,Point NeRF实际上恢复了更准确的纹理细节和高光。在另外一方面,IBRNet微调成本更高,在相同的迭代中,需要1小时-5倍于Point NeRF的时间。这是因为,IBRNet利用了大型全局CNN。而Point NeRF利用带小MLP的局部点特征,这个方法更容易优化。更重要的是,Point NeRF的神经点位于实际的场景表面附近,避免了空白空间中的射线点采样。
除了优化结果,Point NeRF的网络估计的初始辐射场明显优于PixelNeRF。在这方面,Point NeRF的直接推理差于IBRNet和MVSNet,主要是因为这两方法使用更复杂的基于方差的特征提取。 Point NeRF使用简单的VGG网络提取点特征。同样,PixelNeRF也采用这种设计。由于Point NeRF新颖的基于表面自适应点表示,结果优于PixelNeRF。
虽然IBRNet中更复杂的特征提取器可能会提高质量,但它会给内存使用和训练效率带来负担。更重要的是,我们的生成网络已经提供了高质量的初始辐射场来支持有效的优化。我们表明,对于我们的方法,即使是 2 分钟 / 1K 的微调迭代,导致非常高的视觉质量,可与 MVSNeRF 的最终 10k 迭代结果相媲美。这清楚地表明了Point NeRF方法的高重建效率。
6.2 NeRF 合成数据集的评估
Point NeRF模型在DTU数据集上训练,但是训练的网络可以很好的推广到具有完全不同相机分布的新数据集。在NeRF数据集上展示这些结果,通过图7的定性结果和表2中的定量结果进行比较。与基于点的渲染模型(NPBG)、可泛化辐射场方法(IBRNet)和逐场景重建技术(NeRF和NSVF)。
与泛化方法比较
IBRNet,是最好的基于nerf的可泛化模型,能够处理任意数量视点的自由视角渲染,将该方法与Point NeRF相比较。需要注意的是,NeRF数据集具有360度的相机分布,视角远宽于DTU数据集合。在这种情况下,不能应用像MVSNeRF这样的方法,因为它从三个输入图像中恢复局部透视截锥体体积,不能覆盖整个360◦观看范围。因此,与IBRNet进行比较,并在本实验中关注逐场景优化后的最终结果。 在Point NeRF中,20K迭代结果优于IBRNet的收敛结果,具有更好的PSNR、SSIM和LIPS;如图七,在实现渲染质量的同时,得到更好的几何和细节纹理,如图7所示。
与逐场景的方法比较
Point NeRF方法在20K次迭代后的质量与NeRF200K次迭代后的质量相当。在视觉上,Point NeRF模型在 20K 次迭代时已经在某些情况下具有更好的渲染效果,例如图 7 中的Ficus 场景(第 4 行)。
Point NeRF 20K迭代仅需优化40分钟,比NeRF的20+ 小时快30倍。NSVF的结果也需要长时间的逐场景优化,仅略好于Point NeRF的4-分钟优化结果。通过200K次的迭代优化,Point NeRF可以收敛并实现比NeRF、NSVF等其他方法更好的结果。
如图7所示,Point NeRF的200K结果包含最多的几何和纹理细节。由于点增长技术,Point NeRF的方法是唯一能够完全恢复细节的方法,如Ship场景中的薄绳结构(第二行)。
与基于点的渲染方法比较
Point NeRF的结果明显优于之前最先进的基于点的渲染方法。使用基于MVSNet的网络生成的相同点云运行NPBG[2]。然而,NPBG 只能通过光栅化和 2D CNN 框架产生模糊渲染结果。相比之下,Point NeRF利用具有神经辐射场的体绘制技术,从而得到照片般逼真的结果。

图6 DTU数据集[17]上每个场景优化的定性比较。Point-NeRF比其他方法更准确地恢复纹理细节和几何结构。Point-NeRF 还展示了卓越的效率。经过2分钟的优化后,Point NeRF的 1K 次训练的模型已经与最先进的方法(如 MVSNeRF [8] 和 IBRNet [50])相当

图7 NeRF合成数据集[34]的定性比较。下标表示迭代次数。Point-NeRF 可以捕获精细细节和结构(参见第 2 行的绳子)。Point-NeRF 还展示了卓越的效率。Point NeRF训练了 20K 步,已经与 NeRF 相当,训练时间快 30 倍。
6.3. 坦克、寺庙、ScanNet数据集的评估
在 Tanks & Temples 和 ScanNet 数据集上将 Point NeRF 与 NSVF 进行比较,结果展示在表3。 更多比较请参考补充材料。

表3. 坦克和寺庙和ScanNet数据集上的定量结果(PSNR / SSIM / LPIPSAlexan)
6.4.额外实验
将COLMAP点云转Point NeRF
除了使用完整的pipeline,Point NeRF还可以用于将其他技术重建的标准点云转为基于点的辐射场。使用COLMAP重建的点云,在完整的NeRF合成数据集上运行实验,定量结果在 表2 中的Point NeRF col显示。由于COLMAP点云可能包含大量空洞和噪声( 如图1 ),在初始化后对模型进行了200K次的优化,以通过点生长和点剪枝解决点云问题。值得注意的是,即使是低质量的点云为输入,Point NeRF的最终结果依然有着相较于其他方法的高SSIM和LPIPS。这表明这种技术可以潜在地与任何现有的点云重构技术相结合,以实现逼真的渲染同时改进点云几何结构。
点生长和剪枝
为了进一步展示点生长和剪枝模块的有效性,展示了在每个场景中的优化中,有无点生长和剪枝的消融结果。在Hotdog和Ship的场景中进行了实验,使用了全模型和带COLMAP的模型。定量结果如 表4 ,结果表示点增长和剪枝技术十分有效,显著改善了重建结果。
在 图4 中展示了可视化结果,可以清楚的看到,所使用的模型能够修剪左侧的异常点,并成功填补原始COLMAP点云中右侧的严重空洞。
本文还手动创建了一个极端样例,以在图5中展示我们的点增长技术,从一个非常稀疏的点云开始,该点云仅包含从原始点重构中采样的1000个点。实验展示了该方法可以通过迭代逐步从点云边界生成新点,直到填充整个场景表面。这个样例进一步证明了模型的有效性,该模型具有利用图像数据从低质量点云中恢复准确场景几何和外观的高潜力。请在补充材料中查找更多结果。

表4. Ship和Hotdog场景在有无点剪枝和生长(P&G)情况下的定量结果(PSNR / SSIM / LPIPSV gg)。使用模型生成的点或由COLMAP [42]生成的点云时,改进效果显著。
7.讨论
本文提出了一种高质量神经场景重构与渲染的新方法。提出了一种新颖的神经场景表示:Point NeRF,该表示通过神经点云模型来描述体积辐射场。
通过直接网络推断,从输入图像中直接重构出Point NeRF需要的初始化点云 ,并展示出这一模型可以高效地微调,以适应场景。这使得Point-NeRF的重构过程仅需每场景20–40分钟的最优化时间,渲染质量可与甚至超越需要更长时间训练(20+小时)的NeRF。 还提出了新颖且有效的生长和剪枝技术,用于每个场景的优化,显著提升了重建结果,并使该方法在不同点云质量下具有鲁棒性。 Point NeRF成功结合了经典点云表示和神经辐射场表示的优势,在实现高效且逼真的场景重构解决方案上迈出了重要一步。
