Advertisement

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 翻译

阅读量:

NeRF:将场景表示为用于视图合成的神经辐射场

引言 。我们提出了一种方法,该方法通过使用稀疏的输入视图集优化底层连续体场景函数来实现用于合成复杂场景的新视图的最新结果。我们的算法使用全连通(非卷积)深度网络来表示场景,其输入是单个连续的5D坐标(空间位置(x,y,z)和观察方向(θ,φ)),其输出是该空间位置处的体积密度和与观察相关的发射辐射。我们通过查询沿着相机光线的5D坐标来合成视图,并使用经典的体绘制技术将输出的颜色和密度投影到图像中。由于体绘制是自然可微的,优化我们的表示所需的唯一输入是一组具有已知相机姿态的图像。我们描述了如何有效地优化神经辐射场,以绘制具有复杂几何形状和外观的场景的照片级真实感新视图,并展示了优于神经绘制和视图合成的现有工作的结果。视图合成结果最好以视频的形式查看,因此我们强烈建议读者查看我们的补充视频,以进行令人信服的比较。

关键词 :场景表示;视图合成;基于图像的绘制;体绘制;3D深度学习

1 介绍

在本研究中, 我们提出了一种创新的方法, 专门针对长期存在的视觉合成问题进行解决. 这种方法特别关注参数在连续5D场景中的表示, 并旨在最大限度地减少一组捕获图像在渲染过程中可能出现的错误.

我们采用连续5D函数来表示静态场景,并伴随每个点(x,y,z)沿各个方向(θ,φ)发射的辐射及对应密度信息等同于控制通过(x,y,z)射线累积多少辐射的微分不透明度。为了优化一个无卷积层设计的深度全连接神经网络(MLP),我们从单个5D坐标(x,y,z,θ,φ)回归预测该位置对应的RGB颜色值这一方法实现对这种函数的学习与逼近过程。为了生成该神经辐射场(NeRF)的具体图像渲染结果,在特定视点下我们首先使照相机射线穿过场景以获取3D采样集;其次将这些采样点及其对应2D观察方向作为输入传递给神经网络以得到颜色与密度输出;最后利用传统体绘制技术将这些颜色与密度值累积到2D图像中形成渲染结果。由于这一生成过程具有自然可微性特性因此我们可以利用梯度下降算法来进行模型优化以最小化观测到图像与其相应渲染结果之间的误差差值;通过最大化减少多个视图间的此类误差差值从而促使网络能够学习构建包含真实底层场景细节位置具有高体积密度并能准确预测颜色分布从而生成连贯完整的模型表现效果如图2所示

图一:我们开发了一种提升来自一组输入图像场景连续5D神经辐射场表示的方法(其在任意连续位置处捕获体积密度分布及其与观察视角相关的颜色特征)。通过采用体采样技术累积该场景表示沿射线方向上的样本数据,在任意观察视角下均能实现对该场景的有效重建与渲染。在此过程中,我们对周围半球范围内的合成Drums场景进行了多维度的数据采集与综合展示,并成功呈现了基于优化NeRF表示形式的新锐视图效果。

**图2:我们的神经辐射场场景表示和可微分渲染过程的概述。我们沿相机射线采样5D坐标(位置与观察方向)(a),将这些位置作为输入馈送到MLP网络中以生成颜色与体积密度(b),并采用体积渲染技术将这些值合成图像(c)来实现图像合成。该渲染函数具有可微性特征,在此基础之上我们通过最小化合成图像与地面实况观察图像(d)之间的残差来优化场景表示。

通过分析多个复杂场景下的神经辐射场表示优化问题后发现 基础实现无法有效提升分辨率水平 并且在计算效率上存在明显瓶颈 我们针对这一问题进行了深入研究 最终开发了一种创新性的解决方案 该方法通过将输入数据进行更加精细的位置编码处理 将MLP网络设计成能够捕捉更高频信息的形式 并在此基础上构建了一个分层采样方案 从而实现了对高频场景特征的有效捕捉与精确重建

我们方法继承了体积表示的优势:不仅能够有效地表达复杂的三维物体的几何形态及其外观特征,并且在基于梯度的优化过程中表现出色。关键在于我们成功地解决了传统离散体素网格建模由于存储成本高昂而在复杂场景中难以应用的问题。综上所述,本研究的主要贡献在于:

一种基于复杂几何与材料特征的连续场景建模方法,在参数化形式上采用基本多层感知机(MLP)架构构建了5D神经辐射场模型。
基于经典的微分渲染理论,在这一过程中我们提出了一个高效的表征提升方法。该方法通过在标准RGB图像空间中引入分层采样策略,在具有可见场景内容的空间区域合理分配MLP网络的计算能力。
为了实现对高频率场景特征的有效捕捉,在输入数据预处理阶段我们设计了一种位置编码机制,在更高维度的空间中构建了完整的表征体系。

本研究证实了,在定量分析和定性评估方面涵盖以下内容:通过将神经3D表征与场景进行匹配分析,并训练深度卷积网络来预测采样体积的表征工作所提出的方法均显著优于现有的视图合成技术。据研究可知,在这项创新性研究中首次提出了一种连续化的神经场景表征方法,并能够从自然环境中的RGB图像中生成高质量的新视图样本。

2 相关工作

在计算机视觉领域中是一项新兴的研究重点的是利用神经网络中的多层感知机(MLP)来编码物体及其场景特征。这种架构能够通过将3D空间中的位置信息映射到物体隐式表示的空间属性(例如符号距离函数)来实现这一目标。然而目前这些基于MLP的方法仍存在局限性即难以生成逼真的复杂几何体其精度与基于三角形网格或体素网格的传统离散化方法相当相似。在本节我们将回顾这两种研究路径并与其方法进行对比该方法显著提升了神经场景表示的能力从而实现了对复杂现实场景最先进级别的渲染效果

通过MLP将低维空间的坐标映射至颜色空间的一种类似策略同样可用于描述或模拟多种图形功能。例如,在计算机图形学中常见的应用包括图像数据、纹理参数以及散射光照信息。

该研究工作通过引入一种新型优化算法将xyz坐标系精确映射到带有符号距离函数或占位字段深度学习模型中来探索连续3D形状作为水平集的隐式表示方式。然而该类模型受限于必须基于真实3D几何数据这一前提通常只能从合成数据集(如ShapeNet)中获取训练样本随后的工作则通过设计可微分渲染函数来缓解这一限制使得仅依靠2D图像即可训练神经隐式形状表示模型成为可能Niemyer等人提出了一种基于表面占位场的方法并利用数值积分方法求解光线与表面交点进而计算精确梯度信息这种方法将输入信号作为神经纹理场并通过其预测漫反射光颜色信息Sitzmann等人则采用了一种更为间接的神经隐式形状表示方案即在每个连续三维坐标位置处输出特征向量并结合RGB颜色值随后设计了一种递归神经网络架构用于沿光线行进过程自动确定表面位置从而实现了对复杂三维形状的高效隐式建模

虽然这些技术能够潜在具备表示复杂性和细节丰富的几何形状的能力但目前它们受限于只能处理简单的低复杂度形状因此在呈现高细节场景时往往会出现光滑度不足的问题为此我们提出了一种替代策略即在5D辐射场(3D体积)上优化编码能力并通过其在2D视图上的表现来实现对更高分辨率几何体及其外观信息的有效捕捉

通过光线场样本插值技术实现对密集采样的目标视图重建,在处理稀疏采样情形下,则需借助计算机视觉与图形学领域的研究者们提出的创新方法来推断未知几何与材质特征。其中一种常用的方法采用网格化的场景表示方案,在这种框架下既可以模拟漫射表面反射特性也可以考虑特定视角下的视图相关性特征。为了提升表现效果相关模型训练效率可以选择性应用可微分光线投射器或者路径追踪器来进行参数优化过程;然而,在实际应用中这类基于梯度下降的空间重构方法往往面临收敛困难的问题主要是由于局部极小值存在的风险或是损失函数存在病态特性导致优化效果欠佳的情况较为常见;此外该类方法在初始化阶段需要预先提供具有固定拓扑结构的基础网格模板这在面对真实世界中复杂多变且缺乏先验约束环境时往往难以满足需求因而导致其在无约束条件下的适用性受到限制

另一种方法采用体积表示法旨在解决基于一组输入RGB图像合成高质量具有真实感视图的任务。该方法能够真实地表示复杂的几何形状与材料特性,并且特别适合基于梯度的优化过程;通常这类方法会生成较少引入视觉干扰的结果。早期的方法直接对体素网格进行着色;然而近年来出现了一些创新性的技术路线;这些新方法采用了基于多个场景的大规模数据集训练深度网络;该深度网络能够从一组输入图像预测采样的体积表示;随后通过沿光线学习合成的方式在测试时渲染新的视图画面;为了进一步提升效果;其他研究工作已经优化了卷积神经网络(CNN)与特定场景下采样体素网格之间的组合关系;使得CNN能够在一定程度上补偿来自低分辨率体素网格所带来的离散化伪影问题;同时允许预测出的体素网格根据输入的时间参数或动画控制变量来进行动态变化;尽管如此;这类离散采样技术仍然存在一个根本性的限制:即生成更高分辨率图像所需的时间与空间复杂度显著增加的问题;为了克服这一限制;我们提出了一种新的解决方案:通过在深度全连接神经网络(FCN)的参数空间内编码连续体积的变化过程;这种新方法不仅能够在渲染时生成更高质量的画面效果;而且所需的数据存储量仅是传统离散采样方法所需的一小部分

3 神经辐射场场景表示

我们将连续场景建模为5维向量值函数,并考虑其中位置由3个坐标x、y、z组成以及2个角度参数θ、φ来描述观察方向。该模型将发射颜色c=(r,g,B)以及体积密度σ作为输出结果。在实际应用中,默认将观察方向表示为一个归一化的笛卡尔坐标系中的单位向量d,并通过多层感知机网络进行建模

F_{heta }

采用(x, d)到(c, σ)的映射关系来模拟这种连续的5维场景表示,并通过优化权重参数Θ来实现这一目标;从而使得每个输入5维坐标都能对应到相应的体积密度值及其定向发射颜色信息。

我们通过将体积密度σ视为仅与位置x相关的函数来进行网络预测,并在RGB颜色c上考虑其与位置及观察方向相关性来进行预测设计,在此过程中以实现这一目标为目的引导表示具有多视图一致性

F_{heta }

随后通过8个连续的全连接层(每个层均采用ReLU激活函数并拥有256个通道)处理输入三维坐标x,并生成σ值及一个256维特征向量。接着将这些特征向量与相机视线方向进行关联,并将信息传递至一个额外的全连接层(同样采用ReLU激活函数但通道数缩减为128个),最终该层会生成与视角相关的RGB颜色值。

参考图3以认识我们的方法如何利用输入观看方向来体现非朗伯效应的例子。从图4可以看出这些模型在不依赖视图的情况下(仅使用x作为输入)无法表现镜面反射

图3展示了视向相关发射辐射的空间可视化效果。通过5D函数的形式来表示神经辐射场输出RGB颜色值这一特性,在本研究中被详细阐述。在此部分展示中,在船舶场景中的神经网络模型输出RGB颜色值用于表现不同空间位置x以及对应的观察方向d之间的关系。具体而言,在图中的(a)和(b)两幅子图中分别展示了两处不同相机视角捕捉到的数据样本:其中一张是在船体侧面拍摄的角度对应于橙色区域插图所示的位置坐标参数;另一张则是在水面区域对应于蓝色区域插图的位置坐标参数。通过这种方法我们不仅能够模拟并预测这些关键三维点随观察角度变化的情况,并且在(c)子图中成功地将这种变化趋势扩展到了整个半球范围内的所有可能观察方向上

**图四:**在此过程中, 我们对整个模型的表现进行了可视化分析, 研究其如何受益于基于view-dependent发射方向的辐射特性, 并利用高频位置编码来处理输入坐标信息。若移除视图相关性, 将有效阻止推土机踏板上生成镜面反射效果。而放弃使用位置编码机制则会显著削弱模型在表示高频几何细节与纹理特征方面的能力, 最终导致表面过于光滑的现象出现。

4 使用辐射场进行体绘制

我们的5D神经辐射场被视为描述场景中各点体积密度及定向发射辐射的空间模型。在此方案中我们模拟了光线在穿过场景时的颜色变化过程。在该模型中变量σ(x)代表了在位置x处射线终止时对应于无限小粒子的概率微分值。该参数有助于表征射线与物体表面交互的可能性大小以及邻近边界区域的能量传递情况。

t_{n}

和远边界

t_{f}

的相机光线r(t)= o + td的预期颜色C(r)为:

函数T(t)表示沿着从

t_{n}

t_{f}

的射线的累积透射率,即,射线从

t_{n}

t_{f}

未与其他任何粒子发生碰撞的概率。为了估计通过所需虚拟相机每个像素所跟踪的相机射线在我们的连续神经辐射场渲染视图中的积分C(r)。

通过数值积分方法求积评估这个连续积分的结果。确定性的积分方法常用于渲染离散体素网格场景,它能有效限制我们所表示的空间分辨率,因为MLP仅在固定数量的离散采样点上进行评估。相反,我们在[tn,tf]区间内采用分层采样的策略:我们将该区间划分为N个均匀分布的区间段,并从每个区间段中随机选取一个样本点以提高采样效率和精度。

尽管我们在积分估计中采用了离散样本集合。然而分层采样的引入使得我们可以有效地捕捉到连续空间中的细节特征。这促使我们在优化过程中能够在各个连续位置上评估MLP模型的基本行为特性。基于此样本集的特性分析是必要建立求积规则的前提条件。其中Max-Body方法被用来绘制评论中讨论的求积规则:

其中

elta {i}=t{i+1}-t_{i}

是相邻样本之间的距离。这个从

集合运算用于计算C(r),该函数具有平凡可微性,并最终等价于经典的alpha合成方法;其中α值保持不变。

lpha _{i}=1-exp

5 优化神经辐射场

在上一节中, 我们阐述了将场景建模为神经辐射场并在此表示中渲染新视图所需的必要组件. 然而, 我们注意到现有组件无法满足当前技术标准, 如第6.4节所述. 为此, 我们提出两项优化方案: 第一, 采用输入坐标的位置编码来增强MLP表示高频函数的能力; 第二, 引入分层采样策略以有效提升高频细节的表现.

5.1 位置编码

尽管神经网络是通用函数逼近器,但我们发现,让网络

F_{heta }

仅限于对xyzθφ输入坐标的操作会进而导致渲染在表示颜色和几何形状方面的高频变化表现不佳。这与Rahaman等人最近的工作一致,研究表明深度网络倾向于学习低频函数.此外,在将输入传递至网络之前通过高频函数将输入映射至更高维的空间能够更好地拟合包含高频变化的数据.

我们在神经场景表征的上下文中利用这些发现,并表明将

F_{heta }

重新表达为两个函数

F_{heta }=F_{heta}^{'}irc amma

由两个部分组成,在本研究中被分为两组进行对比实验:一部分采用了学习型设计;另一部分则未采用任何学习机制。(见图4和表2)这种设计有效地提升了系统的性能。

amma

是从R到高维空间

R^{2L}

的映射,而

F_{heta }^{'}

仍然只是一个正则MLP。形式上,我们使用的编码函数是:

表格2:我们的模型进行了去噪评估实验。该度量是基于从我们的真实合成数据集中选取8个场景取均值计算得出。关于这一方法的具体实现细节,请参见本节6.4节的相关讨论。

该函数

amma

被分别作用于x中的每个坐标值及其对应的分量(这些值已被归一化处理以确保其落在区间[-1, 1]内)。笛卡尔坐标系下的观察方向单位向量d(通过归一化处理使其落在区间[-1, 1]内)。在本研究实验过程中,

amma

设L = 10,对

amma

设L = 4。

在流行使用的Transformer架构中,在其内部结构中应用了一种类似于位置编码的技术。相比之下其主要目的是赋予序列标记离散的位置信息作为不带任何顺序概念的基础架构输入。与此同时我们则采用了与之相似的技术将连续输入坐标的映射转换为更高维度的空间表示从而使得多层前馈网络(MLP)能够更好地逼近高频函数。此外关于投影建模用于3D蛋白质结构的相关研究团队也独立地采用了与之相似的技术

5.2 分层体积抽样

我们的渲染策略是在离散化后的每个相机射线上进行精确评估神经辐射场网络以实现高质量图像生成这一目标存在明显低效性问题:那些在最终渲染图像中不具备重要性的空旷区域及被遮挡的部分仍会被反复采样从而造成资源浪费我们受到体绘制技术早期研究的影响并在此基础上构建了一种层次化的表征模型通过根据预估最终呈现效果的需求动态分配采样数量来显著提升渲染效率

除了单独优化一个网络之外还同时优化了两个网络:一个具有"粗略"特性另一个则更为"精细"。我们首先采用层次采样的方法对Nc个关键位置进行均匀分布的选取随后通过等式1所述的方式计算出该'粗略'网络在这些位置处的输出值。接着基于上述结果沿每条射线方向实施更为密集的点采样策略其中所选样本主要集中在与物体相关的体积区域以获取更具信息量的数据点。为了实现这一目标我们首先将等式n中的'粗略'网络重新表述为一个更精确的形式即通过引入额外的参数调整项来提升模型预测能力

at{C}

的alpha合成颜色。等式3作为沿射线沿着的所有采样颜色

c_{i}

的加权和:

将这些权重标准化为

at{w}{i}={w}{i}/um_{j=1}^{N_{c}}w_{j}

沿着射线方向地呈现分段常数的概率密度函数(PDF)。我们采用逆变换采样法从中抽取样本以获得第二个样本集

N_{f}

该方法在一个特定的位置,在由第一组样本和第二组样本构成的集合中进行评估,并利用方程(3)来计算光线的方向。

at{C}_{f}

的最终渲染颜色。但使用所有

N_{c}+N_{f}

一个个样本。此过程会将更多的样本分配到我们期望包含可见内容的区域中。该方法致力于实现与重要性采样相似的目标,在目标检测领域具有显著应用价值;然而,在该方法中我们采用采样值作为整个积分域的非均匀离散化处理方式,并非简单地将每个样本视为整个积分域的概率估计

5.3 实现细节

专为每个场景设计独特的神经连续体表示网络。该方法仅基于收集自RGB图像的数据集,并结合相应的摄像机姿态、内参及边界信息(通过合成数据生成真实的摄像机姿态、内参及边界,并利用COLMAP运动结构包推断这些参数的实际值)。在每次优化迭代期间,在所有像素构成的整体中随机抽取一批代表性的相机光线,并根据第5.2节查询粗略网络的结果。

N_{c}

个样本和来自精细网络的

N_{c}+N_{f}

样本集合。随后,在第4.2节所述的技术基础上实现了一个体绘制程序来生成基于两组独立样本的光线颜色数据。我们定义的损失函数是将粗略渲染与精细渲染所得图像与真实像素颜色之间的差异度量为总平方误差。

其中,R是每个批次中的光线集合,

C

at{C}_{c}

at{C}_{f}

分别是光线 r 的基础真值、粗略体积估算和精细体积计算RGB颜色。需要注意的是:即使最终的渲染结果源自其基础参数设置。

at{C}_{f}

,我们也最小化了

at{C}_{c}

的损失,这样粗网络的权重分布就可以用来在细网络中分配样本。

在我们的实验中,我们使用4096条射线的批量大小,每条射线在粗略体积中的

N_{c}

= 64个坐标处采样,并且在精细体积中的

N_{f}

= 128个附加坐标处采样。我们使用亚当优化器,学习率从5 ×

10^{-4}

开始,在优化过程中以指数衰减到5 ×

10^{-5}

(其他亚当超参数的默认值为

eta _{1}

= 0.9,

eta _{2}

= 0.999,和

psilon =10^{-7}

)。单个场景的优化一般需要约1至2天来完成(因为通常需要大约10-30万次迭代才能在单个NVIDIA V100 GPU上收敛)。

6 结果

我们进行了定量分析(表1)以及定性分析(图8和6),结果显示我们的方法超越了先前的所有工作。此外,在附录表2中详细列出了各种消融实验的数据支持这一结论。为了帮助大家更好地理解这些发现,请务必观看附录中的补充视频。通过观看视频内容后,请您耐心阅读以下说明:我们希望展示出一种改进后的解决方案的新思路,并邀请您关注在渲染过程中如何实现平滑路径这一新观点。

表1:我们对比了两种方法在两个不同数据集上的性能表现。我们对PSNR/SSIM(越高越好)以及LPIPS(越低越好)这两个关键指标进行了详细评估。DeepVoxels数据集包含4个具有简单几何形状且均匀漫射特性的物体。而我们的真实合成数据集则包含了8个复杂几何体的场景渲染结果这些对象均具备高度非朗伯特性。此外该真实世界场景的真实图像采集也是基于手持前向捕获技术获取的(由于NV设备仅能重建有限体积内的物体因此在此特定数据集上无法进行评估)。尽管LLFF算法在某些方面表现稍好于我们的方法但我们依然建议大家参考我们的补充视频以获得更全面的理解

图6:展示了真实世界场景测试集的不同视图对比结果。LLFF是一种专为这种前向捕捉真实场景的应用而设计的工具。我们提出的方法能够在渲染视图的一致性上超越LLFF(如蕨类植物的叶子、骨架肋骨以及栏杆在霸王龙模型中)。与LLFF相比,在细节层面我们方法表现更为突出(如蕨类植物叶面后的黄色架子以及兰花背景中的绿色叶脉)。此外我们方法还能有效解决LLFF难以处理的部分遮挡区域(如顶部Orchid裁剪所示)。值得注意的是SRN则专注于捕获每个场景中的低频几何特征及其色彩变化(如图7所示),但无法还原任何细节信息

图8:DeepVoxels合成数据集场景的测试集视图比较实验结果对比分析(见表1)。本研究中所涉及的对象具有基本几何形状以及理想的漫反射特性特征参数设置采用均匀分布策略,在此前提下构建了完整的三维重建模型并实现了精确的数据拟合过程。(注:参数设置的具体方案将在后续章节详细说明)。在这一领域上取得了一定的进步与突破,在这一过程中我们发现虽然LLFF算法在处理这类问题时展现出良好的性能特征但在细节捕捉方面仍显不足。(注:具体现象可通过各物体顶部视角示意图进一步观察)。针对上述问题我们提出了一种改进型算法并通过大量实验验证了其优越性与可靠性

表2列出了我们模型的消融研究结果。该度量通过对真实合成数据集中的8个场景求平均获得。如需更多细节,请参考第6.4节。

6.1 数据集

我们对两个合成数据集的渲染效果进行了深入探讨(表1中的"Diffuse Synthetic 360"和"Realistic Synthetic 360")。该数据集包含了四个具有简单几何形状的朗伯材质物体。每个物体均从单位半球采样多个视点进行512×512像素渲染(其中479个作为输入样本,1000个用于测试)。此外,我们还开发并提供了八个复杂几何形状物体的路径跟踪图像数据集。这些路径跟踪图像由六个来自上半球采样的视点和两个来自全球体采样的视点生成。对于每个场景,在训练和测试阶段分别使用了100个和200个视图样本

复杂场景的真实图像是我们通过大致面向前的方法捕捉这些复杂的现实世界场景所呈现的结果。(表1,“真实的面向前”)该数据集包含8个由手持手机拍摄的画面(其中5个来自LLFF论文的研究工作区),共拍摄了20至62张图片,并从中选取了约1/8的比例作为测试集。所有图像均为1008×756像素。

6.2 比较

为了评估我们开发的模型性能,在下文中进行了对比研究。大多数方法采用了相同的输入视图集,并在每个场景上单独训练各自的网络结构;而值得注意的是,在局部光场融合方面,则基于大规模数据集进行了一体化3D卷积神经网络的构建,在测试阶段则统一利用相同的训练网络处理新场景的所有输入图像

神经元模型(NV)生成了全部包含在不同背景之内的目标新视图(无需与其他目标混杂)。该模型提升了深度3D卷积网络性能,并生成了具有1283个样本的离散化RGBα体素网格以及具有323个样本的三维扭曲网格数据集。该算法利用相机投射到扭曲体素中以呈现独特的视角效果。

场景表示网络(SRN)以非透明表面形式表征连续场景,并通过多层感知机隐式定义其几何结构。该系统采用递归神经网络模型,在各3D坐标位置上提取特征向量后预测沿射线方向上的后续步长信息,并利用这些信息逐步构建完整的场景表征。最终采样点处的特征向量经解码后确定了表面该点的颜色信息。值得注意的是,SRN作为DeepVoxels项目的后续版本表现出更好的性能优势

LLFF旨在通过LLFF技术在高质量采样前向场景中合成具有照片级真实感的新颖视图。LLFF通过基于训练优化的3D卷积网络能够估计每个输入视图对应的分片立方体参数化表示RGBα网格,并通过结合alpha通道和邻近区域的 MPI 数据,在指定新视角下重建高保真视觉内容。

6.3 讨论

我们的表现完全超越了这两个基准模型,并且这些基准模型在所有场景下都实现了对各自细分领域的独立优化。值得注意的是,在对比LLFF的方法时,在定性评估方面我们实现了显著提升,在定量指标上也取得了超越性的进展,并且我们的训练数据仅来源于这些方法提供的输入图像。

SRN方法能够生成平滑过渡的几何形状和纹理细节,并在视图合成中的表征能力受限于每个相机仅能选择单一深度和平面颜色。相比之下,NV基线能够捕捉具有较高细节度的体积几何结构及其表面特征,并且能够有效表示基于显式128x3体素网格的目标细节。然而,在高分辨率场景中存在局限性:LLFF方法特别强调输入视图之间的最大视差不超过64像素的标准采样准则,在这一前提下难以准确估计包含高达400至500像素视差的场景。此外,在多视角渲染过程中由于不同场景之间的混合表示导致的结果存在明显的视觉一致性问题

这些方法间最显著的权衡是时间与空间的取舍。所有比较的单场景方法在训练时间上均需至少12小时/个场景。相比之下,LLFF能在仅10分钟内处理一个小型输入数据集。然而,LLFF为每个输入图像生成一个大型三维体素网格(单个"真实合成"场景所需存储量超过15GB),这使得其内存需求远超同类方案。而我们的方法仅需5 MB的网络权重(相较于LLFF而言压缩率高达3000倍),这甚至低于我们数据集中任何一个单一场景的输入图像所需内存资源

6.4 消融研究

参见补充材料

参见补充材料

实验结果表格:本模型的消融研究。 评估指标基于真实合成数据集中的8个不同场景取样计算得出。如需进一步了解,请参考6.4节。

7 结论

我们的研究直接弥补了现有工作的缺陷,在这一过程中我们发现传统的将对象与场景编码为连续函数的方法存在局限性。通过将场景编码为5D神经辐射场(一种基于MLP的连续函数),我们实现了比传统离散体素方法更高效的实时渲染效果。

虽然我们开发出了一种分层采样策略以提高渲染效率(基于训练集与测试集),但仍有许多改进的技术有待开发以进一步优化神经辐射场的渲染效果。未来工作的另一重点是可解释性方面:通过体素网格等采样表示方法可推测渲染视图下的预期质量及故障模式;然而,在深度神经网络中编码场景时如何解析这些问题仍是一个未解之谜。我们相信基于图形管道的真实世界图像生成技术可为复杂的场景提供高质量的神经辐射场优化图像,并真实呈现实际对象及其环境特征

感谢Kevin Cao、Guowei Frank Yang以及Nithin Raghavan提出的宝贵意见与深入讨论。经RR确认, 罗纳德L.格拉汉姆主席经ONR赠款N000141712687与N000142012529资助, 此外亦获罗纳德L.格拉汉姆主席直接资助。其中BM由赫兹基金会奖学金资助, MT则由NSF提供的研究生奖学金支持。云计算积分由Google于BAIR Commons计划中慷慨提供。我们特别感谢以下 Blend Swap 用户在真实合成数据集中的模型贡献:gregzaal 提供了船模, 1DInc 供应了椅子模型, Bryan Jones 贡献了鼓模型设计, Herberhold 介绍了榕树造型, Erick Free 提供了热狗装饰, Heinzelnisse 带来了乐高套装灵感, Elbrujodelatribu 选择了材料主题, 并由up3d.de 提供麦克风设备支持

全部评论 (0)

还没有任何评论哟~