Advertisement

NERF++:Analyzing and Improving Neural Radiance Fields神经辐射场的分析与改进

阅读量:
在这里插入图片描述

ABSTRACT

在本报告中, 我们首先分析了神经辐射场(NeRF)及其潜在存在的模糊性问题, 即为形状-辐射模糊性问题, 并探讨了NeRF如何有效避免这种模糊性带来的负面影响. 此外, 我们还详细讨论了一个关键参数化建模问题, 并在此基础上提出了适用于大规模3D场景的应用方法. 在这一具有挑战性的应用领域中, 我们的解决方案显著提升了生成效果的保真度.

1 introduction

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2 Preliminaries

在这里插入图片描述
在这里插入图片描述

3 shape-radiance ambiguity形状-辐射模糊

NERF模拟视图关联外观的能力源于3D形状与辐射之间的固有模糊性。这种模糊性可接受其作为非典型解出现,在未实施正规化或正则化的情况下。对于任何一个不正确的形状而言,在经过训练的数据中确实存在一系列能够合理解释其视觉表现的辐射场。然而,在面对新的测试视图时这些辐射场的表现就大打折扣。

为了揭示这一模糊性,在给定场景下将几何图形建模为一个单位球体。换句话说,在传统的光场渲染框架中将Nerf不透明度场设置为单位球面上的所有点均为1值(即1),其他区域设为0值。随后,在每个训练图像中的每一个像素位置上,在穿过该像素位置处与球体发生交点时定义其相交点(以及沿光线方向)亮度值作为该像素的颜色信息来源。这个人工构造的方法确实提供了一种有效的Nerf重建方案,并完全吻合输入图像数据集。然而这种方案生成新视图的能力极为有限:为了准确生成这样的新视图必须对每个表面点处重建任意复杂的视图依赖函数表达式除非训练数据集中包含非常密集的新视图采样点否则这种模型难以精确插值如此复杂的函数关系

这种形状-辐射模糊性如图2所示。

在这里插入图片描述

图2: 用于展示形状-辐射模糊性的实验,在一个合成数据集上预先训练了NeRF模型,在该模型中将不透明度场σ设计成模拟一个错误的3D形状(单位球体而非推土机形状),同时将辐射场c设计为将穿过球体与观察方向相交的射线映射到相应的像素颜色值。在此示例中,默认采用了三个MLP层来模拟视图依赖性的影响(如图3所示),并且适用于50个随机分布在半球上的合成训练图像样本。实验结果表明虽然错误解决方案能够解释训练图像(左两幅图像),但未能成功推广至新场景(右两幅图像)。

为何 NERF 会避免采用这种退化方案?假设存在两个相关因素旨在恢复 NeRF:第一点是不正确的几何形状导致辐射场呈现出更高频率的特性;第二点则是 NeRF 的特定 MLP 架构隐式编码了表面反射率之前的平滑 BRDF。

Factor 1 :当σ偏离其理想形状时,c通常需要以相对于d的高频模式来重构输入图像。对于正确形状的情形,则表面光场通常呈现更为平滑的状态(实际上与朗伯体材料相关的光场特性)。偏离理想形状所引起的复杂性提升,在使用具有有限参数的MLP模型时难以得到充分的表示。
Factor 2 :特别值得注意的是,在NeRF架构中特定设计的MLP结构编码了一个隐式的偏好权重机制,在光滑表面反射函数的基础上实现了一定的精细调节。在此处定义中,在任意给定表面点x上c相对于d的变化是连续且无突变的。该MLP结构如图3所示地对场景位置x和观察方向d进行非对称处理:具体而言,d被注入到MLP结构中的末段附近区域,从而导致仅有较少数量的MLP参数参与视图相关效应的具体构建过程。此外,用于编码观察方向d的方法仅限于低频分量的作用域,即γ4(·)和γ10(·)等傅里叶特征(参见公式3)。换句话说,针对固定的x值,c(x,d)作为关于d的空间分布函数仍然是有限阶数的表现形式

在这里插入图片描述

为了检验这一假设, 我们进行了相关实验. 采用了一个对称处理x和d的普通MLP来表示c, 将它们作为第一层输入并利用γ10(·)进行编码, 从而消除了网络结构带来的观察方向隐含先验. 当我们采用c的替代模型重新训练NeRF时, 测试图像质量较使用NeRF特有的MLP模型有所下降, 如图4及表1所示结果与我们的假设完全吻合: 在基于c隐式正则化的MLP辐射模型中, 反射率的隐式正则化有助于恢复正确的解.

在这里插入图片描述

图4: 在 DTU 场景中(Jensen 等, 2014; Riegler & Koltun, 2020),该图呈现了使用普通MLP替代NERF构建的辐射场c模型的效果(同时保持σ的结构不变并从头开始训练两个场)。普通MLP(vanilla MLP)降低了NERF概括新视图的能力。

在这里插入图片描述

表1: 在 DTU 场景中(Jensen et al. ,2014),替换了 NeRF 的 MLP 结构后大大减少了对新视图的泛化能力。与 Riegler & Koltun (2020)的研究采用了相同的图像分割方法。研究者基于完整的图像覆盖背景区域进行了评估。他们的评估基于完整的图像覆盖背景区域

4 inverted sphere parametrization(倒球参数化)

方程2中的体绘制公式对欧几里得深度进行了积分。

在这里插入图片描述

在真实场景中,当深度动态范围较小时,则可以通过有限个样本数值逼近积分的结果。然而,在户外环境中采用360度捕捉策略时,则会因为周围环境复杂而导致深度范围呈现极大扩展。这种情况下融合前后两方区域的数据就显得尤为重要:为了实现这一目标,在Eq2中所需的积分计算需要在前景区域与背景区域都具备足够的细节精度才能达到预期效果(McReynolds & Blythe, 2005)。图5展示了场景覆盖与捕捉细节之间的权衡关系:在一个受限的观察空间内,默认情况下所有的摄像机都将目光投向一个能够将摄像机与场景主体分隔开来的平面(即所谓的参考视图平台)。通过这种参数化方式(NDC空间),NeRF得以解决传统采样点难以满足高保真度图像效果的问题——即将复杂的三维空间投影到二维平面并完成数据整合。
但这种方法也存在根本性缺陷:它无法覆盖参考视图平台以外的空间区域。

在这里插入图片描述

图5: 在无界环境中的球面捕获技术采用两种不同的策略:第一种策略仅模拟局部区域(如图5所示的位置(a)),这可能导致关键伪影出现在该区域;第二种策略则试图全面建模整个场景(如图5所示的位置(b)),但由于受限的空间采样分辨率而无法完整捕捉细节。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

图9:通过定性比较可以看出,在两种T&T场景(卡车、游乐场)与两种LF场景(非洲、火炬)中进行了实验对比研究。研究发现,在生成效果方面,NeRF++相较于NeRF能够呈现出更加清晰的画面效果,并能更好地区分出不同区域之间的界限。

全部评论 (0)

还没有任何评论哟~