NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-view Stereo


本文的方法概述中首先在COLMAP平台下运用传统SfM(结构从运动)和MVS(多视图 stereo)方法获取场景的稀疏深度信息(经过融合处理)。随后在单目相机框架下训练深度网络以建立针对当前场景的独特深度先验。接着利用获得的深度知识进行体积采样优化过程。最后在渲染结果与原始输入图像之间计算误差损失函数以生成置信度分数并基于此分数应用置信度滤波器以提升渲染质量。
https://weiyithu.github.io/NerfingMVS/
https://github.com/weiyithu/NerfingMVS
Abstract
在本研究中,我们提出了一种创新性的多视图深度估计方法(innovative multi-view depth estimation method) ,该方法结合了传统的重建技术和基于学习的先验,应用于最近提出的神经辐射场(NeRF)框架中。与现有的基于神经网络的深度估计方法不同,我们的方法直接对隐式体积进行优化,从而消除了室内场景中像素匹配这一困难步骤 。核心创新在于通过学习先验来指导NERF优化过程 。该系统首先通过对COLMAP算法实现稀疏单光子三角测量(SfM)与多视图(APS)重构进行适配性优化,以适应目标场景的具体需求,进而支持单目深度网络的有效构建。随后,我们指出尽管室内环境中形状-辐射模糊问题依然存在,通过引入自适应深度先验能够有效监测立体渲染过程中的采样行为 。最后,我们通过计算渲染后图像中的误差值,生成置信度图来辅助提升图像深度质量。实验结果表明,与基于对应优化的传统方法相比,所提框架在室内场景中表现显著优于现有最先进的方法,并且相对于仅依赖NERF合成能力的方法,自适应深度先验引入后在保持原有合成性能的同时显著提升了渲染图像的质量和细节表现
3.Method
3.1. Overview(概述)
我们开发了一种基于传统稀疏重建和先验学习的多视角深度估计技术。该系统以最近提出的神经辐射场(NeRF)为基础,在推断阶段进行了测试时间优化处理。相比于现有依赖于估计对应的方法,在体积优化上不再需要精确匹配横向像素细节这一必要步骤。这一思路也得到了即时定位与地图构建(sLAM)领域的实际应用支持
我们的方法的核心在于有效整合基于学习先验提供的额外信息到NERF训练pipeline中。图2展示了我们所提出的系统的概览图。在第3.2节中讨论了如何根据特定场景调整深度。第3.2节深入分析了为什么NERF难以在封闭空间生成精确几何形状,并提出了基于学习先验引导优化的新方案。第3.4节探讨了如何利用优化后的神经辐射场推断深度信息并构建综合视图。
3.2. Scene-specific Adaptation of the Depth Priors
类似于CVD [29]的研究成果
我们开发了一种针对特定场景的自适应深度先验网络,在微调单目深度网络的基础上实现传统稀疏重建目标。具体而言,在测试场景中应用COLMAP [43,44]算法,并通过多视图立体系统的投影融合生成各视角的稀疏深度图。基于几何一致性检验的方法,在融合过程中实现了所获深度图的高精度与稳定性特征特性作为训练特定场景下的深度先验的有效监督源
考虑到深度图具有尺度模糊性的问题,在进行深度网络训练时选择了基于尺度不变损失函数的方法。

经过精细调整后的单目深度网络是一个更强大的先验模型,在特定目标场景中表现出色。在 NeRF 框架下进行针对性优化后,在提升其性能方面取得了显著效果。表2的数据表明应用现有技术可能会让人意外地降低自适应深度先验在特定场景中的表现。
3.3. NERF 的引导优化
在视图合成领域取得突破性进展的同时, NeRF首次提出了神经辐射场的概念。通过巧妙地整合自适应深度先验, 我们的系统充分发挥了这一技术的优势。具体而言, 通过集成上述自适应深度先验, 我们直接优化了隐式卷积的效果。NERF成功的关键在于采用一个以 θ 为参数的完全连通网络,Fθ 表示隐式辐射场:对于输入 (x,d), 输出 (c,σ), 其中 x 和 d 分别表示位置与方向,c 和 σ 分别代表颜色与密度作为网络输出的结果。基于此架构, 视图合成可通过立体渲染轻松实现, 这使得 NeRF可以直接在多视角RGB图像上进行自我训练过程中的关键步骤在于利用稀疏三维重建计算得到近界t_near和远界t_far的基础上进行射线采样统计分析:将区间 [t_near,t_far]划分为M个子区间,并从每个子区间中随机抽取一个采样点进行评估:

每条射线对应的 RGB 值 c® 可基于有限采样数据进行体素级渲染计算得出;此外 per-view 的深度值 D® 可通过对各条射线方向上的采样点集合求取其平均值得出

尽管仅满足输入图像上的辐射场并不能确保正确的几何形状,在[61]的研究中已经探讨了三维几何形状与辐射之间的色散模糊性。本研究认为:由于不正确几何形状导致高内禀复杂性这一假设,在光滑表面光场具有更强吸引力的情况下更为合理。这种假设通常适用于富含纹理的户外场景;然而经实验观察发现,在质地较差区域(如墙壁)NERF仍表现出一定的挑战性,在室内环境这一常见场景中尤为明显。
图3展示了NERF的一个失败案例,在缺乏纹理的区域中受到了形状-辐射模糊的影响,在此情况下,NERF能够精确重构输入图像,但其呈现的几何形态严重偏离了实际地面状况.
失败源于忽视了一个看似难以想象但对光滑表面光场有积极影响[61]的现象;然而尽管如此,在光滑表面光场之外仍存在另一个能够完美解释训练数据集的一个连续辐射场族体;此外,在复杂的真实室内环境中(包括模糊图像和高情感表达),NRF的能力会受到限制;经过分析发现,在各种测试条件下所遇到的问题具有共性

图 在固定形状-辐射模糊模型的基础上,在室内场景应用中存在局限性(参考文献[61])。顶部行包含两个部分:(a) 使用Nerf算法生成RGB值(参考文献[** ** ** ** ** ** ** ** ** ** ])。(b) 沿照相机光线在红色区域采样点进行可视化展示。(蓝色线条表示地面上的真实深度值)。(c)使用Nerf算法生成的地表视深图。(d)地面上的真实视深图。(尽管Nerf算法能够生成高质量地览图像(PSNR值达到约** **),但其生成地表视深信息与实际地面情况存在显著差异)
在图3(b)中展示沿照相机光线方向的所有采样点时发现与基于粗糙纹理像素预测得到的颜色值较为接近其置信度分布较为集中于有限范围内基于这一观察结果我们在此基础上采用单目深度网络自适应深度先验来指导NERF采样的过程通过合理限定采样范围集中在深度先验附近区域以避免室内场景下NERF出现普遍性的退化现象这种优化方法可以通过直接对RGB图像进行处理来实现精确的深度估计
具体而言,在详细说明这一技术流程时

其中 K 代表相机本体,并采用 Ti→j 表示两相机间的相对姿态关系。对于第 j 个视图而言,
Ps→t 和 Di→j 分别代表该视图中图像像素点的二维坐标及其对应的深度值。
通过计算Dj’与Di→j之间的相对误差来评估深度重投影精度。
需要注意的是,在某些视图对之间存在空隙区域

参考图4可知,在低误差区域(即采样点密度较高的像素位置),采样操作倾向于聚焦于自适应深度先验模型;而对于高误差区域(即采样点密度较低的像素位置),采样操作则趋向于遵循传统的NeRF方法。

图4: guided NeRF optimization[33]. By performing multi-view consistency checking on the adaptive depth prior, error maps are obtained. These maps are then used to compute the adaptive depth ranges for each ray from the camera to the sampled points, enabling NERF optimization.
3.4. Inference and View Synthesis
为了便于推导,在方程6所定义的采样范围内进行重新采样后直接预测每个输入视图对应的深度图,并利用方程(3)计算期望值。这将提供一个精确度较高的输出深度估计,并支持我们提出的基于优化方案的NRF配置
通过进一步提升深度质量, 我们基于NERF技术实现了多视图合成效果, 并评估预测几何图形在像素级上的置信度潜力. 当特定像素处渲染得到的RGB颜色与训练数据中的对应像素颜色存在较大差异时, 我们认为该区域的空间分辨率较低. 此时该像素点深度估计值的信任度相应降低. 对于第i个视角下的第j个像素点, 在其上的置信度计算公式被明确定义为:

其中cigt和cirender为核心真实意象,在每个可见视图中将渲染意象的整体价值除以255,并采用绝对差异作为衡量标准进行比较分析。这种置信度图可以通过现成的后滤波技术进一步精化预测出的深度图,并在此基础上应用[51]中提出的平面双边滤波方法得到最终结果,从而显著提升了深度质量,并特别针对难以精准呈现的部分进行了优化处理
该引导优化策略依赖于自适应深度先验作为输入,并沿着相机光线执行引导点采样操作;然而,在这种情况下,即使不依赖于最近视点的自适应深度先验也能直接合成新的视角。通过经验观察到的结果表明,在生成深度图方面表现出了显著的优势,并且在视图合成质量上明显超越了传统NERF方法(如表5所示)。
5. Conclusion and Future Work
在本研究中,我们开发了一种多视图深度估计方法,并将其与基于学习的深度先验相结合以优化NERF。与现有研究不同,在室内场景中使用NERF进行深度估计时,NERF的形状-辐射模糊性成为性能瓶颈。为此,我们提出了一种指导性优化框架来规范适应深度先验的立体渲染过程中的采样策略。实验结果表明,在室内外多视角场景中均实现了显著提升:因对数据流量对应关系的错误估计导致性能下降的现象不仅存在于室内场景,在室外场景中同样存在且影响更为明显;此外我们还观察到,在应用该框架进行优化后,NERF的整体视图合成质量得到了显著改善。值得注意的是,在应用该框架进行优化后,虽然我们的方法较之传统的NERF实现速度提升了约3倍(达到3x),但目前的方法仍然存在效率不足的问题——尽管如此我们仍认为这种方法展示了利用神经辐射场进行精确化_depth_estimation的良好前景。未来工作将聚焦于进一步优化神经辐射场模型的基础架构以解决这些问题
