【文献解析】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
这篇论文
该GitHub仓库提供了一种基于深度学习的开放源代码实现
该PyTorch实现基于神经网络技术开发
一、文章概述
1.问题导向
基于全新的视角生成具有照片级真实感的输出图像需要对复杂的几何体及其材质的反射特性进行精确建模与计算。目前而言,现有的技术尚未能够实现这一目标,传统的SfM方法在重建精度上仍有不足,仅通过将图像的颜色信息投射至模型表面来模拟场景效果
2.目标
通过低分辨率图像实现多角度高质量渲染效果。
一种基于神经网络的深度学习方法用于隐含地表示三维场景。
其在3D空间中的表现形式可分为以下几类:
显式的表征方式包括:
如网格模型(Mesh)、点云数据(Point Cloud)、体素网格(Voxel)和体积数据(Volume)。
而隐式的表征方式则采用函数形式来描述场景集合的特征。
[

](https://guyueju.oss-cn-beijing.aliyuncs.com/Uploads/Editor/202405/20240508_85930.png)
3.摘要
我们开发了一种创新的方法,并通过优化基于稀疏输入视图集的连续体场景函数来实现合成复杂场景新奇视图中的最高水平表现。我们的算法采用全连接深度网络(非卷积)来表示场景细节特征,并将单个连续5D坐标点作为输入用于计算体积密度值以及该位置处与视图相关的发射辐射率参数。通过沿相机光线方向查询这些5D坐标点即可生成所需视图内容,并基于此,在优化表示时只需提供一组具有已知相机姿势的图像数据。我们展示了如何有效利用神经网络模型来渲染具有复杂几何特性和外观细节的真实感新型视图,并验证了与现有神经渲染技术和传统图像合成方法相比优越性
4.贡献
- NeRF最初采用了5D隐式表示方法以降低生成图像与真实图像之间的误差。
- 基于连续5D函数(神经辐射场)描述静态场景。
- 在经典的体积渲染技术基础上构建了支持微分的渲染流程。
- 设计了一种位置编码机制(position encoding),将5D输入参数映射到更高维度的空间中。
5.不足
- 计算速度慢
- 只针对静态场景
- 泛化性差
- 需要大量视角
二、方法解析
2.1 系统pipeline
[

](https://guyueju.oss-cn-beijing.aliyuncs.com/Uploads/Editor/202405/20240508_20668.png)
三维空间坐标(x, y, z)与二维投影方向(θ, ϕ)
模型:MLP
损失函数:光线追踪函数具有可微性特性,在优化过程中使合成图像与实际观测图像之间的差异最小化
输出:预测RGB颜色通道值(R, G, B)及透光率σ
系统的详细工作流程如下
[

](https://guyueju.oss-cn-beijing.aliyuncs.com/Uploads/Editor/202405/20240508_35585.png)
2.2 使用5D辐射场体渲染
朗伯定律属于光学领域的基础理论,在理想条件下描述光线照射到漫反射表面时的出射光特性。然而,在实际应用中许多物体并不完全遵循这一规律。例如镜面反射特性明显的金属等物体会产生显著的非朗伯效应现象这也是为何研究者需要构建5D辐射场模型的原因之一。传统立体渲染方法通过模拟光线穿过场景空间来生成颜色图像其在二维视图上呈现的效果则是三维场景中各采样点沿观察方向投影后对应采样点权重叠加的结果单个视角下的像素RGB值则需综合考虑该方向上全部采样点的颜色信息及散射系数C(r)即为预期的颜色分布函数
[

](https://guyueju.oss-cn-beijing.aliyuncs.com/Uploads/Editor/202405/20240508_32838.png)
文献解析
文献解析
文献解析
