Advertisement

【文献解析】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

阅读量:

论文:https://arxiv.org/abs/2003.08934
TensorFlow代码:GitHub - bmild/nerf: An available implementation for exploring and utilizing Neural Radiance Fields
PyToch代码:GitHub - yenchenlin/nerf-pytorch: A PyTorch-based implementation that replicates the results achieved by Neural Radiance Fields

一、文章概述

1.问题导向

基于全新的视角生成具有照片级真实感的输出时,则必须准确处理复杂的几何体、材质及其反射比属性。目前而言,现有技术尚未能实现对具有高度真实感的照片级场景进行高效渲染,传统SfM重建技术在成像精度上仍有待提升,并且其主要缺陷在于仅能将输入图像的颜色信息简单地投射至模型表面

2.目标

通过低分辨率图像成功应用稀疏重建技术,在任意视角下实现高质量的3D场景渲染。

[

](https://guyueju.oss-cn-beijing.aliyuncs.com/Uploads/Editor/202405/20240508_85930.png)

3.摘要

我们开发了一种创新的方法来解决连续体场景函数的优化问题。该算法采用非卷积全连接神经网络进行场景建模,并通过将空间位置 (x, y, z) 和观察方向 (θ, φ) 的组合作为输入端口实现了对复杂场景的新颖视角生成。为了生成所需视角并取得最先进成果,在模型训练过程中我们需要计算出该位置处的体积密度值及其对应的发射辐射度信息。针对各相机方向的空间位置进行采样以生成所需视角,并将渲染结果投影到图像平面。由于体素渲染过程可微分特性使得该方法具备良好的优化基础。为了提高模型效率和效果,在训练阶段仅需一组具有已知姿态的图像作为输入即可实现最优参数求解。此外本研究还详细探讨了如何有效配置多层感知机以适应不同几何结构和材质特征的要求并验证了其优越性

4.贡献

  1. 该网络首次采用5D隐式表示以最小化渲染图像与真实图像之间的误差。
  2. 通过连续的5D函数(即神经辐射场)来表达静态场景。
  3. 该方法基于经典的体素渲染技术构建了一个可微分的过程。
  4. 该研究提出了位置编码机制将5D输入映射至高维空间。

5.不足

  • 计算速度慢
  • 只针对静态场景
  • 泛化性差
  • 需要大量视角

二、方法解析

2.1 系统pipeline

[

](https://guyueju.oss-cn-beijing.aliyuncs.com/Uploads/Editor/202405/20240508_20668.png)

三维坐标系中的点由(x,y,z)表示对应于空间中某一点的位置信息;二维观测方向由(θ,ϕ)表示对应于相机视角的方向参数。
该神经网络架构基于多层感知机(MLP)设计。
该模型旨在最小化生成图像与实际观测图像之间的残差。
预测结果由(R,G,B,σ)组成对应于物体表面的颜色信息(R,G,B)与其透明度参数σ。
系统的详细流程将在此基础上展开介绍。

[

](https://guyueju.oss-cn-beijing.aliyuncs.com/Uploads/Editor/202405/20240508_35585.png)

2.2 使用5D辐射场体渲染

朗伯定律是光学中的一个基本原理,在理想条件下描述了光线照射到漫反射表面时的出射光特性:其强度仅受入射光强及入射角的影响而无依赖于观察方向。然而现实中许多物体并不遵循这一规律:如镜面等具有强反射特性的物体会产生非朗伯效应;这也是作者选择构建5D辐射场的主要原因:经典的立体渲染方法无法准确捕捉光线穿透场景的颜色信息;因此需要建立新的数学模型:对于每个光线 ray 穿越场景的情形而言;其在2D视图中对应的像素颜色值需综合考虑3D场景中沿该观测方向采样点处的各项属性;而单一视图中的像素 RGB 值则由这条射线上所有采样点的 (R, G, B, σ) 组成:体渲染的数学表达为 C(r) 为预期颜色值

[

](https://guyueju.oss-cn-beijing.aliyuncs.com/Uploads/Editor/202405/20240508_32838.png)

文献解析

文献解析

文献解析

全部评论 (0)

还没有任何评论哟~