【论文分享】RealFusion 360° Reconstruction of Any Object from a Single Image|牛津大学
论文地址:RealFusion
我们考察这篇论文的实现效果时发现,在第一列中展示的是原始输入图像,在第二列展示了基于单张输入图像进行的立体重建效果,在后续列中则展示了其他不同角度下的重建结果。通过立体重建技术可以实现从单一视图恢复物体在任意角度下的三维信息。

实验结果
Background 任意物体单视角3D重建
- 单视角所含信息有限
- 需要语义信息和场景信息等
基于单一视角构建任意物体的三维模型是一个极具挑战性的任务;鉴于此,在三维重建任务中,仅通过一张图片获取足够的信息来还原一个立体场景是极为有限度的做法;相对容易地推测或想象该物体的整体三维形态,则是人类凭经验所能达到的能力范围;为了实现这一目标,在理想情况下我们希望模型能够通过某些信息推断或还原物体背面的整体结构。

小猫雕塑
Model: RealFusion(NeRF + Stable Diffusion)

模型
给定一张输入图像,在选定一个相机视角后,通过神经辐射场(NeRF)来表示场景,并进而实现两个目标。
1. 已知视角-重建 (橙色)
在本阶段中,针对已知视角(即输入图像对应的视角),我们完成三维重建过程。具体而言,在完成三维重建后会生成一个3\times3矩阵形式的相机参数估计结果,并通过计算得到生成的渲染图像与原始输入图像之间存在一定的重建误差。随后会对该误差值进行优化调整以达到最低误差水平。
2. 未知视角-合成 (蓝色)
第二部分采用的是未知视角策略。我们从物体中心所在的半球区域中随机选取若干个采样点来进行渲染,并通过计算生成的渲染图像与输入图像之间的似然值,并对其进行优化以使得其他角度下的图像呈现出更加逼真的效果。
Stable Diffusion 扩散模型
在对未知视角的处理上, 因为我们缺乏关于物体背面信息的直接获取途径, 在进行3D重建时会面临挑战. 为此, 在现有条件下我们应依靠一种高效且可靠的生成式技术框架来辅助完成这一任务. 具体而言, 在机器视觉领域中被广泛采用的是 扩散模型 (diffusion model), 它通过模拟热扩散过程来实现图像的去噪和细节增强.

扩散模型:基于输入的一副图像,在逐级叠加高斯噪声后形成全噪声版本;随后通过逆向过程逐步去除噪声以恢复原图;该模型旨在训练一个能够从任意随机噪声中恢复原始图像的网络结构。
论文中使用 Stable Diffusion (以文本为条件的扩散模型):
- Pixel Space x → Latent Space z ,采用AutoEncoder技术将原始图像映射至低维潜在空间z ,去除高频噪声并保留低频信息以提高计算效率 。
- 在潜在空间中执行正向扩散和逆向去噪操作 ,从当前时刻的潜在变量z_t生成新的潜在变量z_T 。U-Net模块学习条件噪声预测函数ε_θ(z_t, t),并通过反向传播算法更新模型参数以恢复出新的潜在变量z' 。再通过解码器模块生成最终的重构图像x' 。
- 条件机制的设计如下 :网络输入变量y可取文本描述、语义图示以及模糊图像等多种形式,并需满足可编码性要求 。在此基础上 ,通过交叉注意力机制先对输入条件y进行预处理τ_θ(y) 。同时优化这两部分参数以提升整体模型性能 。
同时,本研究在现有研究基础上,研究借鉴了《DreamFusion》这篇论文,并探索发现其去噪机制可作为NeRF等3D表示方法的重要优化手段.具体而言,该去噪过程可作为优化方法,通过反向传播更新MLP网络参数,从而提升渲染效率.如图所示展示了这一关键步骤

DreamFusion
Text Prompt 文本提示
Stable Diffusion能够基于文本生成图像。为此,在Stable Diffusion中输入文本提示例如我们可以输入 "An image of a fish."




通过观察这种文本提示的效果可以看出,在输入视图角度来看起来较为接近输入对象;然而,在其他角度来看起来并不那么像;反而是显得平淡无奇的一条普通鱼类或犬类。
Textual Inversion 文本反转(粉色)
为了实现各视角的一致性,并且其余各个视角的图像都能准确反映输入对象的特征,在本研究中我们采用文本反转技术进行处理。具体而言,在扩散模型构建阶段需要对文本编码器模块进行优化设计:首先,在生成过程前根据输入图像生成相应的文本提示 e ,例如一张关于〈e〉主题的照片;其次,在扩散模型构建阶段需将扩散模型中的文本编码器模块升级为包含特定嵌入层的设计
当摄像头置于高于60度的高度时(如高度超过61度),系统会自动添加相应的视角提示文字;若摄像头处于低于零度的角度位置,则系统将采用不同的视角提示文字;具体而言,在满足特定角度条件时(例如方位角在±31度至±89度范围内),系统将附加特定视角相关的提示信息
使用大量 图像增强 来训练文本提示 e :

图像增强示意图

图像增强伪代码

我们观察到采用这种基于文本反转的方法后,在第一行中未施加文本反转处理,在第二行中增加了对文本的反转操作。其各视角图像特征与原图像特征之间表现出显著的相似性。
Experiment

Authors Yufei Ye, Shubham Tulsiani, and Abhinav Gupta. Shelf-supervised 3D mesh prediction in real-world scenarios. In Computer Vision and Pattern Recognition (CVPR), 2021.
Authors Yufei Ye, Shubham Tulsiani, and Abhinav Gupta. Shelf-supervised 3D mesh prediction in real-world scenarios. In Computer Vision and Pattern Recognition (CVPR), 2021.

Limitations 局限性
- 优化过程受限于每张输入图像,并且运行速度缓慢,在处理大型数据集时显得力不从心。
- 在一些情况下会遇到重建物体形状的困难。
- 在某些情况下可能会出现同一物体显示为两张脸的情况(如图所示)。

Summary 总结
- 创新性地提出了一种基于单张图像实现任意物体三维重建的创新方案——RealFusion
- 借助引入的文本内容来辅助生成高质量的图像
- 扩散模型能够与NeRF技术实现精准的数据融合
对这篇论文进行综述。本文采用单张输入图像的方式,并通过生成相应的文本提示信息来引导扩散模型输出具有不同视角的图像。将这些图像作为输入传递给该模型以实现三维重建。值得注意的是,在实验阶段我们采用了InstantNGP替代该模型,并发现这种方法能够显著提升训练效率;另外一篇论文也采用了类似的思想由谷歌提出。同样也是单张输入图像的情况下 diffusion model 能够生成其他视角的图象并将其作为输入传递给该系统;然而 在这篇论文中所采用的方法是显式的 图像生成方式 而本文提出的 RealFusion 方法则是通过结合文本提示与隐式的 图像增强手段来间接表示不同视角的图象尽管目前从实验结果来看这种方法还不算稳定 但这也是我们未来进一步探索的目标
