【ECCV 2024】LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation
大型多视图高斯模型的高分辨率3D内容生成
Tang Jiaxiang等、Zhaoxi Chen等、XiaokANG Chen等、Tengfei Wang等、GANG Zeng等、Ziwei Liu
Peking’s University, Center for S, Nanyang Tech’s University, and AI Lab of Shanghai
摘要
3D内容创作在质量和速度方面均取得了显著进展。尽管当前的前馈模型可在短短几秒内生成3D对象,并且能够处理较高的分辨率数据;然而,在训练过程中所消耗的巨大计算资源限制了其应用范围。本文提出了大型多视图高斯模型 (LGM)这一创新框架,在通过文本提示或单视图图像生成高质量3D模型方面具有开创性意义。主要贡献包含两方面:(1)3D表示:我们提出了一种高效而强大的多视图高斯特征表示方法,并将其融合以实现可区分渲染效果;(2)3D主干:我们设计了一个非对称U-Net作为多视图图像处理的高效主干架构,在利用多视图扩散模型从文本或单视图图像输入生成高质量3D内容的同时实现了5秒内完成生成任务的目标。大量实验表明本方法能够在提升生成分辨率的同时保持快速生成速度;通过将训练分辨率提升至512×512并维持5秒内完成生成任务的能力显著提升了3D内容生成效率与质量。

图1: 从单视图图像或文本生成5秒内的高分辨率3D高斯。
引言
自动化的3D内容生成技术在多个领域展现出巨大的前景,并非局限于单一应用领域
以往关于三维生成的研究主要基于分数蒸馏采样(SDS)[22,24,36,47]这一技术路径展开,在二维扩散先验的基础上拓展至三维生成空间中。这类优化方法能够实现高度价值的具体输出——从文本或单视图图像输入中提取并呈现复杂细节的三维对象信息;然而这类方法存在明显的局限性:即生成速度较慢且在多样性方面表现不足。近期研究则转向采用单视点或多视角图像[15,19,52,55,57]的大规模重建模型,在这一新框架下大幅降低了时间恢复的需求;这种改进使得方法在实际应用中更具效率与可行性。值得注意的是这类方法普遍依赖于Transformer架构直接回归三平面神经辐射场(NeRF)[32]这一技术路线;然而由于训练数据分辨率较低的问题限制了其在纹理细节与几何复杂度方面的表现能力:具体而言模型在固定计算资源下受到三平面表示能力与在线卷渲染效率双重制约——例如现有的LRM [15]模型受限于分辨率仅为32×32的空间划分而在线卷渲染则进一步限制了最终输出图像的空间分辨率至128×128区域;尽管如此这些方法仍然受到计算密集型主干架构的影响:这在一定程度上限制了其训练效率与模型性能。
为了实现少镜头三维重建模型的有效训练目标,在不依赖基于三平面体积渲染或transformer[15]的前提下
我们的方法模仿了Instant3D[19]中的多视图重建架构。在这一过程中,将来自每个输入视图的图像与对应的相机参数转换为特征图,这些特征随后被解码并融合成一组高斯分布。通过可微分渲染技术从融合后的三维高斯分布生成新的多视图,从而实现端到端图像级别的监督学习。为了促进在所有输入视图之间共享信息,我们将注意力机制整合进U-Net架构中的更深层次,使模型能够高效地完成跨视角的任务。在推理阶段,我们不仅利用现有的图像信息进行扩散模型合成[27,43,44,51],还通过现有文本信息进一步提升了生成质量。为了克服实际3D对象渲染与扩散模型合成之间的域适应问题,我们引入了两套专门的数据增强策略来优化训练效果。最后,考虑到目标应用中对多边形网格表示的需求,我们开发了一种通用算法将生成的3D高斯场转化为平滑且具有纹理细节的真实世界网格形状
综上所述,我们的贡献 是:
- 创新性地构建一种新的框架,在多源特征信息中融合多视图图像的数据资源,并通过该方法从文本提示或单视图图像中提取高分辨率的三维高斯分布参数。
- 研究基于非对称UNet结构的高效端到端训练架构,在保持较高分辨率的同时,探索数据增强技术以提升模型鲁棒性,并提出一种基于3D高斯分布的通用网格提取方法。
- 通过系统性实验分析表明,在文本到三维建模及图像到三维重建等关键任务中,所提出的方法均展现出显著的综合性能优势。
相关工作
高分辨率三维生成 。目前生成高保真度三维模型的方法大多依赖于基于sds的优化技术。它需要具有表现性的3D表示和高分辨率 通过嗅觉监督,有效地将详细信息从二维扩散模型中提取成三维模型。由于与NeRF的高分辨率渲染相关的显著内存消耗,Magic3D [ 22]首先将NeRF转换为DMTet [42],然后训练第二阶段进行更精细的分辨率细化。DMTet几何图形和哈希网格[34]纹理的混合表示能够捕获高质量的3D信息,这可以使用可微栅格化[18]有效地呈现。 Fantasia3D[6]探索了直接训练DMTet与解纠缠的几何形状和外观生成。随后的研究[8,20,21,47,49,54]也采用了类似的基于网格的阶段,使高分辨率监督增强细节。另一个很有前途的三维表示方法是高斯溅射[17]因为其表达性和高效的渲染能力。尽管如此,用这种方法获得丰富的细节,需要在优化过程中进行适当的初始化和仔细的致密化 [10, 59]。相比之下,我们的工作研究了一种前馈方法来直接生成足够数量的三维高斯分布。尽管如此,使用这种方法获得丰富的细节需要在优化[10,59]期间进行适当的初始化和仔细的致密化。相反,我们的工作研究了一个前馈系统 直接生成足够数量的三维高斯分布的方法。
先进的三维生成技术 与基于SDE的传统优化方法相比,在大规模[11,12] 3D数据集上进行过训练后的工作显示,在几秒钟内即可完成生成过程。一些研究致力于在3D空间表示上训练条件扩散模型[1-6,8-10] ,其中包含点云[1] 和体素网格[5-7] 等关键组件。然而这些方法存在两个主要缺陷:其一是在大规模数据集上的泛化能力不足;其二是难以生成具有丰富细节的真实世界级物体。最近的研究工作表明,在短短5秒内从单个视图图像中稳健预测NeRF回归模型的能力得到了显著提升,并可进一步导出到网格中实现高质量预测结果[15] 。在此基础上Instant3D [19] 提出了结合多视图扩散模型与多视图-LRM(LMR)的方法框架,在文本到多视图合成方面展现了显著优势[24-27] 。当前研究工作将LMR扩展至支持多视图输入,并结合扩散模型框架进行优化,在人类特定领域进行了深入研究[48-49] 。这些前馈架构通过简单的回归目标即可实现快速收敛,并显著提升了三维对象生成效率;但其基于三平面Nerf(TP-Nerf)的表现受限于较低分辨率建模能力,并无法达到预期的最佳保真度目标。相反我们提出了一种高保真的前馈系统架构采用高斯喷 paint 和U-Net架构设计
高斯飞溅生成 。我们重点分析了基于Gaussian Splatting[4 7 23 38 56]的相关方法及其在生成任务中的应用。 DreamGaussian[47]首次将三维高斯算法与基于SDEs(偏微分方程)的优化方法融合以减少计算时间。 GSGen [10]以及GaussianDreamer[59]则分别探讨了文本到三维高斯生成的各种密集化策略及初始化方案。 尽管在加速方面取得了进展但使用这些基于优化的方法生成高质量的三维高斯函数仍需几分钟时间。 Triplane-Gaussian三平面高斯模型[62]则成功地将其应用于LRM框架中。 虽然该模型在实现三平面分辨率和数量方面的优势显著提升了生成效果 但其对生成物的质量仍有待进一步优化。 另一方面利用U-Net架构从单视图图像中预测输出特征图上的三维高斯分布密度这一方法主要关注于单视图或双视图场景 并未将其扩展至大规模数据集范畴内。 同样地PixelSplat [3]通过从场景数据集中预测每个像素在两个姿态图像中的高斯参数实现了相应的目标。 我们在此基础上设计了一个包含四组视图重建模型的新架构 它能够有效整合现有多视图扩散模型 并实现对一般文本或图像对象进行高质量三维重建。
方法
首先阐述非接触等离子体高斯沉积技术及其在多场次扩散模型中的应用背景(第 3.1 节)。随后介绍本研究提出的高分辨率 3D 内容生成框架(第 3.2 节),其中核心模块是不对称 U-Net主体结构,在第 3.3 节详细阐述其在多视图图像分析中的作用。本节深入探讨了数据预处理与网络优化方案的设计思路(第 3.4 节)。最后提出了一种系统化的方法来提取平滑纹理网格以辅助后续分析过程(第 3.5 节)
Preliminaries
Gaussian splatter 。如参考文献[17]所述,在该研究中提出了一种基于三维高斯模型的数据建模方法。具体而言,在该模型中每个Gaussian组件由一个中心位置x∈R^3、比例因子s∈R^3以及旋转四元数q∈R^4三个基本参数定义。为了实现有效的视觉效果渲染过程,则需要同时考虑不透明度值α∈R以及颜色特征c∈RC这两个关键参数。值得注意的是,在该模型中球面谐波被引入用于模拟视图相关的反射效果。这些参数可以通过同一个参数集合Θ共同表征出来:其中第i个Gaussian组件的参数集合可表示为Θ_i = {x_i, s_i, q_i, α_i, c_i}。值得注意的是,在该模型中对三维Gaussian组件的渲染过程具体来说是将它们分别投影到图像平面上并作为二维高斯分布来进行处理;而对于具有不同深度顺序的图像像素点,则需要依次应用alpha融合操作来确定最终的颜色值及其alpha值
该研究提出了一种新型多视角扩散模型(Multi-View Diffusion Model)。传统的二维扩散模型[39,41]专注于生成单一视角的图像,并不具备处理三维空间数据的能力。近期的研究者们[20, 27, 43, 44, 51]针对三维数据集进行了相关研究,并通过将相机姿态作为额外输入参数来提高模型性能。这些方法能够根据文本提示或单一视角图像生成多个不同角度的图像以供参考使用。然而,在缺乏真实三维重建的情况下这一技术仍面临一定的局限性:这可能导致不同视角之间存在视觉上的不协调

图2: 管道系统。经过严格的训练过程后,在多视图图像处理中能够生成并构建3D高斯分布的数据结构。这些数据可以通过现成的模型 [44,51] 单独来自文本信息、单独基于图像数据或两者的结合进行推理合成。可以选择提取多边形网格作为主要结构的信息进行进一步处理
网络框架
如图2所示,在推理过程中我们采用了分步三维生成管道的方法。具体而言,在第一步中我们利用现成的文本或图像输入到多视图扩散模型中进行处理。其中MVDream [44]被用于接受纯文本输入而ImageDream [51]则被用于接收图像(以及可选的辅助文本信息)作为输入端口。这两种模型均旨在生成四个正交方位角(即0°,90°,180°,270°)以及固定仰角的不同方向图像以供后续使用。在第二步中我们通过基于U-Net架构处理这些稀疏采样的多视图图像来推断三维高斯特征并完成预测任务。具体来说我们的模型经过训练能够将经过相机姿势嵌入处理后的四个输入图像映射到四组高斯特征进而将这些特征融合汇总以获得最终完整的三维高斯场数据结果

图3:LGM 的架构 。我们的网络基于非对称 U-Net 架构设计,并包含跨视图自注意力机制。该网络接收包含相机光线嵌入的四幅图像作为输入,并生成被视为具有3D高斯分布特性的特征图集合。随后通过新颖视角渲染这些高斯分布,并利用 ground truth 图像指导监督学习过程。
用于3D高斯的非对称U-Net
我们框架的主要由一个不对称 U-Net 来实现,在多视图图像中估计与融合高斯分布。该网络架构已在图3中展示。我们通过4张图像及其对应的相机姿态来进行训练数据的构建。在此基础上[57]所述的方法上,在此基础上我们采用Plücker射线嵌入来进行相机姿态的密集编码。将RGB值与Plücker射线嵌入信息结合形成一个9通道特征图来作为网络的第一层输入

其中fi是像素i的输入特征,ci是RGB值,di是射线方向,oi是射线原点。
U-Net 基于残差层 [13] 和自注意力层 [50] 的设计 ,与以往研究 [14, 31, 46] 的工作具有相似性。我们仅在更深层次引入自注意力机制 ,并通过降低特征图分辨率来减少内存占用。通过在应用自注意前对四个图像特征进行展平并连接操作 ,该方法与先前的多视图扩散模型[44, 51]展现出相似的效果
输出特征图的每个像素都被被视为基于飞溅图像模型[46]生成的3D高斯分布。
鲁棒训练
数据增强技术方面,我们采用了基于来自 Objaverse [12] 数据集生成的多视图图像进行训练的方法。然而,在推断阶段,则采用基于扩散模型生成的多视图图像[44,51]。以缓解来自不同域或多视角图像之间的域差异,并开发了两类数据增强方法以提升训练效果
网格变形 。已有研究证实,在基于二维扩散模型生成三维统一多视角图像方面取得了显著成果 [25,43,44,51]。然而,在缺乏对应的三维表示信息的情况下,在不同视角下的图像之间可能存在微小的一致性差异。为了模拟这种差异性,在本研究中我们采用以下策略:除了通常采用正面参考视角作为输入外(即第一个输入视角),其余三个输入视角则采用随机空间变换进行处理。通过这种方式处理后的数据集能够帮助提升模型对多样化的多视角输入具有的鲁棒性
轨道相机抖动 也是一个关键的技术点。另一个问题可能是合成多视图图像无法严格满足给定的相机姿态要求。参考文献[15]中所述,在每个训练步骤中我们始终对相机姿态进行规范处理以确保一致性。为了固定第一个视角下的相机姿态而不影响整体模型性能,在训练过程中我们对最后三个输入视角执行随机扰动。具体而言,在场景中心轴线上通过随机旋转的方式实现这些视角的一致性处理以确保一致性的同时还能让模型能够更好地适应不精确的姿态和平移光照情况
损失函数 。基于监督连接的高斯函数,本研究采用文献[17]所提出的可微渲染器技术来生成它们。在每个训练阶段,我们同时生成八组RGB通道图像与alpha通道图像,其中包含四组输入视角以及四组新增视角。在此基础上,我们分别采用均方误差(MSE)损失以及基于VGG网络的LPIPS(Perceptual Image Patch Similarity)损失函数计算RGB图像特征:

我们进一步在 alpha 图像上应用均方误差损失,以更快地收敛形状:

网格提取
多边形网格作为下游任务中常用的 3D 表示形式依然具有重要性。为此我们需要从我们生成的结果中进一步提取出所需的几何结构信息。此前的研究[47]尝试通过 将3D高斯体素的有效遮挡度值直接映射为用于网格提取的过程 来实现这一目标。然而经过深入研究我们发现这种策略在优化过程中的主要缺陷在于其对过于激进程度高的致密化手段的高度依赖性。与之相比在我们的方法中所生成的结果通常表现出较高的稀疏性特征从而可能导致表面存在可见孔洞的现象无法得到理想解决
因此

图4: 网格抽取系统 。开发出了一种高效的方法,在此基础上实现了对三维高斯信号的高效转换,并生成了平滑且具有纹理特征的网格。
实验设置
实施细节
基于 Objaverse [12] 数据集的精挑选取
该网络架构由多个功能模块构成
训练 。我们选择 32 块 NVIDIA A100 (80GB内存) GPU 运行了大约 4 天的训练任务。每个 GPU 采用 8样本的 bfloat16 精度处理,并导致总样本量达到 256。对于每一批次的数据来说,在摄像头集合中随机选取 8个视图作为输入样本(前 4 个视图),并将所有 8个视图作为监督输出目标。与 LRM 方法[15]类似,在每批数据加载时会变换摄像机视角,并强制保证第一个输入视图始终是具有单位旋转矩阵和平移向量的第一视角图像。假设所有输入图像均带有白色背景区域以模拟真实环境中的背景处理需求。为了生成用于均方误差损失计算的目标体数据,在渲染阶段将输出结果限制在 512×512 的分辨率下完成。为了节省内存资源,在 LPIPS 损失计算前将图像尺寸缩减至 256×256 的分辨率范围之内。在优化过程使用 AdamW[29]优化器(参考文献),设定初始学习率为4 × 10^{−4} ,并配置权重衰减系数为 0.05;同时设置动量参数 β 值为 (0.9, 0.95) 。在整个训练过程中按照余弦退火策略逐步减小学习率直至降为零值以避免收敛问题。此外为了防止梯度爆炸现象的发生,在反向传播过程中对梯度值进行了最大范数(即L∞范数)裁剪处理,并将网格失真与相机抖动的操作概率设定为均为50%。
推断过程 。我们的整个系统架构主要由两个多视图扩散模型 组成,在实际运行中仅需约10 GB的GPU内存即可完成推断工作。这一配置使得系统的部署更加便捷高效。具体而言,在现有研究基础上 我们采用了ImageDream [51] 模型并将其引导尺度设定为5倍;而对于MVDream [44] 模型,则采用了更为精细的7.5倍引导尺度 。为了提升推断效率,在实验中我们选择了DDIM[45]调度器并将扩散步数设定为30步。值得注意的是,默认参数设置中相机仰角被固定为0度,并将四个生成视图的方向参数固定在[0°,90°,180°,270°]范围内。 特别地,在ImageDream [51] 模型中,默认情况下文本提示为空值;因此唯一需要提供的输入仅为单视角图像数据;而针对MVDream生成的图像由于可能包含复杂背景信息,在实验过程中我们对生成图像进行了背景去除处理(参考文献[37])并在输出结果中统一采用白色背景填充以保证视觉一致性 。
定性比较
Image-to-3D


Text-to-3D

值得指出的是,在这项研究中

定量比较
我们主要开展了一项用户研究活动,在系统层面量化分析了几种不同的三维高斯模型生成效果。针对包含30张图片的数据集进行了评估,在实验过程中使用 DreamGaussain [47](仅第一阶段)、TriplaneGaussian[62] 和我们的方法生成了多个不同视角下的三维高斯体视频序列。在实验中总共收集了95个高质量样本用于评估效果并采用统一评测标准。每位参与者需要对使用混合随机方法生成的30个样本进行评分,并从'图像一致性'和'整体模型质量'两个维度进行评价。经过对所有结果数据进行统计分析处理后发现,在通过视觉感知测试中得分最高的方案是基于我们提出的方法实现的结果方案

消融实验
视图数量 。我们训练了一个图像到 3D 模型,只有一个输入视图类似于飞溅图像 [46],即没有多视图生成步骤。UNet 将单个输入视图作为自注意力的输入,并输出高斯特征,如我们的多视图模型所示。为了补偿高斯的数量,我们为输出特征图的每个像素预测两个高斯,从而得到128×128×2=32,768个高斯。如图9左上角所示,单视图模型可以重建忠实的前视图,但不能区分后视图并导致模糊。正如预期的那样,因为回归 U-Net 更适合重建任务,并且在我们的实验中很难推广到大型数据集。
数据增强技术的应用验证中,我们对比了是否采用数据增强的小型模型的表现。实验结果表明,在推理过程中出现域间隙的情况下(如图9左下角所示),未使用数据增强的小型模型不仅在损失上表现较优,在生成图像中出现了更多的漂浮物和几何形状更为欠佳的情况。通过采用该策略的数据增强方法训练的小型模型在多视图图像中能够有效纠正3D重建中的不一致性和相机姿态的问题。

训练分辨率 。最后,我们训练了一个具有较少高斯数和较小渲染分辨率的模型,如图9右侧所示。我们去掉了U-Net的最后一个上块,因此输出高斯数为64 × 64 × 4 = 16, 384,我们将其渲染为256 × 256进行监督。该模型仍然可以收敛并成功重建 3D 高斯,但与 256 × 256 输入多视图图像相比,细节更差。相比之下,我们在 512 × 512 的大分辨率模型可以捕获更好的细节并生成更高分辨率的高斯。
局限性
尽管结果显示前景光明
结论
在此研究中,我们开发了一种新型的大规模多视图Gaussian模型,专门用于高质量3D场景生成任务。与以往基于NeRF和Transformer的方法不同,我们的模型采用Gaussian射影与U-Net架构来有效应对内存占用问题并提升生成精度。此外,我们深入探究了数据增强技术以提高泛化能力,并在生成的3D Gaussian体上引入了网格抽取算法以优化结果表现。该方法实现了高效性能,在多种应用领域均展现出卓越的适应性和实用性
【注】仅供个人学习记录
