Advertisement

论文阅读:EVA-GAUSSIAN: 3D GAUSSIAN-BASED REAL-TIME HUMAN NOVEL VIEW SYNTHESIS UNDER DIVERSE CAMERA SETTI

阅读量:

目录

ABSTRACT

1 INTRODUCTION

4 METHODOLOGY

4.1 概述

4.2 GAUSSIAN POSITION ESTIMATION

4.3 GAUSSIAN ATTRIBUTE ESTIMATION

4.4 FEATURE SPLATTING AND REFINEMENT


ABSTRACT

基于前馈的3D Gaussian Splatting方法在实时人类新视角合成方面表现出了卓越的能力。然而,现有的方法局限于密集视角设置,这限制了它们在跨大范围相机视角差异的自由视角渲染方面的灵活性。 为了解决这一局限,我们提出了一个名为EVA - Gaussian的实时管线,用于跨不同相机设置的3D人类新视角合成。具体来说,我们首先引入了一个高效的跨视角注意力(EVA)模块,以准确地从源图像估计每个3D高斯的位置。然后,我们将源图像与估计的高斯位置图集成,以预测3D高斯的属性和特征嵌入。此外,我们采用了一个循环特征精炼器来纠正由位置估计中的几何误差引起的伪影,并增强视觉保真度。为了进一步提高合成质量,我们为3D高斯属性和人类面部地标都引入了一个强大的锚点损失函数。 在THuman2.0和THumansit数据集上的实验结果表明,我们的EVA - Gaussian方法在跨不同相机设置的渲染质量方面具有优越性。 项目页面:https://zhenliuzju.github.io/huydong/EVA - Gaussian

1 INTRODUCTION

在 3D 人体化身重建领域,先前的工作已经采用 3DGS 作为人类的表示来实现可动画的全身人体化身重建。然而,这些方法依赖精确的人体模板作为先验,其训练和重建过程可能需要几分钟到几小时,这阻碍了它们在全息通信等实时应用中的使用。虽然一种前馈人体重建方法通过立体输入实现了快速重建和实时渲染,但相机视角之间的立体设置和小角度变化限制了稀疏相机设置下的整体重建质量,并且在多于两个输入视图时导致次优性能。

为了解决这些限制并使用各种相机位置和不同数量的相机实现人体的实时 3D 重建,我们提出了 EVA-Gaussian,一种基于 3D 高斯的实时人体新视角合成新流程。我们的方法通过多视图深度估计将 3D 高斯附着到人体表面,并使其位置与点云位置紧密对齐。我们方法的一个关键创新是引入了一个高效的跨视角注意力(EVA)模块用于多视图 3D 高斯位置估计。具体来说,我们采用 U-Net作为骨干网络,并进一步使用专用的窗口嵌入跨视角注意力来推断多视图位置对应关系。这种注意力机制使 EVA - Gaussian 能够有效处理来自不同视角角度的相机的多个输入,从而确保在广泛的视角范围内(甚至在极其稀疏的机位下)都具有稳健的性能。此外,我们集成了一个高斯属性估计模块,该模块将 EVA 输出和原始 RGB 图像作为输入来估计其余的 3D 高斯属性。此外,我们在每个高斯中嵌入一个额外的属性(称为特征),用于进一步的特征剖分和图像质量细化,从而减轻 EVA 模块引入的位置估计误差。此外,我们采用锚点损失来惩罚多视图面部地标之间的不一致,从而对人脸实现更好的监督。

我们在 THuman2.0和 THumanSit数据集上进行了广泛的实验。结果表明,我们提出的 EVA - Gaussian 在渲染质量方面优于现有的前馈合成方法,同时实现了实时重建和渲染。此外,我们的方法对不同数量的相机和相机视角角度的显著变化具有良好的泛化能力。

  1. 我们提出了一种新的快速前馈三维人体重建管道,称为EVAGaussian,它包括三个主要阶段:1)多视图三维高斯位置估计阶段,2)三维高斯属性估计阶段和3)特征细化阶段。
  2. 我们引入EVA模块来增强多视图对应检索,从而在不同视图数和稀疏相机设置下改进三维高斯位置估计和增强新视图合成。
  3. 我们采用了一种循环特征细化器,融合了飞溅的RGB图像和特征映射,以减轻由位置估计误差引起的几何伪影。此外,我们结合了锚损失,利用面部地标作为锚点,以更好地监督高斯位置估计,从而提高合成新视图图像的质量。
  4. 在THuman2.0和THumansit上的大量实验证明了我们提出的管道在渲染新视图质量和推理速度方面优于现有方法的有效性和优越性,特别是在稀疏相机设置下。

4 METHODOLOGY

4.1 概述

我们的目标是从一组稀疏视角的RGB图像I_i^n_{i=1} 重建3D场景,这些图像是从围绕人体的不同视角拍摄的,其中任意两个相邻相机视角之间的角度用elta表示,并在任何相机位置实时合成任意新视角图像。为实现这一点,我们提出了EVA-Gaussian方法,该方法利用深度神经网络和3D高斯剖分来提高新视角图像质量,同时实现实时重建。

具体来说,我们采用3DGS来将每个源图像I_i表示为一组3D高斯。前景中的每个像素对应一个唯一的3D高斯。我们用U_i表示源图像i的高斯数量。所提出的EVA - Gaussian从图像集I_i_{i = 1}^n预测3D高斯的位置和属性,形式为属性映射M_i{i = 1}^n = P_i, O_i, S_i, Q_i, F_i{i = 1}^n,其中P_i, O_i, S_i, Q_iF_i分别表示高斯位置、不透明度、尺度、四元数和源图像i的特征的属性映射。值得注意的是,在特征映射F_i = f_{iu}_{u = 1}^{U_i}中,每个元素f_{iu} n athbb{R}^{32}作为与每个3D高斯相关联的新属性,这将在4.4节中用于去除P_i_{i = 1}^n中由几何误差引起的伪影。 从数学上讲,EVA - Gaussian的过程表示为:
M_i{i = 1}^n = athcal{D}heta

其中athcal{D}_heta是由参数heta参数化的深度神经网络。EVA - Gaussian的框架如图2所示。

图2:eva - gaussian的框架。EVA-Gaussian将人类主体周围捕获的稀疏视图图像作为输入,并执行三个关键阶段:(1)估计3D高斯点的位置,(2)推断这些高斯点的剩余属性(即不透明度、尺度、四元数和特征),以及(3)以循环的方式改进输出图像。

EVA - Gaussian将预测高斯图的过程分为三个阶段。在第一阶段,它采用具有高效跨视角注意力模块(EVA)的U - Net架构来获得增强的3D高斯位置P_{ij}_{j = 1}^{n}的多视角预测,这将在4.2节中详细阐述。在第二阶段,一个高斯属性预测网络(在4.3节中详细阐述)将预测的3D高斯位置图P_{ij}_{j = 1}^{n}和原始RGB图像I_{ij}_{j = 1}^{n}作为输入,来估计3D高斯的剩余属性。 然后,来自所有源图像的预测3D高斯通过微分光栅化聚合以渲染目标视图。在最后阶段,渲染的RGB图像at{I}^0及其相应的特征图F_{novel}通过4.4节中描述的网络进行融合以进一步细化。此外,在训练阶段引入锚点损失以提高整体重建质量,这将在4.5节中阐述。

4.2 GAUSSIAN POSITION ESTIMATION

人体表面的深度变化可能看起来很小。然而,这些细微差别非常重要,特别是在包含丰富语义信息的区域,如面部和手部。即使在这些区域的深度估计存在微小的不准确,也会导致视觉质量和保真度的显著下降。这突显了精确估计3D位置以实现有效和高保真人体重建的必要性。 为了应对这一挑战,我们采用基于U-Net的架构D_{heta_1}从多视图图像I_i_{i = 1}^n估计3D高斯位置图P_i_{i = 1}^n,其表达式为:
P_i{i = 1}^n = D{heta_1}

图3:用于3D高斯位置估计的高效跨视角注意力(EVA)模块。 EVA将多视角图像特征作为输入,使用移位算法将它们嵌入到窗口块中,并在来自不同视角的特征之间执行跨视角注意力操作。

为了确保在不同相机角度或任意输入视图下的精确深度估计,我们提出了一个EVA模块,如图3所示。该模块集成到U - Net基架构D_{heta_1}的三个最低分辨率层中,以促进多视图对应检索和信息交换。我们用j表示这三层中每层的索引,其中j=-1j=-2j=-3分别代表最低、次低和第三低分辨率层。EVA将多个中间图像特征oldsymbol{E}_{i}{j}\in\mathbb{R}{R^{j}imes C^{j}},orall in1,dots,n, 其中orall jn -1,-2,-3

作为输入,并输出相应的增强图像特征ilde{E}_{ij},其中R_jC_j分别表示第j层每个像素的总像素数和通道维度。在执行注意力机制之前,可学习的位置嵌入amma被添加到中间特征E^j_i中,以改善对图像坐标的理解。

与其他适用于 256×256 低分辨率的前馈场景重建方法相比,我们的方法旨在实现 1024 分辨率的高质量人体重建。鉴于在以人为中心的相机设置下,来自参考视图的对应像素仅位于相邻位置,像 Chen 等人所采用的那样,在整个图像的连接多视图图像或特征图上计算注意力分数是非常低效的。为了提高效率,EVA 仅在局部窗口内计算交叉注意力,该窗口在每次注意力迭代时按窗口大小减半进行移动。这种移动窗口允许低计算复杂度和更好地利用 GPU 内存,同时保持高性能。

在交叉视角注意力阶段,中间特征E^j_i被线性变换为查询、键和值矩阵,分别表示为Q^j_iK^j_iV^j_i。对于每个E^j_i,我们计算与从所有参考图像特征融合的主密钥ar{K}^{j}的交叉视角注意力,排除自身特征。即verline{K}_{i}{j}=\mathcal{T}_{i}{j},其中融合athcal{T}_{i}^{j}是通过使用全连接神经网络实现的。因此,每个注意力图是从其派生的关联查询、融合键及其对应值计算得出的,如下所示:
Aj_i=\mathrm{softmax}(\frac{Q_{ij}\bar{K}_{ij}^{T}}{\sqrt{C_{j}}})Vj_i

其中A_{i}^{j},orall in1,2,dots,n表示得到的注意力输出。

值得注意的是,当每个高斯的尺度足够小时,一个像素的 3D 高斯位置与其在深度图上的对应值精确对齐。这一性质的详细证明在附录 C 中提供。基于这一观察,我们训练位置估计网络D_{heta_1},通过均方误差(MSE)损失函数来获取位置图P_i^n_{i=1},其中P_{gt}表示地面真实深度图。
athcal{L}_{athrm{depth}}=||P_i-P_i^{athrm{gt}}||_2

4.3 GAUSSIAN ATTRIBUTE ESTIMATION

为了完成3D高斯图M_i_{i = 1}^n的估计,我们采用一个浅层的U - Net D_{heta_2}^A来估计剩余属性O_iS_iQ_iF_i。该网络将4.2节中第一阶段估计的3D高斯位置图P_i_{i = 1}^n和原始RGB图像I_i_{i = 1}^n作为输入,并输出3D高斯属性O_iS_iQ_iF_i,其表达式为
O_i, S_i, Q_i, F_i{i = 1}^n = D{heta_2}^A

得到的估计3D高斯图M_i{i = 1}^n = P_i, O_i, S_i, Q_i, F_i{i = 1}^n随后被用于通过3节中描述的过程渲染新视角。网络D_{heta_2}^A通过使用渲染新视角图像at{I}^0和真实图像I^{ext{gt}}之间的均方误差(MSE)损失和结构相似性指数度量(SSIM)的组合进行训练,如下所示:
L_{ext{render}} = at{I}^0 - I{\text{gt}}|_22 + ambda_{ext{render}}

其中ambda_{ext{render}}表示结构相似性指数度量(SSIM)损失的权重因子。

4.4 FEATURE SPLATTING AND REFINEMENT

4.2节中估计的3D高斯位置图P_i不可避免地会存在一定程度的误差,这可能会导致渲染的RGB图像中出现扭曲和伪影。为了缓解这些问题,我们提出了一种剖分后细化方法来校正位置估计。近期研究表明,特征向量表示能够比球谐函数更有效地捕捉场景信息,从而在新视角合成方面带来显著改进,特别是在视角重叠有限的场景中。受此发现启发,我们将4.1节中提到的特征向量(即f_{iu} n athbb{R}^{32})作为每个高斯的附加属性,以更精确地捕捉其空间特性。 在剖分过程中,我们首先聚合来自所有源视图的3D高斯。然后,使用公式(3)渲染这些3D高斯的颜色值。同时,使用改进的lpha混合将3D高斯的特征值剖分到图像平面上,如下所示:
f_{ext{pixel}}=um_{j = 1}^{N} f_j lpha_j rod_{l = 1}^{j - 1}

其中f_{ext{pixel}}是新视角图像特征图F_{ext{novel}}上对应像素的特征向量,f_j表示第j个最深的3D高斯的特征向量,N=um_{i = 1}^{n} U_i是来自所有源视图的3D高斯总数。 此外,我们采用一个精心设计的循环U - NetD_{heta_3}^{FR},它将RGB和特征图像作为输入,并通过L个循环将它们投影到RGB空间以获得最终输出。这个循环过程表示如下:
at{I}^l = D_{heta_3}^{FR}, uad l n 1, dots, L

类似于高斯属性估计,监督最终输出的损失是细化图像at{I}^L与真实图像I^{ext{gt}}之间的均方误差(MSE)损失和结构相似性指数度量(SSIM)损失的组合,如下所示:
L_{ext{refine}}=at{I}^L - I{\text{gt}}|_22+ambda_{ext{refine}}

4.5 ATTRIBUTE REGULARIZATION

由于人脸对于识别和表情理解至关重要,改善人脸重建比改善身体其他部位的重建重要得多。之前像GPS - Gaussian这样的工作对整个人体一视同仁,忽略了人脸中包含的表情信息。此外,它们未能确保深度图和3D高斯位置之间的一致性,导致面部区域的重建质量欠佳。 为了解决这个问题,我们提出了一个正则化项来提高整体重建质量。具体来说,我们提出的锚点损失对高斯的尺度和不透明度进行正则化,以确保预测深度图的几何形状与 3D 高斯位置之间的一致性。它还对齐来自不同视图的高斯,以将它们的位置强制到相同的地标。我们采用 MediaPipe 来标注人类面部地标并计算锚点损失,以对 3D 地标高斯尺度、不透明度和位置进行正则化,如下所示:
egin{aligned} athcal{L}{athrm{anchor}} & =um{i,jnathbb{V}}um_{m_inathbb{M}_i,m_jnathbb{M}j}axeft||i{-1}(\boldsymbol{m}_i,\boldsymbol{P}_i(\boldsymbol{m}_i))-\Pi{-1}||2,tight   & +ambdaathrm{opacity}um{i=1}N||\boldsymbol{O}_i\mathrm{log}(\boldsymbol{O}_i)||_1+\lambda_\mathrm{scale}\sum_{i=1}N||oldsymbol{S}_i||_2, nd{aligned}

其中M_j_{j = 1}^n表示2D图像平面上所有地标的集合,V表示源视图的集合,i^{-1}表示从2D图像到3D空间的重投影过程。 由于MediaPipe地标估计并非完全准确,我们引入一个因子t来控制错配误差的容限。这种容限通过仅当地标距离超过t时激活损失来促进优化。因此,这种方法将面部重建损失优化到足够低的水平,并避免因MediaPipe估计中的潜在误差而导致的误导。

图4:属性正则化。我们对高斯分布的不透明度和尺度进行正则化,以及对地标集合中高斯分布之间的位置不匹配进行正则化。当位置不匹配低于特定容差时,位置不匹配的优化过程终止。

此过程如图4所示。 通过整合三个阶段的损失函数,即L_{ext{depth}}L_{ext{render}}L_{ext{refine}}和提出的正则化项L_{ext{anchor}},提出的EVA - Gaussian的总体训练损失由下式给出:
athcal{L}{ext{EVA-Gaussian}}=athcal{L}{athrm{depth}}+ambda_{1}athcal{L}{athrm{render}}+ambda{2}athcal{L}{athrm{refine}}+ambda{3}athcal{L}_{athrm{anchor}}

其中ambda_1ambda_2ambda_3是用于平衡不同损失项的权重。 由于3D高斯位置和属性估计阶段可以在几十毫秒内执行,并且特征细化是轻量级的,耗时不到十毫秒,EVA - Gaussian能够从一组RGB图像中快速重建3D人体对象并实时渲染新视角。

全部评论 (0)

还没有任何评论哟~