Advertisement

《MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images》阅读笔记

阅读量:

论文地址:https://arxiv.org/pdf/2403.14627

项目地址:https://github.com/donydchen/mvsplat

--------------------------------------------------------------------------------------------------------------------------------

任务:

通过稀疏(即少至两张)图像进行3D场景重建和新视图合成

挑战:

基于单幅图像构建3D场景本质上处于一种欠明确的状态,并且在细节层面存在较高的模糊性。然而,在将其推广到更为广泛且规模更大的场景时,则会成为一个主要障碍。

贡献:

精确定位3D高斯中心位置:在3D空间中采用平面扫描操作 生成代价体积表示(cost volume)。利用2D网络对多视角生成的代价体积进行推导以恢复多视角一致性的深度反投影结果以得到3D高斯中心位置。

代价体积:

(1). 记录了所有潜在深度候选者之间的跨视角特征相似度,并且这些度量值能够为3D表面的定位提供重要的几何线索(例如高相似度通常意味着同一个表面点)

(2). 基于代价体积的方法下, 该任务可被表述为通过学习特征匹配的方式实现对高斯中心的识别。与以往研究不同的是, 在于我们采用的方法不是基于图像特征的数据驱动方式完成的三维回归分析。

(3). 降低了任务的学习难度,并使得该方法得以在轻量化模型规模以及快速运行速度下达到当前最高水平的性能。

基于深度信息推断其他高斯属性(包括协方差矩阵、不透明度参数以及球谐函数系数)。这使得我们可以利用推断出的三维高斯分布以及具有可微分性的投影操作来生成新的视图图像。

核心过程:

为了精确地定位 3D 高斯中心,在 3D 空间中进行平面扫描以形成本体积(cost volume) 表示

2. 为了改善几何重建结果,需要缓慢的深度微调 和额外的深度正则化损失

本文设计了基于高斯分布的深度前馈网络结构MVSplat,并将其应用于新视角图像合成任务。研究者开发了一种高效的多视角深度估计网络结构,并通过预测的深度图直接推导出高斯分布的中心位置信息。

u _j

,同时在另一个分支中预测其他高斯参数(

lpha _j
um _j
c_j

)

特征提取: MVSplat 主要依据 Transformer 模型从输入的多视图图像中提取特征

生成成本体: 随后采用平面扫描技术对每个视图进行处理以生成一系列的成本体(cost volumes),这些生成的成本体有效反映了不同深度层之间各视图间的特征相似性。

特征融合: 通过Transformer模型提取出的图像特征求取各视角的成本体积进行拼合作为网络处理前馈到带有跨视图注意力机制的2D U-Net架构中。该网络架构通过自适应增强各层的空间分辨率特性并输出各视角对应的深度信息。

3D 高斯中心点计算: 对于每个视图中的深度数据经反投影(unprojection)转换至三维空间域后,在此域内将各子区域间的深度信息进行精确且直接的操作手段(deterministic union operation),从而实现多个视图中深度数据的有效融合与整合,在此基础上生成完整的三维高斯分布模型并定位其峰值点作为最终结果。

高斯分布预测: 同时在深度图上进行协同预测,在3D高斯分布中包含透明度因子、协方差以及色彩特征。

新视角渲染: 最终目标是通过光栅化(rasterization)过程生成该新视角下的图像。

细节过程:

输入: K 张稀疏视角图像 I={}^K_{i=1}, 其中图像为

Himes Wimes 3

对应的相机投影矩阵 P={}^K_{i=1}, 其中 P_i=K_i{},分别为相机内参矩阵

K_i

、旋转矩阵

R_i

、位移矩阵

t_i

.

目标: 学习从图像到 3D 高斯参数的映射

f_heta

,其中

heta

为网络可学习参数

预测: 高斯参数包括位置

u _j

、不透明度

lpha _j

、协方差

um _j

和颜色

c_j

(以球谐函数的形式表示),并按像素对齐的方式预测这些参数(图像)的分辨率。

Himes W

K

张输入图像,总共需要预测

Himes Wimes K

个 3D 高斯分布

为了实现高质量的渲染和重建,精确预测位置

u _j

是至关重要的,因为它定义了 3D 高斯分布的中心。

该深度模型由以下五个步骤构成:首先进行多模态特征提取;接着构建成本体;随后进行成本体优化;接着进行深度推断;最后进行深度精调。具体实现细节将在下文详细阐述。

多视角特征提取

通过卷积神经网络(CNN)和Transformer架构提取多视角图像特征

输入: 不同视角图片; 输出: 每个图片特征

为了实现目标图像特征提取的目的,在本研究中采用类似于ResNet架构设计的一个浅层卷积神经网络模型,并对每个视角下的图像执行四倍降采样处理以获取相应的特征数据。

随后采用了包含自注意力机制与交叉注意力层的多视角Transformer模型,在不同视图之间传递信息

最后,通过此操作得到跨视角感知的Transformer特征 {}^K_{i=1}

代价体构建

通过利用平面扫描技术实施立体视觉方法,在多个深度候选范围内构建跨视角特征匹配模型。

输入: 每个图片特征; 输出:代价体

为 K 个输入视角构建 K 个代价体积来预测 K 张深度图

以视角 i 的代价体积构建为例,给定近距离和远距离的深度范围,首先在逆深度域内均匀采样 D 个深度候选值 {}^D_{m=1} ,然后利用相机投影矩阵

P^i

P^j

和每个深度候选值

d_m

,将视角 j 的特征

F^j

变换到视角 i,以获得 D 个变换后的特征。

代价体积优化

为了缓解这一问题,在现有方法的基础上引入了一种轻量级的二维U-Net结构

输入:Cat( Transformer特征

F^i

和 代价体积

C^i

)

输出: 残差

igtriangleup C^i

将其加到初始代价体积

C^i

上,得到优化后的代价体积

ilde{C}^i

该架构通过在最低分辨率处引入三层跨多视图注意机制,在不同视图间的代价体积间实现信息交互。这种设计使模型得以处理任意数量的输入视图;这是因为该架构对每个视图都会进行与其他所有视图之间的交叉注意计算;而此过程不受输入视图数量的影响。

深度估计

使用 softmax 操作来获得每个视角的深度预测。

输入:优化后的代价体

ilde{C}^i

输出:深度预测

V^i

首先,在深度维度上对优化后的代价体积

ilde{C}^i

进行归一化

然后,对所有深度候选值 G = {} 执行加权平均计算,得到最终的深度估计

V^i

深度优化

引入了一个额外的深度优化步骤,以增强预测深度的质量。

输入:多视角图像、特征和当前的深度预测

输出:每个视角的残差深度

该优化借助轻量级二维U-Net架构实现,在接收多视角图像、特征向量以及当前深度预测值作为输入的同时(即"的同时"),生成各子场景对应的残差深度矩阵(即"并生成")。将这些所有子场景残差深度与原始深度预测进行融合后得到最终结果(即"作为最终结果")。同时,在最低分辨率层面上引入跨视图注意力机制以促进各子场景间的相互作用(即"以便于")。

高斯参数预测

高斯中心
u

基于多视图深度估计的结果之后, 利用相机参数将其反投影至3D点云中

将每个视图的点云投影到对齐的世界坐标系,并将其整合到3D高斯模型中作为中心区域。

不透明度
lpha

通过 softmax (优化后的代价体积

ilde{C}^i

) 操作获得的匹配分布,可以得到匹配置信度,即 softmax 输出的最大值。

这种配位的自信度在物理层面上与不透明度具有相似性(其中具有更高配位的自信度的点往往位于表面区域),因此基于两个卷积层构建了一个预测模型来推断物体的不透明程度参数。

协方差
um

和颜色

c

这两组参数经由两组卷积层的运算得出预测结果。其输入数据包括融合后的图像特征、优化后的成本信息库以及原始多视图图像。

与其他 3D 高斯表示方法类似,协方差矩阵

um = R^TdiagR

由一个缩放矩阵

s

和一个用四元数表示的旋转矩阵

R

组成,而颜色

c

则是从预测的球谐系数中计算得到的。

训练损失

完整模型使用真实 RGB 图像作为监督进行训练。

训练损失作为 ℓ2 损失和 LPIPS 损失的线性组合计算,损失权重分别为 1 和 0.05。

模型预测一组 3D 高斯参数

{}^{Himes Wimes K}_{j=1}

这些参数随后用于在新视点下渲染图像。

--------------------------------------------------------------------------------------------------------------------------------

平面扫描:

平面扫描算法(Plane-sweeping algorithm)概述:该算法的基本思想是通过一系列几何构造操作动态维护并更新目标数据结构以实现特定计算目标。其核心原理是主要依赖于二维平面 sweep 线的移动过程来逐步解决问题。该方法的主要优势在于其高效性及其在复杂度上的优异表现。具体而言,在每一步迭代中sweep线会与离散事件发生作用进而触发相应操作从而实现整体目标的逐步达成。这种基于动态规划的思想使得平面扫描算法成为解决各种计算几何问题的重要工具之一

全部评论 (0)

还没有任何评论哟~