《LM-Gaussian: Boost Sparse-view 3D Gaussian Splatting with Large Model Priors》论文阅读
论文地址:https://arxiv.org/pdf/2409.03456
项目地址:https://github.com/hanyangyu1021/LMGaussian
---------------------------------------------------------------------------------------------------------------------------------
任务:
稀疏视角图像的3D场景重建和新视角合成
挑战:
该方法存在本质缺陷且计算资源消耗过高;通常会导致重建效果欠佳甚至缺失细节。其原因在于初始设置不合理以及对训练数据过于依赖的同时还存在细节信息丢失的问题。
初始化失败:3DGS主要依赖于预先计算的相机姿态以及点云数据来建立高斯球体模型。然而,在实际应用中由于输入图像之间的重叠度不足 ,传统的基于结构光(SfM)的方法难以有效处理稀疏视角场景的问题。这种情况下会导致相机姿态估计不准确以及点云质量不可靠,并最终影响了高斯球体的初始化过程。
2)对于输入图像的过拟合问题:其通常会在数据极度稀缺的情况下发生,并导致新视角下的严重视觉 artifacts。
细节不足:由于多角度限制和几何信息的局限性 ,三维图形解构(3DGS)方法往往难以恢复被拍摄物体在三维空间中未能捕捉到的具体细节部分以及未被观测到的空间区域,这对最终重构效果产生了显著影响。
解决:
提出了LM-Gaussian,这是一种能够从少量图像中生成高质量重建的方法。
主要目标是基于高级别视觉模型的先验知识来实现对3D场景稀疏视角重建问题的有效解决
贡献:
1)强大的初始化
开发出了一种基于DUSt3R立体视觉先验的创新性初始化机制,并不依赖于传统的SfM方法。
DUSt3R:
这是一个三维整合系统,在输入双图像序列的基础上进行高效生成,并输出三维点云数据
经过整体优化机制处理后,在全局优化框架下确定了相机的姿态信息,并完成整个场景的点云配准。
问题:
由于DUSt3R固有的偏见 ,全局点云往往会在背景区域显示出伪影和漂浮物
解决:引入了一个基于深度 的背景感知初始化模块。
首先,利用深度先验来细化DUSt3R生成的点云,特别是在场景的背景区域。
此外,在消除不可靠的三维点方面还采用了迭代滤波过程,并结合几何一致性验证以及基于置信度的方法来消除不可靠的三维点 。该方法能够保证生成干净、可靠且高质量的三维点云数据集,并用于初始化三维高斯扩散模型。
2)防止过拟合
引入了多种几何约束来有效地正则化3DGS的优化
第一步,在模型训练中引入了多尺度深度正则化项 ,通过该正则化项帮助3DGS更好地捕捉到物体的局部和全局几何特征。
此外,在3DGS中引入了一个基于余弦相似度的约束项... ,进一步优化了模型的表现,并使模型在处理复杂场景时更具鲁棒性。
最后引入了带权重的虚拟视角正则化项以提高3DGS对未观测视角的鲁棒性
3)细节保留
引入了迭代高斯细化模块,利用扩散先验恢复高频细节。
通过基于扩散的高斯修复模型 来恢复来自3DGS渲染的画面
首先,在整合了ControlNet的基础上构建了高斯修复模型,并在此基础上整合了LoRA层;较少像素密度的输入图像被用来微调LoRA层以优化性能;该修复模型能够在特定条件下正常运作
其次,在结合各自大模型优势的基础上构建出既能体现其竞争力质量又具备丰富细节的新视角,在稀疏视角设置下特别适用于360度场景分析
核心过程:

1)背景感知的深度引导初始化:
该模块增强了DUSt3R系统,并生成了密集的三维点云数据以及相机的姿态信息。这些数据并被用来支持相机姿态估计任务以及详细的三维模型构建工作。通过结合使用深度先验知识与点云清理算法优化后的结果作为高斯初始化的基础
2)多模态正则化的高斯重建:
除了在3DGS中出现的亮度衰减问题之外,
我们还增加了深度信息、法向量估计以及多视角数据约束,
这些措施有助于进一步规范优化过程
3)迭代高斯精细化:
通过图像扩散先验技术实现对3DGS渲染效果的提升,并将这些经过优化后的图像作为基础进行后续处理。经过进一步迭代优化后生成更高质量的新视角合成结果,并在这一过程中整合预训练的扩散模型作为先验知识。
4)场景增强:
除了图像扩散先验之外还采用视频扩散先验来进一步提升其图像渲染效果以增强视觉效果的真实感。
细节过程:
背景感知的深度引导初始化
传统:
3DGS基于结构光(SfM)方法生成的点云和相机姿态进行初始化。当对物体进行稀疏采样时通常会遇到困难。
现在:
采用立体视觉先验作为一种解决方案 DUSt3R是一种基于端到端设计的密集型立体模型,并且能够接受稀疏视角作为输入并输出丰富的三维信息。
问题:
DUSt3R生成的点云在实际应用中往往会导致像漂浮物体、假影以及视觉扭曲等问题,在复杂的三维环境中表现得尤为明显
解决:
引入了背景感知的深度引导初始化模块,以生成密集且精确的点云
细节过程:
1)相机姿态恢复: 首先,使用DUSt3R生成每张图像的点云。然后,将相机姿态和点云对齐到全局一致的坐标系中。
首先通过最小生成树算法应用将所有相机的姿态与点云对齐至一个统一的坐标系中
然后,利用优化方案来提高对齐点云的质量。
2)深度引导优化: 接着,采用深度引导优化来细化对齐的点云。在这一过程中,单目深度估计模型被用作优化过程的引导。
引入一个强大的模型先验来引导优化网络。
该模型基于扩散机制构建了一个单目深度估计系统,在该领域展现了卓越的效果。通过其强大的表现力和鲁棒性特性,在实际应用中获得了广泛认可,并为理解场景中的空间关系提供了关键见解。
单目深度估计模型大幅提升了不同尺度下的深度感知能力,并且其引导作用在缓解图像失真问题以及提升对复杂真实场景中深度信息的捕捉能力方面至关重要。
在优化网络中,我们通过整合投影点云损失、多尺度深度损失以及深度光滑化损失,并将其与深度引导融入其中。
改写说明
几何清理:
多视图配准:
给定 K 张图像,系统会在每次迭代中将一张图像

与其他

张图像一一配对,形成图像对

比较这些图像之间的几何信息。
像素-3D点对应:
在图像中 **

**,像素 q 对应到 3D 点 Q (坐标为

), 这个 3D 点可以通过变换矩阵

转换到另一张图像

的坐标系中,从而找到其投影点。
深度比较:
这个方法通过比较投影点的深度

与在同一图像

上另一个3D点 R 的深度

, 如果某个点在两个视角中的深度差异超过了设定的阈值

,那么可能意味着这个点的位置不准确。 置
信度检查:
如果一个点 Q 的置信度显著高于另一个点 R,超过了另一个阈值

,那么认为点 R 更可能是不可靠的。
移除不可靠点:
当满足这两个条件时;会被判定为不可靠的点R从点云数据中排除;以减少由浮点值与噪声所引起的结果重建的影响。

置信度清理
置信度赋值:
每个3D点都会被分配一个置信度值,用来衡量点的可靠性。
原有的清理策略问题:
DUSt3R方法基于单一的置信度阈值进行操作,在此阈值以下的数据点会被去除。然而这种做法可能会误除位于背景区域中的部分数据点。由于背景区域的数据通常具有较低的置信度尤其是距离较远的位置
区分前景和背景:
通过对点深度进行排序处理并确定中位深度后。随后将点云划分为前景与背景两个部分。其中前景通常具有较高的置信度,并因此需要设置较高的阈值;而背景则设置较低的阈值以减少误删数量。
多模态正则化高斯重构
问题:
考虑到高斯内存在固有偏差,高斯核倾向于在训练视角上发生过度拟合 ,会导致对未曾见过的新视角的预测能力下降。
解决:
综合运用光度损失、多尺度深度损失、基于余弦约束的法线损失以及经过归一化处理的加权虚拟视图损失以增强高斯优化过程中的性能。
光度损失:
计算输入RGB图像与高斯渲染图像之间的光度损失。
光度损失函数:
结合了

和结构相似性(SSIM)的损失项,即

。

多尺度深度损失:
基于单目估计技术的Marigold模型主要采用深度信息重建过程来进行预测,在稀疏输入图像的基础上生成相应的深度图
随后采用皮尔逊相关系数(PCC)作为衡量评估深度图相似性的指标,在分析阶段不仅在原始尺度上分析了深度图之间的相关性,并且将其分割为若干个小块进行深入研究
(该研究发现皮尔逊相关系数与归一化互相关之间具有密切的关系,并表明采用该损失函数能够有效提升深度图中相应位置的相关值水平,在不同深度层次上均保持较高的稳定性。)
该损失函数有助于使高斯表示的深度图与单目预测的深度图对齐以解决由于尺度缩放和空间偏移不匹配而导致的问题
余弦约束法线损失:
问题:
虽然深度能够提供场景内物体之间的距离信息,在定义表面的方向的同时,法向量对于确保表面光滑同样不可或缺
解决:
引入了法线先验正则化以约束训练过程
通过余弦相似度进行测量,在对比基于高斯表示渲染生成的法线图时,我们能够量化从法线先验中预测出的法线图像与实际渲染结果之间的差异。
加权虚拟视角损失:
问题:
在这种情况下,基于无监督学习的高斯模型可能会难以适应新的视角。
解决:
引入了虚拟视角正则化策略,以在优化过程中保持原始点云信息。
虚拟视角的引入:
利用3D空间中随机创建虚拟相机视角以模拟其他观察角度从而形成多样化的监督信号源这有助于提升模型对不同观察角度的理解能力
点云投影与RGB点渲染图像:
每个虚拟相机视角都将点云投影到2D平面上,生成对应的图像。
这些图像的生成过程遵循加权混合算法框架,在图像空间中建立基于距离的空间分布模型,并对各维度空间中的数据进行精确对应与配准操作;模型通过预设的距离函数对3D点进行像素上的映射,在此过程中离目标越近的样本分配更高的权重系数;每个像素的颜色特征主要由其邻域内的多个3D点数据所决定
损失函数:
通过虚拟视角生成点云并渲染其对应的RGB图像后与目标图像进行对比并评估损失这种技术手段能够施加额外的限制条件从而防止模型仅专注于现有的训练视角


迭代高斯优化
首先通过应用高斯核技术从虚拟视角生成一组虚拟图像 ,这些图像将经过由Gaussian修复模型(Gaussian Repair Model)主导的增强处理过程 ,从而显著提升其清晰度与真实感
修复后的图像样本将充当补充指导作用,并与深度网络中的深度正则化处理以及法线归一化过程一同融入高斯核函数优化过程
经过每一次优化后会对高斯图像进行重新渲染,并再次利用修复模型进行修复工作,并进入下一轮监督迭代的过程。通过这一系列反复的操作流程,在多角度下的统一性得以保持的同时,生成的图像质量得到了显著提升。

高斯修复模型
将模糊的高斯渲染图像修复为清晰、真实的图像
模型架构:
高斯修复模型结合了图像特征和文本特征进行修复。
基于高斯模型的渲染过程能够有效提取出图像中的潜在表示信息。在此过程中,输入图像的描述由GPT API生成,并将其作为条件信号传递给ControlNet进行处理。随后,在LoRA(低秩适配器)的帮助下,该系统能够推导出噪声并逐步去噪以实现对原始损坏图像的最佳恢复效果。
训练过程:
修复模型经过训练形成,并应用于成对输入数据中。这些数据由原始图像与其对应的高斯渲染图像组成,在正向扩散过程中生成一系列高噪声样本;随后经历逆向扩散过程以逐步去噪,并结合基于噪声预测的损失函数进行优化训练以提高生成质量
场景增强模块
问题:
基于稀疏表示的渲染方法在处理不同视点之间的图像不一致现象时,在相机运动过程中表现出了显著的问题。
解决:
提出了视角增强模块,利用视频扩散先验来提升图像一致性。
视角增强:
利用多条相机路径生成相应的图像样本,并对生成的图像样本进行分组处理。通过视频扩散UNet这一技术实现降噪并生成增强质量的图像样本。为了确保各部分信息在空间上具有一致性,在模型设计中将输入的高分辨率图像映射至潜在空间域中,并通过该潜在空间域实现联合降噪与修复目标
视频扩散模型:
基于DDIM逆向扩散算法将高斯渲染图像映射至潜在空间以保持不同视角间的连贯性从而保证生成图像拥有高清晰度和良好的连贯性
---------------------------------------------------------------------------------------------------------------------------------
在统计学术语中,皮尔逊相关系数被定义为衡量两个变量之间线性关系的基本指标。该方法的主要作用是评估两组数据之间是否存在显著的线性关联。其核心用途是确定变量X和Y之间是否存在显著的相关关系。

该修复体系采用自定义架构,并结合了具有低秩适应性的LoRA(Low-Rank Adaptation)参数进行针对性微调,在此过程中显著提升了模型在修复模糊图像方面的性能表现;以下将对这一架构进行详细解析:首先构建了一个基础网络模块,并对该模块进行了优化;随后通过动态适配LoRA(Low-Rank Adaptation)参数实现针对性微调;最终实现了对原始模型能力的有效强化。
1. 灵感和参数冻结机制
- 模型基于 GaussianObject 的创新性启发,在应用高斯渲染技术实现图像修复方面取得了显著成果。
- 在微调阶段中,在不重新训练整个网络的前提下,在应用动态抑制更新机制以限制非 LoRA 权重的更新幅度的同时,在 LoRA 参数上展开系统性优化与深度学习训练工作。这种策略不仅能够有效降低计算资源消耗,在提升模型性能方面也展现出显著优势。
2. 与ControlNet的整合
- 模型采用了ControlNet 架构,在这一架构下主要应用于图像条件生成与增强任务的网络架构。
- LoRA参数整合到两大核心组件中:
- 用于将文本描述或条件编码为特征信息。
- 在ControlNet框架中的UNet模块特别擅长提取图像中的局部特征与整体信息关系。
- LoRA参数整合到两大核心组件中:
3. LoRA参数的应用
- LoRA的秩(rank)被设置为16 ,这对应地表示低秩适应对应的维度数为16。 *
- LoRA参数被应用于Transformer块、线性层和卷积层中,这种局部的微调能够有效地对网络进行特定任务的适应,并不影响整个网络的大部分结构。 *
4. 训练过程
- 模型经过对图像对的学习与优化,在具有欠分辨率特征的粗略版本与对应清晰高细节版本之间建立了映射关系。
- 经过上述训练方案,模型能够重构出具有真实细节与自然纹理特征的目标物体表面。
- 该方法能够有效应对高斯模糊输入并重建出高质量的目标物体表面。
5. 后续优化的指导
这种修复过程可被视为后续优化的重要参考依据,并为后续的图像处理和优化提供了更为清晰的起点。
