Advertisement

【论文阅读笔记】Deformable 3D Gaussian for High-Fidelity Monocular Dynamic Scene Reconstruction

阅读量:

核心思想

*变形可处理三维高斯分片技术(Deformable 3D Gaussians Splatting):基于3D Gaussians Splitting方法实现场景重建过程,在规范空间中采用形变场学习的方法构建动态场景模型;通过变形技术实现实时渲染效果的同时保证图像输出质量。

  • Annealing Smoothing Training Mechanism(AST):该机制通过逐步优化的方式缓解真实数据集位置不精确所带来的负面影响。

相关工作

离散结构(Hex plane、voxel-grids)局限性:

光线追踪技术在处理高分辨率图像时表现出较低效率

已有的动态场景建模方式:

  1. 引入时间变量到辐射场模型中:会导致模型缺乏关于时间变化的先验知识(存在较低建模能力及效率问题,并违背物理定律)
  2. 通过引入变形场分析时空关系:能够学习刚性形变并适应场景经历拓扑变化
  3. 一方面分割动态和静态场景;另一方面利用深度信息优化CNN的先验建模

几何先验 (geometric prior)涉及对物体或场景的几何属性与限制的认识。例如,在实际应用中我们通常关注物体的形态特征及其在空间中的分布情况等信息内容。具体而言,在静止场景分析中主要关注物体的大小及其所处的空间位置和运动规律;而在动态分析过程中则需要考虑更为复杂的因素如物体运动轨迹特征其速度变化趋势以及加速度变化模式等相关参数。

与时间相关的几何先验 :指的是能够描述和预测物体随时间变化的几何特性。例如,在动态场景中,物体的运动路径、运动速度以及加速程度均与时间紧密相关;此外还包含刚体特性和非刚性形变特征等基本要素;这类先验知识有助于模型在时空维度上理解物体的行为模式进而实现精准建模

拓扑变化(topological shift):该变化体现在物体的结构或连接方式发生本质性转变的过程中,并非仅限于位置或形状的变动。例如,在这一过程中会出现物体的分离与结合、生成与消亡等现象

论文模型

在这里插入图片描述

输入:图片、时间标签、初始高斯点云(SfM)

Deform Filed

在这里插入图片描述

(\delta x,\delta r,\delta s)=F_\theta(\gamma(sg(x)),\gamma(t))

sg(·) 用于实现对反向传播的中断。由于其与高斯椭圆的位置相关(相当于中间变量),若继续反向传递将会影响现有高斯椭圆的位置。通过中断梯度使得变化场与高斯椭圆的优化相互独立,并使变形场能够更好地学习时间和空间上对应于各阶高斯椭圆形态增量之间的映射关系。

\gamma(·)被定义为位置编码函数,在遵循与transformer架构相似的正弦余弦机制下生成空间位置编码向量。其空间位置编码由10维坐标构成,并且时间维度由6维向量表示;真实数据集中的样本同样采用10维空间位置编码描述。

退火平滑训练

在现实世界中收集的数据集的位置往往不够精确, 这可能导致模型过拟合以及时间抖动现象的发生。传统的隐式表示方法主要得益于神经网络架构所具有的内在光滑特性, 因此其对数据表示的影响相对较小。而针对3D几何形状(3DGS)的显示表示, 则会带来较为严重的负面影响

L'=F_\theta(\gamma(sg(x)),\gamma(t)+x(i)), x(i)=N(0,1)\beta \Delta t(1-i/\tau)

  • \beta是超参数,设为0.1
  • \tau是一个阈值,实验显示设定为20k

噪声项有助于模型避开局部最优解,并在初始阶段促进模型进行更全面的搜索;随着训练过程的深入,逐渐降低的噪声使模型的学习过程更加平稳且稳定,在最终阶段实现更好的收敛效果。
此外,噪声本身还可以降低对真实数据集存在不精确性的鲁棒性。

全部评论 (0)

还没有任何评论哟~