GauHuman阅读笔记【3D Human Modelling】
笔记目录
- 1. 基本信息
- 2. 理解(个人初步理解,随时更改)
- 3. 精读
-
- Summary
- Research Objective(s)
- Background / Problem Statement
- Method(s)
- Evaluation
- Conclusion
- References
1. 基本信息
- 题目:GauHuman: Articulated Gaussian Splatting from Monocular Human Videos
- 时间:2023.12.5
- 发表:CVPR2024
- 机构:S-Lab, Nanyang Technological University
- 作者:Shoukang Hu, Ziwei Liu
- 链接直达:Code/paper/Project
- 关键词:3D human modelling, 3DGS, Monocular video, 3D Reconstruction
- 概括:GauHuman在单目视频的条件下,通过快速训练(1~2分钟)和实时渲染(189帧/秒)对三维人体进行建模。
- 摘要翻译:我们提出了 GauHuman,这是一种采用Gaussian Splatting的 3D 人体模型,可实现快速训练(1∼2 分钟)和实时渲染(高达 189 FPS),而现有的基于 NeRF 的隐式表示建模框架需要数小时的训练和数秒的时间每帧渲染的数量。具体来说,GauHuman 在规范空间中对GS进行编码,并通过线性混合蒙皮 (LBS) 将 3D 高斯从规范空间转换到姿势空间,其中有效的姿势和 LBS 细化模块旨在以可忽略的计算成本学习 3D 人体的精细细节。此外,为了实现 GauHuman 的快速优化,我们使用 3D 人类先验来初始化和修剪 3DGS,同时通过 KL 散度指导进行分裂/克隆,以及一种新颖的合并操作以进一步加速。在 ZJU_Mocap 和 MonoCap 数据集上的大量实验表明,GauHuman 通过快速训练和实时渲染速度,在定量和定性上实现了最先进的性能。值得注意的是,在不牺牲渲染质量的情况下,GauHuman 可以使用 ~13k 3DGS快速建模 3D 人类performer。
2. 理解(个人初步理解,随时更改)
所做的一件事:针对人体3D建模这一领域而言,在完成了快速训练的基础上实现了实时渲染效果。研究者们通过仅需通过单目视频获取的方式就构建了一个完整的4D人体模型
整个流程图中:
从SMPL顶点出发,在规范空间中初始化三维高斯位置p_c。
通过融合姿态细化模块\text{MLP}_{Φ\text{pose}} (·)与LBS权重场\text{MLP}_{Φ\text{lgs}}(·)模块的信息,
将规范空间中的三维高斯位置映射至姿态空间。
在优化阶段,
为了动态调节三维高斯的数量以适应不同场景的需求,
我们建议采用人类先验(例如SMPL模型)并结合KL散度度量,
对分裂、克隆、合并及修剪等操作进行自适应控制。

3. 精读
Summary
完成笔记后,请将内容填写在最下方作为文章摘要。切记要以自己的话重新阐述文章的核心内容与重点
Research Objective(s)
作者的研究方向是什么?通过完成快速训练和实时渲染任务,作者能够基于单目视频建立人体模型。
Background / Problem Statement
研究的背景以及问题陈述:作者需要解决的问题是什么?
- How can one accurately incorporate articulated human information into the Gaussian Splatting framework using monocular videos?
- How can one effectively optimize Gaussian Splatting to achieve rapid convergence during the training process?
Method(s)
针对1:LBS通过将3DGS从Canonical空间转换为Pose空间来实现数据表示,并通过MLP构建LBS权重场以优化性能参数;随后利用MLP对姿态进行精细调整以提升精度水平。
针对2:为了获得更好的数据分布效果,在设置初始状态时采用SMPL顶点作为基础;随后引入KL散度作为衡量工具来优化不同高斯体之间的距离关系;这有助于提升分裂与复制过程的质量;同时通过合并相似体并去除冗余项来精简整体数量。
Evaluation
对该研究中的ZJU_MoCap和MonoCap数据集进行了评估,并对PSNR、SSIM、LPIPS、Train time以及Render FPS等几个关键指标进行了分析对比。
Conclusion
开发了一个基于高斯平滑表示法的3D人体模型GauHuman, 该系统支持快速训练(约1至2分钟)以及实时渲染(平均帧率189FPS)。
开发了一个基于高斯平滑表示法的3D人体模型GauHuman, 该系统支持快速训练(约1至2分钟)以及实时渲染(平均帧率189FPS)。
References
相关工作:InstantNVR, InstantAvatar, HumanNeRF, GaussianAvatar, GART
参考文献
- 部分模板参考: 知乎回答
