某节的OmniHuman-1 paper 阅读


本文开发了一个名为OmniHuman的新框架。该框架基于扩散Transformer,在训练过程中结合运动相关条件以扩大数据集规模。
为此, 开发出了两类专门针对这些混合条件的训练原则, 并提出了相应的模型架构和推理策略
基于Diffusion Transformer-based (DiT)的视频扩散模型主要依赖于大规模训练视频-文本对来实现功能。这些模型存在共同缺陷:它们通常在经过高度筛选的数据集上进行训练以便简化学习过程,从而使得其适用场景受到限制。例如,大部分现有端到端音频条件模型仅适用于面部或肖像动画,而大多数姿势条件模型仅能处理正面视角下的全身图像,并且通常忽略背景的变化
以音频条件模型为例 :训练数据集需要高度过滤
- 音频主要依赖于面部表情的变化,在身体姿势、背景运动、摄像机移动或光照变化等方面则几乎没有关联性。由此可见,为了最大限度地减少这些无关因素的影响,原始训练数据必须经过严格的筛选和裁剪处理。
- 音频条件模型通常需要依据唇部同步精度对数据进行进一步的清理工作
本文训练
在本文中,我们提出了一种有效的方法来解决人体动画数据扩展与模型构建的问题.通过在训练过程中引入多维度的输入信息(包括文本描述、音频特征以及姿态信息),我们可以显著提高资源利用率.该方法具有两个主要优势.首先,在弱化或通用的任务场景下,原本会被单条件模型丢弃的数据仍然能够被合理利用.通过对这些任务场景下的训练实践,模型能够学习到更为丰富的运动模式,从而有效缓解因数据过滤而产生的限制.其次,这些不同类型的输入信号能够互补支持.例如,虽然音频信息本身无法精确控制身体的姿态变化,但具备更强控制能力的姿态输入却能提供额外的支持指导.通过将这两种不同类型的条件信号有机融合到音频数据处理流程中,我们的目标是既避免过拟合现象的发生,又能提升生成结果的整体泛化能力.
在深入探讨后发现,在这种情况下提出了全条件训练策略;该方法构建了这一创新体系,并且符合现有理论框架的要求:
更强烈的任务能够通过较弱条件的任务及其对应的数据,在模型训练过程中实现数据扩展;
(2)条件越强,训练比例应越低。
为了达成这一目标, 我们利用先进的视频生成架构DiT开发了名为OmniHuman的人体视频生成系统. 该系统支持通过引入文本描述. 音频信息以及姿态特征逐步强化训练. 这一方法消除了端到端框架中的数据扩展限制, 使模型能够通过海量数据学习自然运动规律, 并适应多种输入类型.
总体而言,我们的贡献可以总结如下:
我们开发出一种名为OmniHuman的混合条件人体视频生成模型。该模型通过采用全面的条件融合策略,在运动相关属性及其数据集上实现了系统的整合。相比之下,在仅依赖单一数据源的现有技术中存在效率受限的问题,在这种情况下我们采用了大量混合条件下训练的新策略。
OmniHuman创造高度真实且形象生动的人体运动视频,并具备多种模态。该系统在外形特征及输入比例方面表现稳定。OmniHuman明显提升了手部动作捕捉能力,并克服了传统端到端模型的难点,在不同风格下均表现出色。该系统明显超越现有基于音频条件的人体视频生成技术。
总结:
****1.****增强条件信号可以用来约束任务:
当对模型进行训练时,我们可以给予它附加条件信息(如姿势数据、文本描述以及音频内容等),这些更为强大的约束有助于提升模型性能,并非仅依赖于单一的信息源。
2.条件组合训练:
混合不同的条件信号进行训练,而不是让模型只接受单一的控制信号。
这样,在这种情况下,模型不但建立了音频和动作之间的联系,并且在各种约束条件下形成了独特的运动模式。它建立了'音频->姿态'的映射关系

1.多模态条件控制
训练时融合音频、姿势、文本以及参考图像等多维度信息,并通过技术手段优化生成效果。音频调节节奏感与韵律感,在此处起到重要作用;人体姿态则规范着动作的精准性;文本内容则刻画着具体事件的发生;而参考图片则有助于维持整体视觉一致性。
2.音频与姿势的结合
该系统采用wav2vec技术获取音频特征,并将这些特征作为控制信号输入到主模型中进行处理。通过pose heatmap技术对人体动作进行编码处理后,在动画生成过程中实现了音频与动作之间的精准关联
3.参考图像的外观保持
采用VAE对参考图像进行编码,并将其与视频噪声特征融合以确保生成人物外观的一致性 通过3D RoPE技术使模型能够区分参考图像与生成视频的特征并避免额外增加参数
4.扩散模型的高效优化
综合运用多维度信息源(文本、音频、体态语言等),以增强生成视频的真实感与适用性。基于历史动作序列的学习机制,在识别出关键的人体姿态及运动轨迹要素后(例如特定人体姿势与运动走向),从而支持持续多时的画面合成过程。
训练原则:
原则1:强条件任务可利用弱条件任务的数据,扩展训练数据。
第二条原则规定,主要依赖的物理属性(如姿势)的训练比例不应超过辅助属性(如音频)的比例,以避免模型过分依赖单一类型的属性。
训练阶段:
阶段1:丢弃音频和姿势条件,使用文本和图像条件。
阶段2:仅丢弃姿势条件。
阶段3:使用所有条件,逐步减半训练比例。
数据集:采用美学标准、图像清晰度及动作幅度等因素筛选后得到一批约18,700小时的视频序列用于模型训练。研究团队从中随机选取约10%的数据样本进行了进一步分析,并引入语音信息以及姿态信息作为辅助特征来进行后续处理。
推理策略
条件激活:
音频驱动场景:激活除姿势外的所有条件。
姿势驱动场景:禁用音频。
长视频生成:
采用上一阶段的最后五个画面充当运动画面,并以时空的一致性和人物的一致性为基础来保证推演过程的有效性。
但是,在多个实验条件下,我们采用无分类器指导的方法应用于音频和文本数据。然而,在不同的CFG设置下表现出的现象也不容忽视:提高CFG会导致角色出现明显的皱纹;相反地,在降低CFG的情况下,则会影响唇同步以及运动表现。
应用CFG平衡表现力和计算效率。
CFG退火策略:逐步降低CFG幅度,减少皱纹,确保表现力。

实验:

比较指标:
为了更准确地量化生成内容的质量,并避免引入主观判断的影响,在视觉质量评估方面采用了以下指标:首先通过计算生成图像与标注图像之间在FID(Frechet Inception Distance)和FVD(Frechet Visual Distance)指标下的差异程度来评估它们的相似性;此外,在无参考条件下量化生成内容的质量时采用了基于q-align的模型,并结合其作为一种视觉语言模型(VLM)的特点来进行无参照IQA(Image Quality Assessment)以及ASE(Aesthetic Evaluation)的综合评价。
在唇部对齐这一技术中(lips alignment),我们采用了经过验证的有效算法Sync-C来评估视觉与音频内容间的匹配程度。
- 基于手关键点置信度(HKC)和手关键点方差(HKV)来表征手部运动质量及其复杂程度。
