Advertisement

stable video diffusion(SVD):scaling latent video diffusion models to large datasets

阅读量:

Stable Video Diffusion 是一份高质量的视频生成通用模型的研究论文。论文通过三阶段数据预处理(图像转图像、视频转视频和高质量微调)构建了该模型,并在多个下游任务中取得了优异效果。具体来看:
数据预处理包括:

  • 使用 PySceneDetect 从短视频中裁剪并标注
  • 基于深度光流评估美学指标
  • 使用网络预训练参数优化模型
    模型训练分为三个阶段:
  • 预训练阶段:仅微调时间嵌入层并使用高分辨率数据
  • 生成视频训练:人工过滤视频数据并进行人工审核
  • 微调阶段:结合图像扩散模型训练模式提升生成质量
    论文还探讨了大规模视频模型的训练方法:
  • 使用 Network Preconditioning 和连续噪声调度
  • 在固定分辨率下提升生成效果
  • 采用动态 CFG 权重方案改善生成质量
    该研究展示了Stable Video Diffusion在视频生成领域的应用潜力和改进方向。

AIGC-AI视频生成系列-5

icon-default.png?t=N7T8

AIGC-AI视频生成系列-5

AIGC-AI视频生成系列-5

AIGC-AI视频生成系列-5

icon-default.png?t=N7T8

在视频生成领域中目前在视频生成领域中

1.数据预处理

三阶段数据处理:

step1:图像预处理,2d text-to-image预处理模型;

step2:视频预处理,基于大规模视频训练集,进行视频训练;

step3:高质量视频微调,进一步提升模型生成的视频分辨率和质量;

1.1 数据预处理和注释

从上视频中获取短视频,PySceneDetect。

裁剪完成后,采用三种不同的方法来对裁剪后的视频进行标注:

Coca模型用于对每段视频的关键帧进行标记化处理;
V-blip框架通过深度学习方法对视频的整体内容进行分析和理解;
通过LLM技术,我们对以上两种生成结果进行了整合、分析和最终结论的提炼。

在获得基础数据集后, 需重点考察视频中的静止画面和文本信息, 被深度光流方法用于评估. 该方法采用2帧/秒的帧率, 通过筛选平均光流幅度低于设定阈值的视频样本完成过滤.

1.2 stage 1:Image pretraining

基于sd 2.1对预训练参数进行了调整。仅对time-embedding层进行微调,并采用512x512的规模进行微调。经过预训练后得到的效果优于随机初始化

1.3 stage 2:生成视频训练的数据

人工过滤了一批视频数据。

1.4 stage 3:高质量视频生成微调

整体训练遵循了图像扩散模型的训练策略。基于生成评价指标的综合考量,在微调模型参数达50,000步的基础上,并通过人工审核进行质量把关。结合视频预训练参数进行优化调整后取得了显著效果。

2.大规模视频模型的训练

基于上述结果开始训练特定的预训练模型。

2.1 预训练基础模型

通过网络预训练技术将图像模型中的固定离散噪声调度转换为连续型噪声调度,在256×384像素图像上进行微调训练,并在插入时序层后采用LVD-F(LVD-F)架构对模型进行优化配置。实验设置中采用批量大小768,在10万个迭代周期中对模型进行微调训练,并最终生成14组320×576像素的帧序列数据集。对于这一阶段的学习过程而言,在更多噪声方向上的参数优化调整具有重要意义。

2.2 高质量文生图视频模型

在获得了生面的基础模型后,通过约一百万份视频数据进行微调训练,实现了分辨率从256×384提升至576×1024.

2.3 高质量图生视频模型

基于base模型的框架下进行参数优化以微调图生视频模型。与文本控制不同,在这一过程中我们采用了不同的方法:首先将输入文本的embedding替换为条件相关的clip embedding;同时将条件帧上的噪声增强模型在通道维度上与UNet模块进行融合。值得注意的是,在扩散过程(diffusion)中采用传统Diffusion-cfg方法可能导致伪影现象产生:当CFG权重设置过低时可能会出现帧间不一致的问题;而当CFG权重设置过高则可能导致过拟合现象发生。本文采用了动态调整CFG值的方法,在每帧计算时从较低值逐步提升至较高值以平衡生成质量与稳定性

全部评论 (0)

还没有任何评论哟~