Advertisement

AnimateDiff:Animate your personalized text-to-image diffusion models with spectific tuning

阅读量:

AnimateDiff通过结合lora和dreambooth的sd算法实现了个性化的动画生成能力。其核心在于引入运动建模模块(motion modeling module),该模块通过从大规模视频片段中学习合理的运动先验知识,在不影响现有模型的前提下为T2I模型提供动画效果。该模块采用网络膨胀技术将原始图像模型转换为兼容3D层的结构,并设计了一个基于temporal transformer的时间序列处理机制来实现帧间高效信息交流。此外,运动建模模块还通过零初始化投影层避免了额外训练带来的负面影响,并利用预训练自编码器和潜在扩散模型进行优化训练。整个过程仅依赖于公开可用的数据集(如webvid-10M)进行微调,在较低计算成本下实现了高质量的个性化动画生成能力。

[https://zhuanlan.zhihu.com/p/669814884

icon-default.png?t=N7T8

从功能结构来看, AnimateDiff仍整合了基于运动建模模块的文字生成技术。其独特之处在于, 该技术结合了LoRA与DanceBooth技术, 从而实现了更加灵活的人像动画效果。值得注意的是, 这一特点与Animate Anyone的技术体系存在显著差异。相比之下, Animate Anyone采用了完全自主训练的方式, 其主要缺陷在于缺乏对个性化角色定制的支持。 animateDiff则完全不同, 它能够根据输入的具体需求进行高度定制化地生成动画内容。

1.Introduction

将基础T2I模型中的运动建模模块添加到系统中,并在大规模视频片段上进行微调训练以学习合理的运动先验知识。该模块能够为所有T2I模型提供自然流畅的动画效果,并且无需额外的数据收集或定制化训练工作。

2.Related works

Tune a video,Text2Video-Zero,Align-Your-latents

3.method

3.1 Personalized Animation

在处理个性化图像模型生成动画效果时(即处理具有个性化特性的图像生成过程),通常需要配合相应的视频数据集进行优化。具体而言,在这种情况下(即在这种情况下),我们以特定的技术手段(如基于时间感知的模块)来实现目标:即通过从大规模视频数据集中学习合理的运动先验来扩展基础模型的能力。这种方法的核心在于单独训练一个可泛化的运动建模模块,并将其整合到个性化的T2I模型中以便于后续推理操作。经过完整训练后,则可以在任何具备相同基础架构的个性化T2I中直接应用这一扩展模块以实现功能提升

3.2 Motion modeling module

3.2.1 Network Inflation

原始自监督学习(SD)仅能处理二维图像数据。为了实现与运动建模模块的有效结合,经过模型扩张技术的引入,在生成对抗网络框架下构建了新的特征提取网络结构。该网络采用基于Video Diffusion Model的架构设计,在保持空间关系不变的前提下,通过重新排列Frame维度为Batch维度,并将空间关系保持在二维框架下完成对三维视频数据特征的学习任务。数学表达式如下:给定输入一批大小为B×C×F×H×W的数据样本集X={x₁,x₂,...,x_B}其中B表示批次大小,C表示通道数,F表示帧数,H表示高度,W表示宽度,x_i∈ℝ{C×H×W}代表第i个样本的空间特征矩阵,则经过网络映射后输出对应的预测结果Y={y₁,y₂,...,y_B},其中y_i∈ℝ{C×H×W}代表第i个样本的空间特征矩阵。

3.2.2 Module Design

旨在高效实现帧间信息交互。我们采用基于时空轴的操作构建基础时空变压器模型,在特征图z的空间维度上重新配置为空间维度(height和width),其长度对应于批次处理后的帧序列数据(batch x height x width)。随后,在经过多层自注意力机制处理后输出特征图,并将其投影至下一层次的空间表示层。为了提高模型性能,在UNet架构的不同分辨率层级中嵌入运动建模模块(sdxl包含三个解码阶段128/64/32;sd1.x包含四个解码阶段64、32、16、8)。通过引入时空位置编码信息使网络能够识别当前帧在整个动画片段中的时间定位关系。为了确保模块嵌入过程不会干扰模型性能,在时空变压器输出层投影阶段实施零初始化策略。

3.2.3 Training object

该运动建模模块的学习过程与基于潜在空间的扩散模型相似,在具体实现中主要依赖于预先训练好的自编码器来进行特征提取工作。通过对样本视频序列进行逐帧编码以获取潜在码信息后,在设计好的扩散机制下会对这些潜在码施加一定的去噪影响。随后将包含运动建模组件在内的扩散模型应用于这一去噪后的潜在码结合文本提示的情境中,并通过L2损失函数来优化参数以提升预测结果的质量。在这一过程中还特别需要注意的是T2I模型在初始权重分配阶段需要保持冻结状态以便于后续参数优化工作的展开

采用了sd 1.x版本模型,在webvid-10M数据集上对寻懂组件进行训练。从该数据集中提取的视频片段按照每4帧一个间隔进行采样,在获取到的画面基础上采用带下部居中的方式进行裁剪并统一调整至256x256分辨率。通过低分辨率(256x256)模型的学习过程能够更好地推导出高分辨率下的表现效果。所选取的学习样本序列长度设定为每段包含连续16个可见帧。

全部评论 (0)

还没有任何评论哟~