解读2023年最火的视频生成模型:AnimateDiff Animate Your Personalized Text-to-Image Diffusion Models
基于扩散模型的视频生成技术博客汇总
前言
目录
贡献概述
方法详解
整体结构
运动模块详解
训练细节
论文和代码
个人感悟

贡献概述
该框架的核心是将新初始化的运动建模模块整合到冻结的文本到图像模型中,并在视频片段上进行训练,以提取合理的运动先验。在训练完成后,通过直接注入该运动建模模块,可以使得从同一基础 T2I 派生的所有个性化版本都变得容易生成多样化的和个性化的动画图像。
简单来说,就是提供了一种将时间运动模块融入其中的方法,经过训练后,可以直接进行集成使用。
方法详解
整体结构

基于一个基本的T2I模型,随后在视频数据集上训练运动建模组件,获取运动先验信息。在此阶段,仅更新运动模块的参数,以确保基本T2I模型的特征空间的完整性。
运动模块详解

运动模型采用普通的时间Transformer结构,为了扩大运动模块的感受野,在U-Net的各个分辨率层级中,增加了运动模块以扩大其感受野。同时,在自注意力块中加入了正弦位置编码,以使网络能够识别视频中当前帧的时间位置。为了在训练过程中安全且无副作用地插入模块,我们对时间变换器的输出投影层进行了零初始化,这已被ControlNet验证为一种有效的方法。
详细插入的位置如下图所示:(AI生成视频算法AnimateDiff原理解读 - 知乎)

训练细节
用于训练的视频剪辑的最终长度设置为 16 帧,没说要训多久?
论文和代码
该GitHub仓库提供了官方实现:AnimateDiff的官方实现。
个人感悟
最近,我刚看到这篇论文的发布,当时类似的研究在T2I模型中加入时间层和运动模块的文章数量众多,因此我并未给予过多关注。由此可见,自己的科研敏感性不强。
目前,animatediff在diffusion video领域生态构建方面处于该领域生态发展领先水平,表示对其生态构建工作的高度认可和赞赏。
这种通过在时间维度上进行层次化设计的方法,其显著优势在于能够实现现有许多C端模型无需额外调整即可直接应用,而现有的视频扩散模型生态体系尚显不够完善。
