Advertisement

解读2023年最火的视频生成模型:AnimateDiff Animate Your Personalized Text-to-Image Diffusion Models

阅读量:

基于扩散模型的视频生成技术博客汇总

前言

目录

贡献概述

方法详解

整体结构

运动模块详解

训练细节

论文和代码

个人感悟


贡献概述

该框架的核心是将新初始化的运动建模模块整合到冻结的文本到图像模型中,并在视频片段上进行训练,以提取合理的运动先验。在训练完成后,通过直接注入该运动建模模块,可以使得从同一基础 T2I 派生的所有个性化版本都变得容易生成多样化的和个性化的动画图像。

简单来说,就是提供了一种将时间运动模块融入其中的方法,经过训练后,可以直接进行集成使用。

方法详解

整体结构

基于一个基本的T2I模型,随后在视频数据集上训练运动建模组件,获取运动先验信息。在此阶段,仅更新运动模块的参数,以确保基本T2I模型的特征空间的完整性。

运动模块详解

运动模型采用普通的时间Transformer结构,为了扩大运动模块的感受野,在U-Net的各个分辨率层级中,增加了运动模块以扩大其感受野。同时,在自注意力块中加入了正弦位置编码,以使网络能够识别视频中当前帧的时间位置。为了在训练过程中安全且无副作用地插入模块,我们对时间变换器的输出投影层进行了零初始化,这已被ControlNet验证为一种有效的方法。

详细插入的位置如下图所示:(AI生成视频算法AnimateDiff原理解读 - 知乎

训练细节

用于训练的视频剪辑的最终长度设置为 16 帧,没说要训多久?

论文和代码

https://arxiv.org/abs/2307.04725

该GitHub仓库提供了官方实现:AnimateDiff的官方实现

个人感悟

最近,我刚看到这篇论文的发布,当时类似的研究在T2I模型中加入时间层和运动模块的文章数量众多,因此我并未给予过多关注。由此可见,自己的科研敏感性不强。

目前,animatediff在diffusion video领域生态构建方面处于该领域生态发展领先水平,表示对其生态构建工作的高度认可和赞赏。

这种通过在时间维度上进行层次化设计的方法,其显著优势在于能够实现现有许多C端模型无需额外调整即可直接应用,而现有的视频扩散模型生态体系尚显不够完善。

全部评论 (0)

还没有任何评论哟~