Text2Video-Zero:Text-to-Image Diffusion Models are Zero-Shot Video Generators
本文提出了一种名为Text2Video-Zero的方法,利用现有文本到图像扩散模型(如Stable Diffusion)实现零样本视频生成。该方法无需额外数据训练,在潜在码中引入运动动力学信息,并通过跨帧注意力机制保证前景对象的一致性与外观保留。其主要贡献包括:1. 在潜在码中编码运动动力学;2. 重新编程跨帧自注意力以保持对象外观一致性;3. 扩展至条件与内容专用视频生成及视频编辑任务。该方法结合ControlNet增强效果,并展示了完整的模型架构与流程图。
AIGC-AI视频生成系列-文章1
AIGC-AI视频生成系列-文章1

AIGC-AI视频生成系列-文章1
AI驱动的图像生成与视频制作系列-文章1
AI驱动的图像生成与视频制作系列-文章1
0.abstract
本文无需额外的数据训练即可实现现有文本到图像合成能力(例如Stable Diffusion框架),从而有效解决帧间不一致的问题。在具体实施中包含两个主要改进方向:首先通过引入运动动力学模型来丰富潜在编码信息(latent code),从而保证整体场景与背景的一致性;其次重构各帧之间的自注意力机制(self-attention),通过每个帧与初始帧之间的跨帧注意力机制来保留前景对象的内容、外观以及身份特征。该方法不仅适用于生成视频(Video Generation)领域,在条件或内容特定的视频生成模型(如pix2pix)以及引导式视频编辑等场景中也展现出良好的适用性。

1.introduction
一些研究尝试在视频处理中重新应用文本至图像扩散模型的技术以实现对视频内容的生成与编辑目的。然而这些方案通常需要大量的标注数据支持 VideoFusion采用的方法是基于将视频作为输入的数据进行训练的过程 这种变体(One-Shot)是基于单个样本进行学习的方法 Zero-Shot方法则通过结合图像与文字信息来推导出目标内容 本研究具体而言 本研究提出了以下三个主要贡献
1.zero-shot
通过latent code中的机制来表示运动模式,并引入一种inter-frame attention机制来重构每个frame级别的self-attention计算。
3.条件和内容专用视频生成,video instruct pix2pix,视频编辑。
2.related works
NVIDIA Multi-GPU Accelerator → Phe-nak-i → Cog-Video (v2) → Vast Dynamic Memory → Image Video → Generate a video → Gen-1 → Tune "Text-to-Video Zero"
3.methods
包括Text2video-zero、controlnet与dreambooth的融合以及Video Instruct-pix2pix的应用。为了生成视频内容,Stable Diffusion需要在其潜在代码序列层进行操作。传统的做法是分别从标准高斯分布中抽取m个潜在代码,并通过DDIM进行采样以生成相应的张量。这些潜在代码经过解码后得到生成的视频序列。然而,请参考下图中的示例。

在上图的第一行中缺乏motion和cross-frame attention的概念支撑时,在生成图像的过程中出现了高度随机化的情况;这种情况下仅基于文本描述提供了语义信息而缺乏物体运动的一致性;为了改善这一现象
通过在latent code中融入运动动力学模型,能够使生成的视频序列呈现出连贯性和一致性的特征。
2.引入跨帧注意力机制保证前景对象的外观一致性。
3.1 motion dynamics in latent codes

3.2 reprogramming cross-frame attention
为了有效提取前景对象的形态特性和身份特征,在生成流程中持续运用cross-frame attention机制,在生成过程中全程保持关注。无需对现有的super-resolution(SR)模型进行额外的微调训练,在该框架下将每个self-attention模块替换为cross-frame attention模块,并确保每帧的空间位置编码矩阵(SPM)仅关注初始帧的信息。在传统的super-resolution(SR)架构设计中,默认情况下各层均能生成对应的空间位置编码矩阵(SPM),随后通过线性变换将这些SPMs转换为统一维度下的q(query)、k(key)、v(value)向量。

在text2video-zero架构中, 每个attention机制接收m个输入信号. 经过线性投影处理后, 生成m个对应的queries, keys以及values序列. 因此, cross-frame attention机制得以引入:

该研究借助cross-frame attention机制,在目标及其背景的视觉特征、空间结构和身份信息等方面实现了跨帧信息的有效传递,并显著提升了生成帧的时间一致性。


模型结构:

此图在文章中具有核心地位。首先从latent code出发, 通过预训练的SD模型利用DDIM方法实现反向传播得到x, x即为逐帧图像序列, 这个x对应的是运动动力学, x通过变形函数W实现转换, 然后再通过DDPM模型进行编码至潜在码, 此时潜在码具备了全局运动一致性。这得益于DDPM模型在运动控制方面的灵活性, 最终将潜在码输入改进后的SD模型生成连续帧组成的视频序列。
4.结合controlnet

