AtomoVideo:High Fidelity image-to-video generation
1.Introduction
为了提高与给定图像的一致性,一些方法将图像编码为image prompt以cross attention注入到模型中,此类方法很难实现细粒度的一致性,因为仅使用高阶语义导致细节丢失。此外一个简单想法是在输入端附加额外的通道,虽然增加了更细粒度,但更难收敛,并且产生的视频稳定性较差。一些方法使用上述两种方法进行图像信息注入,在推理时使用噪声先验而不是纯噪声开始,为了补偿模型不稳定的伪影,由于噪声先验包含给定图像的信息,例如inversion of the reference latent,因此可以显著增强细粒度细节的保真度(注意inversion虽然也是获得latent,但是并不是简单的走一下vae,而是vae+text embed+unet得到的待解码的latent),这种方法显著的降低了运动强度,每一帧在噪声中都包含完全相同的给定图像,使得初始噪声random component decrease。
Atomovideo不依赖噪声先验,concat given image at the input,同时injecting high-level semantic cues through cross-attention to improve the consistency of the video generation with the given image.在训练过程中,zero terminal Signal-to-Noise Ratio(SNR)和v-prediction策略。在训练中保持固定的T2I模型,仅添加temporal layer和input layer参数。
2.Method

3.1 Overall pipeline
使用预训练的T2I模型,add 1D temporal convolution and temporal attention modules在每个spatial convolution and attention layer之后,只训练增加的层,固定T2I参数,同时,为了注入图像将input channel改为9个channel,包括image condition latent和binary mask,input concatenate image information is only encoded by VAE,它代表low-level信息,同时high-level语义信息以cross attention的形式注入网络。
3.2 Image information injection
I2V任务中,给定图像的一致性保持和视频运动状态的一致性通常是相互权衡的。

Xt:高斯噪声,Fm:VAE后的图像;Fi:输入帧mask。
还使用ip-adapter实现cross-attention。这和i2v-adapter很像,i2v-adapter多了个在self-attention上对首帧进行操作的attention adapter,值得好好看看。
3.3 Video Frames Prediction

以迭代方式实现长视频生成,即给定前面帧预测后续帧。
3.4 Training and Inference
采用sd1.5作为基础模型,Animatediff初始化时序注意力层,15M内部数据进行训练,每个视频长度约为10-30s,采用SNR和v-prediction,模型输入尺寸为512x512,24帧,推理执行cfg,图像和文本注入。
4.Experiments



https://mp.weixin.qq.com/s/7QRSmAJKQPZVB-T_1CwNfg