Advertisement

VideoCrafter1:Open Diffusion models for high-quality video generation

阅读量:

[https://zhuanlan.zhihu.com/p/677918122

icon-default.png?t=N7T8

知乎上的这一篇文章深入探讨了该领域的核心概念与最新发展动态

不管是文生还是图生视频,在生成图生视频时通常会将图片作为一个模态的crossattention输入至UNET中以实现去噪这一操作需要进行训练除了svd之外还常将图片与噪声拼接在一起作为输入来拓展功能很多文生视频通过这一机制拓展成为图生视频即将图片作为crossattention输入则需要配备一个提取图片特征的特征提取器常见选择是CLIP模型如何将提取到的特征融入到UNET中对此已有相关说法既可以拼接后直接输入也可以解耦后再送入这两种方式都能实现有效的图像生成VIDEOCRAFTER作为一种基于DYNAMICRAFTER的扩展模型本质上是一种三维UNET而非像ANIMEFFORD这样的二维 animatediff模型其主要区别在于ANIMEFFORD包含了一个运动模块而VIDEOCRAFTER则增添了三维残差模块和三维时空序列处理机制从而实现了对二维T2I模型的高度兼容性

全部评论 (0)

还没有任何评论哟~