ICLR 2024中Video Diffusion Models相关论文
[基于扩散模型的视频生成与综述]( "Diffusion Models视频生成-博客汇总")
前言 :最近ICLR 2024的出分结果令人出乎意料,Video Diffusion Models的表现远超预期。然而,审稿人与作者之间的互相调侃则展现了另一种有趣的一面。今日的娱乐活动已圆满结束。
目录
VideoFactory: Exchange Attention within Spatial-Temporal Diffusion Processes to Achieve Text-Driven Video Synthesis.
2、Video2StyleGAN: Disentangling Local and Global Variations in a Video
Ground-A-Video: Zero-Shot Grounded Video Editing based on Text-to-Image Diffusion Models
4、CV: 基于条件的控制在文本驱动的视频编辑及其应用扩展中
5、Kuwo Video-Language Dataset: Over 10 Million Extensive Chinese Video-Language Dataset Aimed at Pre-training and Benchmarking
VideoSynthesis Module: Customized Motion Dynamics in Text-Driven Video Generation
Integrating Pixel and Latent Diffusion Models in Text-to-Video Generation
VideoFactory平台:在时空扩散过程中,通过交换注意力机制,实现文本到视频的生成过程。
VideoFactory: Exchange Attention Mechanisms in Space-Time Diffusion Models for Enhanced Performance.
最近,我已预先了解了这篇论文的内容。然而,在模型scopet2v上进行微调训练,并以YouTube视频数据集为基础收集数据的合法性问题成为了审稿人集中进行负面评价的主要焦点。
为什么对 finetune的敌意这么大呢……微调的成本其实比想象中高的。
2、Video2StyleGAN: Disentangling Local and Global Variations in a Video
Video2StyleGAN: Separating Local and Global Variations in a Video
打8分那个审稿人是不是水军,都这么明目张胆吗…
3、Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models
Ground-A-Video: A Grounded Approach to Zero-Shot Video Editing Using Advanced Techniques
让我想到了当年水多属性编辑image的盛况
4、VideoControl: Condition-based Control for Text-Driven Video Editing and its Applications
ControlVideo: Conditional Control Mechanism for Text-Driven Video Editing, combined with advanced techniques for enhancing video quality and user experience.
这篇论文早在三年前就已经挂了出来,最初发布时的思路还算是新颖。半年多来,这种思路已经被广泛使用,遗憾的是它的创新性已经被削弱。
5、Youku-mPLUG: An Extensive Chinese Video-Language Dataset Aimed at Pre-training and Benchmarking
Youku-mPLUG: 《Youku-mPLUG: 1000万规模的中文视频语言研究》...
大文娱硬起来了
6、Video Diffusion Models Customization: Motion Parameterization of Text-to-Video Diffusion Models
该论文基于运动定制技术,探讨了文本到视频扩散模型的优化方法。该研究通过创新的运动参数化方法,显著提升了生成视频的质量和效率。该方法在保持生成速度的同时,实现了更自然的视频动作捕捉效果。该研究为文本到视频生成领域提供了新的技术思路和实现方案。
对双路分解思想的批评者在评价时表现出明显的偏见倾向,这一思路在GANs时代已逐渐被证明效率低下,即使这种思路操作简便,VDM等方法也已广泛应用于实际场景中。
Integrating Pixel and Latent Diffusion Models to Advance Text-to-Video Synthesis
Integrating Pixel-level and latent diffusion-based approaches for Text-to-Video generation...
毕竟是准sota的工作,居然还是免不了被一顿喷…
