解读文生视频大模型ModelScopeT2V技术报告
在本文中,默认会对ModelScopeT2V进行详细解读。 ModelScopeT2V是一个拥有17B参数的文生视频生成大模型,并由达摩院提出。 并且代码也进行了公开分享。 其中提出的多层时空机制和多帧训练法具有较高的参考价值。 本文将深入探讨该模型的核心技术原理。
目录
贡献概述
方法详解
整体流程
时空块整体结构:时空卷积+时空注意力
时空卷积结构
时空注意力结构
多帧训练
论文和代码
个人感悟
贡献概述

本研究的主要创新点之一在于针对ModelScopeT2V框架的设计中,为了引入能够有效建模时间依赖性的时空结构单元,深入探讨了文本到图像生成领域的LDM.
贡献点二:基于预训练技术开发出一种结合图像-文本与视频-文本配对数据集的多帧训练策略方案;该方案显著提升了模型在语义理解方面的深度。
方法详解
整体流程

整体流程基于典型的LVDM架构,在该方案中VQGAN采用了预训练模型,并采用逐帧操作的方式完成编码与解码过程,在设计上特别强调了对实时性与效率的平衡,并未引入额外的训练过程以保持系统的简洁性
时空块整体结构:时空卷积+时空注意力
一个时空块由四个子组件构成,并且包括以下四种类型:即空间卷积、时间卷积、空间注意与时间注意力这四种基本单元。其中的时空卷 convolutions是基于其对所覆盖的空间与时间维度执行卷 volutions操作以捕获各帧之间的关联关系;而其后的时空注意力机制则能够有选择地聚焦于视频中不同的区域以及不同时间段的特征点。
具体来说,在时空块结构中包含了一系列关键运算单元。每个时空块是由空间卷积层、时间卷积层以及空间与时间注意力机制共同作用所构成的复杂网络模块。其中包含N_1个独立的空间卷积核、N_2个相互作用的时间卷积滤波器、N_3组多头的空间注意力头以及N_4组时序导向的时间注意力组件。这些组件通过巧妙的参数组合优化,在整体系统性能与计算资源消耗之间实现了理想化的设计目标。
第一个关注点主要涉及一个交叉注意力机制,在处理文本特征时能够实现跨模态交互。第二个关注点则由一个自注意力机制完成,在处理视觉信息时专注于空间建模。
时空卷积结构

如图所示,时空模型由空间卷积模块与时间卷积模块构成。其中,在空间域上,每个视频帧经过3\times 3大小的可学习核进行特征提取;在时间维度上,则利用长度为3的一维可学习核对连续F帧数据进行建模。
时空注意力结构
上图(b)呈现了时空注意力这一概念,该概念由两个关键组件构成:空间注意模块与时间注意模块。其中,空间注意机制作用于具有 HW/64 维度的空间特征,而时间注意机制则作用于具有 F 维度的时间特征。
多帧训练
通过初始化技术SD,在视频文本配对数据集上展开训练可能会导致图像域专业知识的语义多样性受限,并引发灾难性遗忘。为了平衡两组数据的优势并解决这一挑战,研究者提出了多帧训练策略。具体而言,将1/8的GPU资源分配给5个训练任务处理图像-文本配对数据集,在剩余的GPU资源下完成视频-文本配对数据集的学习任务。
也就是说把图像当做只有一帧的视频,放在视频数据集里一起训练。
作者统计出UNet参数的39%参数专门用于捕获时间。
论文和代码
个人感悟
1、空间部分用SD初始化,不会是SD 2.1初始化的吧
2、作者比较的指标比较老,现在show-1的sota已经刷的比较高了。
这段论文能够获得的知识十分丰富。尽管从理论层面并没有带来太多新颖的思想,但确实具有重要的应用价值。其中所使用的代码及权重参数均为公开源代码,并且这篇论文值得推荐给该领域的顶尖会议CVPR。
