Advertisement

CVPR, 2023 | MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generatio

阅读量:

注1:本文为"计算机视觉与三维重建论文速递"系列文章之一,在简洁明了的同时全面解析计算机视觉领域尤其是三维重建方向上的最新顶会与顶刊论文(涵盖Nature、Science及其子刊等国际顶级期刊;以及CVPR、ICCV、ECCV、NeurIPS、ICLR、ICML等顶尖会议)。
本次介绍的文章是:2023年CVPR会议上发表的论文《MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation》。
文章的DOI链接是:
https://doi.org/10.48550/arXIV.2212.09478

在这里插入图片描述

CVPR, 2023 | MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

1 引言

人工智能技术在图像、视频及音频领域的内容生成方面已取得显著进展。具体而言,DALL·E 2系统能够创作出生动的艺术图像,DiffWave则能够精准生成高质量的音频内容。然而,这些生成结果仅能提供单一感官体验,要么呈现视觉效果,要么呈现听觉效果 。相比之下,人类创作的丰富网络内容往往具备多模态特征,既能提供视觉信息也能传递听觉信息,这对人类而言更具吸引力。本文旨在从单模态生成向多模态联合生成迈进,专注于开发开放域音视频联合生成模型,以实现更真实自然的视频内容合成。

在这里插入图片描述

主要挑战体现在:第一类是将视频与音频作为两类独特的数据形式进行处理,在这种情况下分别采用三维信号(如视频)与一维波形(如音频)的形式;第二类是在同一框架内实现多模态信息的协同处理时遇到的技术难题;同时,在时间轴上保持同步关系,在设计模型时需确保能够识别两者的关联,并通过相互影响机制来优化整体性能。

为了应对上述挑战,本研究首次提出了一种新型多模态扩散模型MM-Diffusion ,该模型由两个协同工作的去噪自编码器构成,专门用于音视频联合生成过程。相较于现有单模态方法,MM-Diffusion采用了有序排列的多模态U型架构来进行联合降噪处理。通过这一创新设计,两个子网络能够依次生成对齐的音视频配对。为了保证语义一致性,本研究还引入了一种基于随机偏移机制的位置注意力模块来连接这两个子网络,从而有效提升跨模态配准效果并显著提高音视频之间的真实感。

2 动机

近年来生成式模型的发展在很大程度上得益于扩散模型的进步。这些方法主要包含正向过程(将信号转换为噪声)以及反向过程(将噪声还原为信号)。目前扩散模型主要应用于单一模态内容的生成,例如图片、视频或音频素材。然而,在多模态场景下的应用研究仍处于早期阶段。

在这里插入图片描述

在多模态生成过程中占据核心地位的优势在于能够掌握多个模态的联合分布。例如,在生成配对的音频和视频时,当仅专注于各单模态的条件概率分布 p(v|a)p(a|v) 而不探究两者的联合概率模型 p(a,v) 时,则难以准确捕捉两者间的深层统计关联。因此,构建一个能够综合音频与视频特征的联合概率模型成为本文的关键出发点。

具体而言,本文旨在通过基于统一架构设计的多模态扩散模型,实现高质量音视频联合生成.该模型不仅成功提升了各单一模态生成质量,还显著提升了内容的真实感和沉浸体验.

3 方法

本文提出首个多模态扩散模型 MM-Diffusion ,致力于实现高质量的音视频联合生成。

在这里插入图片描述

3.1 多模态扩散模型

给定音频数据a\in A和视频数据v\in V,它们的正向过程是独立的:

q(a_t|a\_{t-1})=\mathcal{N}(a_t;(1-\beta_t)a\_{t-1},\beta_tI) \tag{1}

反向过程学习一个联合模型\theta\_{av},以联合重构音视频对:

p\_{\theta\_{av}}(a\_{t-1}|a_t,v_t)=\mathcal{N}(a\_{t-1};\mu\_{\theta\_{av}}(a_t,v_t)) \tag{2}

主要是在反向传播过程中综合考虑了两个方面的关联。旨在优化网络的整体目标为\epsilon-prediction loss:

\mathcal{L}_{\theta_{av}}=\mathbb{E}_{\epsilon \sim\mathcal{N}(0,I)} | \epsilon - \epsilon_{\theta\_{av}}(a_t,v_t) | ^2 \tag{3}

3.2 耦合U型网络

如图1所示,模型包含两个单模态U型网络 ,进行音视频的联合降噪处理。

  • 视频子网络通过2D+1D卷积结合注意力机制进行特征提取
  • 音频子网络采用膨胀卷积结合更长历史依赖性建模以捕捉音频特征

以连接两个子网络为目标,该文章提出了一种新型的基于随机位移的多模态注意力模块(RS-MMA),如图2所示。该模块具备两大优势:

  • 将复杂度降到原来的比例O(TWH\times T/F)
    • 确保在局部依赖关系中维持建模能力

具体来说,给定视频帧集合V\subseteq\mathbb{R}^{F\times H\times W}和音频信号序列A\subseteq\mathbb{R}^{C\times T}:

(1) 将音频a分割成F段,每段形状为C\times\frac{T}{F}

(2) 设置窗口大小S,随机位移R \in [0,F-S]

(3) 计算第i段音频与视频片段v\_{s:e}的注意力,其中s=(i+R)%\ F,e=(i+R+S)%\ F

3.3 条件生成

本模型基于无条件训练过程开发,但具备零样本迁移学习的能力,可应用于音频转视频、视频转音频等多模态转换任务。这一发现进一步证实了模型在跨模态建模方面的有效性

具体来说, 采用替换法 和基于梯度的方法 进行条件采样操作。无需额外的微调步骤, 体现了扩散模型的强大能力。

4 实验和结果

实验基于Landscape和AIST++数据集展开,并与当前主流单模态生成模型展开对比研究。实验结果表明MM-Diffusion在音视频生成方面表现出明显的优势,并成功验证了该模型的有效性

具体来说,在Landscape数据集上相比SOTA模型实现了较大地提升其FVD性能达到25.0%,同时在AIST++数据集上也获得了显著的进步并使FVD指标达到56

我们不仅验证了模型具备零样本迁移的能力(如图3所示),基于相似音频特征能够输出相应的视频序列,并非仅此而已;此外,在舞蹈视频节奏的基础上能够产出对应的音频序列。这些结果有力地表明我们的联合学习策略能够显著提升单模态生成能力

在这里插入图片描述

我们对主观评估进行了系统性研究。在AMT平台上的相关性评估结果显示,我们的音视频生成效果优于现有的两阶段模型,并且与真实数据呈现更为接近的效果。图形图灵测试证实,经合成的Landscape类音视频有84.9%的成功率得以欺骗用户,充分验证了生成结果的真实可信度

在这里插入图片描述
在这里插入图片描述

5 不足和未来展望

本文是第一个探索多模态联合生成的工作,也存在一些不足:

目前是无条件的生成方式,缺乏控制能力

生成质量尚可继续提升,人物细节生成仍需努力

训练和推理速度有待优化

未来的一些可能的研究方向包括:

探索文本语义控制的条件音视频生成

在具体的下游任务中探索多模态扩散模型,如视频补全、背景音乐合成等

进一步提升模型质量和速度

6 总结

该研究首次提出MM-Diffusion模型,并成功实现了音视频联合生成的高质量输出。主要贡献在于构建了多模态扩散形式化的表示框架,并开发了一种集成化的U型网络结构用于多模态数据建模工作。实验结果表明所提出的方法在生成性能上显著优于现有的单模态基准方法;同时本研究在推动多模态生成技术发展方面取得了重要进展;后续工作计划围绕条件化生成技术和下游应用方向展开深入探索

全部评论 (0)

还没有任何评论哟~