Advertisement

Diffusion Models in Vision: A Survey

阅读量:

目录

  • 1. Introduction

    • 2. 通用框架
  • 3 扩散模型的分类

    • 结束语和未来方向
    • 局限性。
    • 未来发展方向。

去噪扩散模型作为计算机视觉领域的最新研究方向之一,在生成建模领域取得了显著的研究成果。作为一种基于两个阶段的深度生成模型,在前向过程中通过逐步添加高斯噪声对输入数据进行扰动;而在反向过程中,则通过学习逐步逆向还原过程以恢复原始输入数据。尽管其计算开销较高(已知由于采样过程涉及大量步骤而导致速度较低),但其生成样本的质量和多样性得到了广泛认可。本文对视觉中应用去噪扩散模型的文章进行了系统性回顾,并重点探讨了该领域的主要理论与实践贡献。首先,在方法论方面,论文系统性地提出三种通用框架:基于去噪扩散概率模型、噪声条件评分网络以及随机微分方程驱动的设计方案;其次,在与现有深度生成模型的关系探讨上进行了深入分析(包括变分自编码器、生成对抗网络、能量基模型、自回归架构及归一化流等);此外还详细阐述了视觉应用中的多视角分类问题;最后讨论了当前去噪扩散模型的技术局限性,并对未来研究方向进行了展望。

1. Introduction

到目前为止,扩散模型已广泛应用于多种生成建模任务,包括图像生成、图像超分辨率、图像修复、图像编辑以及图像间的翻译等.此外,扩散模型所学习的潜在表示在判别任务中同样具有重要价值,例如用于图像分割、分类以及异常检测.就其分类而言,扩散模型至少可划分为三个子类.第一个子类是基于去噪扩散概率模型(DDPM) ,该方法灵感来源于非平衡热力学理论,并采用潜在变量来估计概率分布.从这个角度来看,DDPM可被视为一种特殊的变分自动编码器(VAE),其中前向扩散过程对应于编码过程,而反向扩散过程则对应于解码过程.第二个子类由**噪声条件评分网络(NCSN)代表,它通过训练共享神经网络来估计不同噪声水平下的扰动数据评分函数(定义为对数密度梯度).以随机微分方程 (SDE)**为基础的方法则构成了第三个子类.通过正向与反向SDE进行建模既能实现高效的生成策略,也能获得强有力的理论结果 .后一种表述(基于SDE)可视为对DDPM与NCSN的一种概括总结.论文明确提出了若干设计性决策原则,并将其整合为与上述三个子类别相对应的三个通用扩散建模框架.为了使这些通用框架更好地融入现有研究背景中,论文进一步探讨了扩散模型与其他深层生成模型之间的联系.具体而言,论文阐述了与变分自动编码器(VAE)、生成对抗网络(GAN)、基于能量的模型(EBM)、自回归模型以及标准化流量之间的关系.随后,论文介绍了计算机视觉领域中应用的多视角分类方法,根据底层框架、目标任务或去噪条件等多个标准对现有模型进行分类归纳.最后部分详细讨论了当前扩散模型的研究局限性及其未来发展方向.值得注意的是,一个显著的问题可能是生成样本所需时间效率较低的现象尤其明显——例如在高质量样本生成过程中往往需要数千步评估步骤 .不过在不影响样本质量的前提下克服这一挑战仍是未来研究的重要课题。

2. 通用框架

在这里插入图片描述

2.1-2.3:DDPMs, NCSNs, and SDES三种框架的基础知识
2.4 与其他生成模型的关系
从基于可能性的方法开始,以生成对抗网络结束。扩散模型与 VAE 有更多共同点 。例如,在这两种情况下,数据都被映射到潜在空间 ,并且生成过程学习将潜在表示转换为数据。此外,在这两种情况下,目标函数都可以作为数据似然的下限导出。然而,这两种方法之间存在本质区别 ,论文将提及其中的一些区别。 VAE 的潜在表示包含有关原始图像的压缩信息,而扩散模型在前向过程的最后一步后完全破坏了数据。扩散模型的潜在表示与原始数据具有相同的维度 ,而 VAE 在维度减小时效果更好。最终,到 VAE 潜在空间的映射是可训练的,这对于扩散模型的前向过程来说是不正确的,因为如前所述,潜在空间是通过向原始图像逐渐添加高斯噪声来获得的。上述相似点和不同点可能是这两种方法未来发展的关键。例如,已经存在一些通过将扩散模型应用于 VAE 的潜在空间来构建更有效的扩散模型的工作。自回归模型将图像表示为像素序列。他们的生成过程通过以先前生成的像素为条件逐像素生成图像来生成新样本。这种方法意味着单向偏差,清楚地代表了此类生成模型的局限性。埃塞尔等人将扩散模型和自回归模型视为 互补并解决了上述问题。他们的方法学习通过马尔可夫链反转多项式扩散过程,其中每个转换都作为自回归模型实现。提供给自回归模型的全局信息由马尔可夫链的前一步给出。归一化流是一类将简单高斯分布转换为复杂数据分布的生成模型。该变换是通过一组可逆函数完成的,这些函数具有易于计算的雅可比行列式。这些条件在实践中转化为架构限制。此类模型的一个重要特征是可能性易于处理。因此,训练的目标是负对数似然。与扩散模型相比,两种模型的共同点是数据分布到高斯噪声的映射。然而,这两种方法之间的相似之处到此为止,因为归一化流通过学习可逆且可微的函数以确定性方式执行映射。与扩散模型相比,这些属性意味着对网络架构的额外约束以及可学习的前向过程 。连接这两种生成算法的方法是 DiffFlow。DiffFlow 扩展了扩散模型和归一化流,使得反向和正向过程都是可训练的和随机的。基于能量的模型(EBM)专注于提供密度函数(称为能量函数)的非标准化版本的估计。由于这个属性,并且与之前基于似然的方法相比,这种类型的模型可以用任何回归模型来表示。然而,由于这种灵活性,EBM 的训练很困难。实践中使用的一种流行的训练策略是分数匹配 。关于采样,除其他策略外,还有基于得分函数的马尔可夫链蒙特卡罗(MCMC)方法。因此,扩散模型第2.2小节的公式可以被认为是基于能量的框架的特殊情况,正是训练和采样仅需要得分函数时的情况。在扩散模型最近兴起之前,GAN 就生成样本的质量而言被许多人认为是最先进的生成模型。 GAN 也因其对抗性目标而难以训练 ,并且经常遭受模型崩溃 。相比之下,扩散模型具有稳定 的训练过程,并提供更多的多样性,因为它们是基于可能性的。尽管有这些优点,但与 GAN 相比,扩散模型仍然效率低下,在推理过程中需要进行多次网络评估。 GAN 和扩散模型之间比较的一个关键方面是它们的潜在空间。虽然 GAN 具有低维潜在空间,但扩散模型保留了图像的原始大小。此外,扩散模型的潜在空间通常被建模为随机高斯分布 ,类似于 VAE。在语义属性方面,人们发现 GAN 的潜在空间包含与视觉属性相关的子空间。由于这个属性,可以通过潜在空间的变化来操纵属性。相反,当扩散模型需要这种变换时,首选过程是引导技术,它不利用潜在空间的任何语义属性。然而,宋等人证明扩散模型的潜在空间具有明确定义的结构 ,说明该空间中的插值导致图像空间中的插值。综上所述,从语义的角度来看,扩散模型的潜在空间的探索比 GAN 的情况要少得多 ,但这可能是社区未来遵循的研究方向之一。

3 扩散模型的分类

论文在探讨不同的分类标准时,采用多视角的方法将扩散模型归类为多视角分类法. 分类的最重要标准取决于数据特征和模型特性.

  • 模型所涉及的任务领域
    • 输入信号源
  • 定制扩散模型的核心架构
    • 数据集部分
      研究通过以上标准将扩散模型进行了系统分类(如表 1 所示)。在后续讨论中提出了对扩散模型的一些创新性贡献。研究以目标任务为区分的主要依据,并认为这种分类标准既平衡又具代表性,在特定任务领域的读者中具有指导意义。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

其他任务:
一些开创性的工作成功地将扩散模型应用于一系列新任务;然而,在这些领域鲜有对扩散模型进行系统性探索的情况。例如:3D 点云生成技术、自动编码方法以及无监督表示学习框架;此外还包括一种新型分类策略(基于分数值),以及利用扩散模型实现图像配准的技术;值得注意的是,在这一领域中还出现了多个创新应用:通过扩散机制实现反事实解释研究、开发用于生成反事实图像的方法以及利用扩散模型构建对抗性攻击防御体系;此外还有基于扩散技术开发的一系列实用工具:包括专门针对去噪去模糊等关键应用场景设计的生成器模块;同时研究人员还提出了多种创新性的语义合成框架;最后在这一研究方向上还出现了多个具有实用价值的应用场景:旨在修复受各种极端天气条件(如雪灾、暴雨)所导致图像损坏的任务;此外还有多个研究团队致力于通过预训练技术提升特定领域任务评估能力的技术体系

结束语和未来方向

该研究综述了扩散模型及其在计算机视觉多方面领域的应用成果。该论文通过DDPM、NCSN和SDE等方法建立了扩散模型的主要三种数学表达式。在图像生成任务中,这些公式均展现了显著优势,并超越了GAN方法的同时也显著提升了生成样本的多样性程度。尽管扩散模型的研究仍处于发展阶段初期阶段时就取得了显著成果,在多个应用领域也取得了突破性进展;同时为后续研究指明了方向和未来改进的空间

局限性。

扩散模型最显著的缺点在于推理过程中需经过多个步骤来进行生成。尽管在此领域已进行过诸多研究,但GANs仍能保持其优势,在生成图像速度方面表现更为出色。其其他问题亦可与采用CLIP嵌入来进行文本至图像生成的传统方法相联系

未来发展方向。

为了减小不确定性程度,在采样过程中通常不会采取大步长。实际上,在每一步采样中使用小步骤,则可以使生成的数据样本都能被学习得到的高斯分布所合理解释;当在神经网络训练过程中采用梯度下降方法时,则会观察到类似的规律:即如果朝着梯度的负方向迈出过大的一步(即使用非常大的学习率),可能导致更新到具有高不确定性的区域而无法有效控制损失值;未来研究工作中将从高效优化器中借用更新规则转而应用于扩散模型可能会带来更有效的采样(生成)过程;除了当前研究更高效的扩散模型趋势之外,在未来的研究工作还可以探索应用于其他计算机视觉任务的可能性;例如图像去雾、视频异常检测或视觉问答等;一个有趣的研究方向是评估判别任务中扩散模型所学习到的表现空间的质量与实用性;这可以通过两种不同的途径来实现:其一是直接途径——通过在去噪模型提供的潜在表示之上构建判别模型来解决某些分类或回归任务;其二是间接途径——通过使用扩散模型生成的真实样本增强训练集;其中后者更适合对象检测等任务——其中修复扩散模型能够很好地融合图像中的新对象;未来的另一个研究方向是采用条件扩散模型来预测视频后续的过程,并使生成的视频可进一步作为强化学习输入源;与现有技术相比最近发展起来的文本到视频合成能力令人印象深刻然而论文认为这一方向在未来研究工作中仍需给予更多关注——因为生成出来的视频长度较短因此对物体之间长期时间关系及互动建模仍是当前的一个开放性挑战;未来的多用途模型研究也可以扩展至同时解决多个任务的情形——创建一种能够同时产生多种类型输出且以不同数据为条件(如文本、类别标签或图像)的新颖方法可能会有助于我们进一步理解开发通用人工智能 (AGI) 的必要步骤

全部评论 (0)

还没有任何评论哟~