vector quantized diffusion model for text-to-image synthesis
CVPR 2022论文分享会上,微软科技的田老师介绍了基于VQ-Diffusion的文本到图像合成方法。该方法克服了传统GAN基方法的两大缺点:单一场景建模和生成速度慢。通过引入扩散模型,在量化像素空间中构建高效模型,并结合mask和replace策略显著提升了生成效果。与自回归模型相比快15倍,在离散空间中实现高质量图像合成。
CVPR 2022 论文分享会 - 基于 VQ-Diffusion 的文本到图像合成

CVPR 2022 论文交流会将着重探讨基于 VQ-Diffusion 的文本转图技术。


基于GAN的方法在2021年前就已经被广泛采用,在实际应用中通常会将输入文本与噪声一起输入到生成网络中,并通过其产生的输出来模拟真实数据分布特性。这种方法存在两个显著局限性:首先,在模型架构设计上具有较强的限制性,在特定领域应用时往往难以满足多样化需求;其次,在模型训练过程中由于缺乏对复杂场景关系的有效建模能力而导致训练效果欠佳。相比之下,DALLE系统针对输入的一段文字内容能够实现自动生成的过程。具体而言,该系统会从图像左上角开始逐步向右下方填充,每个区域都按照一定的规则进行处理,从而构建出完整的图像内容。然而,这一模式下存在明显缺陷:一方面,前一token出现错误可能导致后续生成效果严重偏差;另一方面,这种模式下生成速度也较慢。

将去噪扩散技术整合到文生图领域中,并开发了VQ扩散算法。该算法在性能上显著提升了自回归模型的速度表现,具体而言,在生成效率上实现了约15倍的加速效果。

该扩散模型包含两个主要步骤:前向步骤和后向步骤。在前向步骤中,在图像上从右到左逐步添加噪声,并遵循马尔可夫链的特性进行操作;随着不断施加的噪声强度增加,原始图像最终会被完全转化为纯噪声图像。而后向步骤中,则采用逆过程来进行降噪;通过设计合理的网络架构和技术手段来去除被施加的噪声;最终能够恢复出接近原始的清晰图像。

VQ diffusion与纯像素空间不同,在采用了量化后的像素空间中执行扩散过程。尽管在pixel的空间中图像具有较高的分辨率属性,在使用transformer模型对每个像素进行建模时会导致序列长度变得过长,并会对建模过程带来不利影响。为了应对这一挑战,则引入了VQVAE技术能够有效地实现这一目标:即通过引入VQVAE技术能够将图片转换为一个具有较低分辨率但离散编码表示的形式(如上图所示),其中原始分辨率设置为256x256,在经过压缩后则缩减为32x32的码本索引尺寸。

在第二阶段中引入了mask和replace两种策略用于图像去噪处理,在该框架下将所有加噪操作限定于一个离散的空间内进行处理。具体而言,在这种场景下存在两种不同的加噪方法:第一种方法是随机移除一个编码单元并将其标记为丢失;第二种方法则是将编码替换为其他可用编码以达到去噪的目的。通过这一系列带有噪声的编码与原始文本信息结合的方式能够重建出原始图像。






