Advertisement

Kandinsky-3:text-to-image diffusion model

阅读量:

这篇文章介绍了俄罗斯AI研究团队AI Forever开源的新文生图模型Kandinsky-3。该模型采用了目前最大的参数量(11.9B),其中text encoder达到8.6B参数。其架构基于latent diffusion模式,在第二阶段直接使用text编码器提取的特征,并结合全局特征进行生成。相比于前驱版本Kandinsky-2.2和DALL-E 2/SDXL等模型,在文本处理能力和图像生成效果上均有显著提升。实验表明该模型在高质量图像生成方面表现优异,并获得了人工测评的认可。

在Kandinsky系列模型的基础上,Kaggle平台在开源Kandinsky-2.2版本后,俄罗斯AI研究团队再次推出新的文生图生成模型Kandinsky-3.这一创新成果的核心特色在于采用了参数规模达到86亿的超大text encoder,从而使得整个模型总参数量跃升至119亿,这一数据指标目前处于该领域领先地位

icon-default.png?t=N7T8

kandinsky(瓦西里·康定斯基)是一位俄罗斯著名艺术家,在其抽象绘画领域享有重要地位

1.Kandinsky 2.2

Kandinsky 2.2被视为DALLE2与潜在扩散技术融合而成的独特架构。该系统采用分步生成策略,在第一阶段基于文本生成图像时引入了clip image embedding这一关键组件;第二阶段以clip image embedding作为条件进行图像生成。值得注意的是,在这一过程中,默认情况下系统采用了transformer decoder架构来构建前向传播路径中的prior模块;而在第二部分则巧妙地将unet结构嵌入到潜在扩散框架中完成后续迭代与优化。

下面是对比分析:DALLE 2首先通过CLIP生成了text和image的embedding。其中第一个prior既可以基于扩散模型构建,也可以采用自回归架构(如transformer),其作用是将text embedding映射至image embedding空间。而后stage中gt是clip编码的image embedding,在第二阶段引入了一个解码器模块(decoder)。与KANDINSKY模型进行对比分析时发现,在此基础上构建了完整的生成框架:首先得到这个扩散模型之后,在此基础上构建了完整的生成框架;随后利用这个扩散模型生成image embedding;最后配合解码器完成图像重建过程。这一系列步骤体现出两者在流程设计上的显著差异:特别是第二步的具体实现方式上存在明显区别。

DALL-E 的两阶段方案主要优势在于第二阶段仅需纯图像数据用于训练图像生成模型。实际上,在 DALL-E 的第二阶段中还引入了文本条件。然而 clip image embedding 的条件更为强大,在这一过程中经常被识别为文本编码器难以捕捉到的关键信息而容易被掩盖。相比之下,采用 clip image embedding 作为条件比直接使用纯文本进行模型训练更加便捷。具体来说,在 DALL-E 的架构中,这个 decoder 部分主要用于将图像特征与文本编码器结合以生成最终结果。值得注意的是,虽然 DALL-E 在某些方面表现优异,但它仍然存在易产生混淆的情况:例如在区分属性与拼写单词方面均表现不佳。此外,在 Kandinsky 2.2 和 DALL-E 通融方案的基础上,原作者团队还实现了 Ru-DALLE 的功能。

2.kandinsky 3

2.1 模型结构

kandinsky3主要基于当前主流的潜在扩散架构进行设计,在文本引导潜在训练方面表现突出。其文本编码器部分采用了谷歌开发的Flan-UL2模型,并具备强大的参数规模优势(总计20B),相较于T5-xl系列,在规模上也实现了显著的增长。

在此处采用了Flan-UL2编码器模块。其参数规模为8.6B,相较于T5-xxl编码器(4.6B)而言,则大了约两倍。与传统生成式AI模型采用的方式一致,在扩散模型框架下对提取自text encoder的文字特征进行交叉注意力处理并融入UNET结构。值得注意的是,Kandinsky3采用了较长的文字编码长度(128),较之于CLIP模型(77)具有显著提升。此外,Kandinsky3还引入了一种全局特征抽取机制,在提取完所有文字信息后生成一个全局表示,并将其整合到时间编码层后作为输入信号传递至UNET模块中。sdxl则采取了类似的策略进行处理。

虽然kandinsky3属于latent diffusion模型系列,但其与常见的sd软件及其自编码器(ae)存在显著差异。具体而言,在参数规模上采取了270百万参数的设计,并基于对vqgan算法的技术优化进行了改进。

不过和sd一致,都是将512x512的图像压缩成32x32x4的latents.

Kandinsky3的unet模型参数权重为3B,比sdxl的2.6B还要大一点:

从整体来看,UNet模型分为四个独立的阶段(stage),其中最后一个阶段未采用下采样操作(downsampling),整体采用了8x的下采样策略。其中使用了SDXL模型的区域采用了4x下采样方案(sdxl_downsampling=4),而传统SD模型则采用6x下采样策略(sd_downsampling=6)。值得注意的是,在第一个阶段中并未引入自注意力机制(self-attention),这一设计主要是为了有效降低计算开销(computational cost)。其余三个阶段则同时集成自注意力机制与交叉注意力机制(cross-attention),其中每一个阶段均以Big Gan Deep模块为基础架构,并在最开始的位置引入一个自注意力子模块(self-attention block)。解码器部分则位于后续结构中。值得注意的是,在每个阶段的基础架构中都包含了一个残差模块(residual block),其主要由四个卷积层构成,并且如果该模块包含有上采样操作,则会在其基础上增加一个额外的stride=2卷积层或反卷积层(upsampling layer)。具体而言,在四个不同阶段中所采用的基础架构分别为:第一阶段为Big Gan Deep + cross Attn + Big Gan Deep;第二至四阶段则依次增加了更大的通道数量:768、1536和3072个通道

2.2 训练策略

基于同一份训练数据集LAION,Kandinsky2.2与Kandinsky3均进行了参数优化,其中Kandinsky3在建模过程中特别引入了与俄罗斯地理分布相关的图像样本,并运用了多模态语言模型对图片进行文本描述生成.该系统采用了分阶段的系统性训练方法.

3.模型效果

采用包含21个不同类别的数量达2100个不同类型的prompt进行人工评估。主要从生成图像与文本的一致性和视觉质量两个维度展开评估。

全部评论 (0)

还没有任何评论哟~