PixArt-α:Fast Training of diffusion transformer for photorealistic text-to-image synthesis
知乎用户介绍了华为新发布的文生图模型PixArt-α及其高效训练方法。该模型采用DiT架构(由Meta提出),仅含0.6B参数,在1.5个SD时长的10.8%内完成训练,并使用25M数据即可实现高质量生成。该模型开源了完整的训练全流程,并强调其低成本优势。与Raphael相比,在A100上完成6万小时训练仅需约两个月时间。PixArt-α通过三阶段微调实现了从预训练到文本引导生成的目标:第一阶段利用ImageNet数据进行预训练;第二阶段基于高质量文本-图像对数据集(如SAM)进行优化;第三阶段通过高分辨率渐进式策略进一步提升生成质量。该模型在文生图领域展现了显著性能提升潜力,并为后续研究提供了重要参考。
华为正式推出了全新文生图模型PixArt-α系统,该系统以低成本训练为特点。该系统基于DiT架构设计,其参数规模仅为0.6B,相较于同类产品而言,其训练耗时仅为SD 1.5周期时间的10.8%,并且仅需25M的数据进行微调即可达到预期效果

自Sora及Stable Diffusion 3发布以来, 笔者一直关注基于Diffusion Transformer的研究工作. 在笔者的先前文章《Diffusion Transformer Family: 关于Sora与Stable Diffusion 3你需要知道的一切》和《一文解读:...》中, 我们对这一领域进行了深入探讨. 此外, 笔者也在持续跟踪扩散模型在图像生成等领域的最新进展.

PixArt系列项目:PixArt-α旨在高效实现高质量文本至图像的扩散变压器合成过程;其对应的GitHub仓库地址为:https://github.com/PixArt-alpha/PixArt-alpha

https://github.com/PixArt-alpha/PixArt-alpha](https://github.com/PixArt-alpha/PixArt-alpha "GitHub - PixArt-alpha/PixArt-alpha: PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis")pixel-α主打低成本训练,采用DiT架构,模型参数0.6B,训练时长只有sd1.5的10.8%,只用了25M数据。开源了训练全流程,还是很有诚意的,并且后面从sora开始的视频diffusion很多也是借鉴自pixel-α。

RAPHAEL很夸张,达到了60k A100hours,用1000张A100训练大约2个月。
1.Fine-tuning
该架构具有高效的性能特征,并且基于DiT架构实现。然而,在实际应用中直接从零开始训练在实际操作中不可行。值得注意的是,在现有的基准数据集如ImageNet等基础上进行预训练是必要的。此外,在生成图像与条件生成间的差距较大这一问题上也面临较大的挑战;为了弥补这些不足并解决这些问题,我们提出了一种三阶段的微调策略:
该任务的第一阶段属于像素依赖性学习机制。其核心在于基于类别条件构建初始参数配置,并通过预训练模型权重实现图像生成能力的基础支撑。具体而言,在此阶段上采用ImageNet数据集训练一个包含1000个类别标签的条件扩散模型(Condition Diffusion Model, CDDM)。该过程可被拆解为两个关键步骤:首先通过DiT架构直接整合了class嵌入(Class Embedding)与time嵌入(Time Embedding),随后将其嵌入到统一式的Diffusion块中进行联合优化;其中一项关键创新点在于将class嵌入与time嵌入相结合的方式采用了AdaLN正则化方法进行处理。

第一阶段仅做预训练工作,其最终目标则是构建一个基于文本引导的条件扩散模型.完成第一阶段训练后,对模型架构进行相应优化.具体措施包括:在DiT块中加入cross-attention机制,以便捕获T5编码器提取的文本特征信息.为了避免微调过程引入的新参数干扰已有权重表现,我们采用零初始化的方式处理cross-attention模块的最后一层投影层.值得注意的是,零初始化在微调过程中是一种常见做法,旨在防止额外参数对原有性能的影响.其次,我们在网络参数优化方面进行了创新性尝试:将原始AdaLN算法进行了单片AdaLN改进.具体而言,在原始设计中每个DiT块都配置了独立的AdaLN层,但由于需要通过一个MLP获取六个尺度因子和偏移量(共计27%参数率),这一设计导致了较高的计算开销.改进方案则是采用共享MLP的方式统一管理所有DiT块中的AdaLN功能,同时在每个DiT块内增加一个可学习嵌入层来进行精细调节.这样一来既保证了各DiT块之间参数区分度的同时又有效降低了整体参数规模.在此基础上我们进一步优化了网络架构:舍弃class embedding模块以避免引入新的学习目标干扰原有权重分布.为了维持预训练权重的有效利用,我们选择固定时间步长(第500步)并设定初始值使得新增可学习嵌入层能够继承原有AdaLN模块的最佳参数设置.这一设定被命名为重参数化策略.
经过上述两项关键改进措施
构建了一个全新的基于文本引导条件扩散模型
该模型采用256x256分辨率进行训练

本阶段为Text-image alignment learning任务,在该阶段中主要基于高质量的文本-图像对数据集进行训练,并以生成目标图像为核心目标。传统的文生图算法多以LAION数据集为基础进行训练,但该数据集存在较大的局限性:由于图片与对应描述之间存在较大程度的不匹配问题。在此基础上,我们采用了先进的LLeva模型来提升图像描述的质量,并非简单延续之前的框架架构设计。在具体实施过程中发现:LAION语料库包含丰富的人文社科类内容(超过B级素材),然而其规模却远超同类产品(仅包含约10 million样本)。在保证样本数量的同时注重提升数据质量显得尤为重要:通过引入更具代表性的SAM素材库进行替换训练,在保持原有功能完整性的同时提升了整体性能表现

第三阶段专注于生成高质量且视觉吸引力强的图片。主要通过高分辨率图像和高质量数据进行微调训练,在这一过程中我们主要依赖于高质量的图片数据包括4,00万张mijourney样本以及内部积累的高达1千万张的数据资源。该方法采用渐进式训练策略以实现高分辨率生成效果具体来说在第三个阶段中总共使用了约25,00万张图片作为训练素材。

