Mastering Text-to-Image Diffusion:Recaptioning, Planning, and Generating with Multimodal LLMs ——论文笔记
论文题目:Mastering Text-to-Image Diffusion: Recapturing, Planning, and Generating with Multimodal LLMs
来源:ICML2024
论文链接:
| https://doi.org/10.48550/arXiv.2401.11708 |
|---|
阳灯/_diffusio master: 在ICML 2024上掌握文本到图像扩散技术:通过多模态LLM实现重述、规划与生成(RPG)
1.摘要
本文创新性地提出了一个无需训练的文本至图像生成与编辑新框架(Plan and Generate, RPG),其基础架构是基于多模态大语言模型的强大思维链推理能力构建而成。该系统通过将MLLM设计为全局规划引擎,并将其应用于复杂场景下的视觉合成问题上取得了显著成效:通过将复杂图像生成任务划分为若干个子区域内的简单生成环节;我们成功开发出一种名为互补区域扩散的新算法:通过互补区域扩散机制实现了各区域元素的有效合成;同时,在所提出的RPG框架中实现了文本引导型图像生成与编辑功能的有机融合:
2.方法

2.1 Recaption
Prompt Recaptioning:假设

这是一个具有较高复杂性的交互提示符,在设计过程中考虑了多种属性及实体间的关系网络。我们利用MLLL模型以完成实体识别任务

中的关键短语,方便重新描述为子提示:

其中n代表关键短语的数量,在借助LLM的强大语言理解和推理能力的基础上,请进一步阐述每个子提示的同时,请提供更为详实的信息说明:

借助这种方式, 可以为每个子提示产出更为详细的具体细节, 从而显著地提升生成图像的质量, 并降低提示与图像间的语义差距
2.2 Plan
通过LLM的强大多模态思维链(CoT)进行区域划分策略规划:基于提取出的辅助提示信息,我们利用LLM强大的多模态思维链(CoT)推理能力来规划用于扩散模型的最终图像内容的组成。具体而言,我们将图像的空间维度H×W划分为若干互补区域,并将每个增强型辅助提示信息分配给特定的分割区域Ri:

我们需要仔细指定用于规划区域划分的两个关键要素:(i) 区域参数设定:我们采用按分号";"分割图像为不同行数的方式,并在每一列中设置多个用逗号分隔开的数值(例如,“1,1,1”)来描述该列的内容。(ii) 区域任务规范推导:我们通过MLLM模型结合预先设计好的上下文示例来进行推导与规划以确定区域划分的具体方案
(i)区域划分的一个例子:

(ii)简化的模板和上下文实例:

2.3 Generate
本文提出了一种新型区域扩散方法,并命名为互补区域扩散(Complementary Regional Diffusion),该方法主要应用于图像合成与区域生成领域。该技术通过识别非重叠的互补矩形区域,并随后采取调整区域大小以及执行连接后处理步骤的方式,在图像合成过程中实现高质量的生成效果。此外,在提示设计方面我们采用了基础提示与重新表述的子提示相结合的方式,并对每个生成区域进行连贯性优化处理以提升整体图像质量

其中s被设定为一个固定值随机种子,CRD代表互补区域扩散这一概念。详细说明一下,在这项研究中我们采用了基础提示符作为主要构建单元

=

和重新引用的子提示符构造一个提示符批处理:

对于每一个时间步而言,在该步骤我们通过将一批提示信息作为输入被馈送到去噪网络中,并在整个处理过程中采用交叉注意力机制进行处理。

在其中,在潜向量被用作查询Q的同时,在每个子提示符也被用作对应的K和V。通过线性变换矩阵WQ、WK、WV对输入进行转换,在相关的向量空间中构建相应的表示关系。这里提到的d指的是键与查询之间的潜在投影维度
随后, 我们将基于它们分配的区域编号(从0到n)以及各自所占的比例, 继续对生成的潜向量进行处理。

进行拼接。


为了更好地保障不同区域边界处的平滑过渡以及内部背景与实体间的协调统一,在每个区域内实现空间上的有机融合, 我们采用了核心潜向量作为基础模型

和连接的潜向量

的加权和:

β 用于调节人类审美感知与所生成图像中复杂文本提示间的对应关系中,并起到平衡作用。
互补区域扩散中的每个采样步骤的演示:

这是每个去噪扩散步骤中的必做流程。在各迭代阶段需整合并协调处理。通过均衡区域控制与全局一致性来优化处理效果。将各区域属性信息整合至潜在向量空间。
3. 实验结果


与SDXL相比和DALL-E,本文提出的RPG表现出更好的图片生成效果。

实验结果表格基于T2 I-CompBench进行评估显示 RPG模型在属性绑定 对象关系 以及复杂组合任务中均展现出卓越的性能表现 其中我们采用蓝色标记最高得分项 使用绿色标注次优得分项以清晰反映各指标的表现水平
