Advertisement

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

阅读量:

CoMat: Establishing Diffusion Models for Image Synthesis through Conceptual Bridging Between Image and Text Representations

图文一致性主要原因是由于文本中的 token 激活注意值较低。

由于这种状态的存在导致文本中的 token 无法有效激活图像区域。

这种现象使得图文之间存在不一致性。

作者将其归因于扩散模型在训练过程中对条件利用不足的问题,并因此提出了一种名为 CoMat 的方法。

首页

1. Introduction

缺陷

其实上图所展现出来的还是很基础的目标丢失问题

补充一下:
该问题源于视觉概念激活程度偏低而未能有效影响其关注范围。在此基础上,A系列研究已取得一定成果,其中包括:Atten-and-Excite,Structur Diffusion等。

这里也有一个关于问题的分析:

作者将 token 对应的交叉注意图进行了分析,这里采用的做法是:

通过预训练的UNet架构对该类带有多媒体标题的噪声图像施以降噪处理。同时追踪每个文本token所对应的激活强度数值,并沿空间维度计算其平均值

可以看到带有 Comat 的,里面的所有激活值都有了提高

alt text

多说一句🤔
从这个角度看,并无明显差异;Atten-and-Excit 通过将主题视觉概念的 token 提升其响应值来实现这一目标;看起来这里的最终结果与之前的方案一致。

2. Method

作者一共包括三个模块:

  • Concept Matching
  • Attribute Concentration
  • Fidelity Preservation
alt text

2.1 Concept Matching

这里采用了图像字幕模型这一技术手段,并将其命名为 Caption Model 。该技术能够根据输入文本精准地识别生成图像中未包含的概念。

在 captions model 的监督之下(约束之下),diffusion model不得不重新访问 text annotations(文本标记)以检索那些被忽视(未被注意到)的条件信息(细节),并赋予那些先前未被注意到的概念更高的重要性(权重),以便实现更为精确的 text-image alignment(对齐)。具体而言,则是:

  • 基于给定文本提示\mathcal{P}及其对应的词tokens集合\{w_1, w_2, \dots, w_L\}
    • 考虑一张在经过\mathbf{T}步去噪处理后的图片,在这种情况下,
      冻结状态下的Caption Model C将会通过计算对数似然的方式评估图片与文字的一致性,
      而我们的训练目标则是最小化这一评估值,
      并将其记为该损失函数\mathcal{L}_{\text{cap}}

\begin{aligned}\mathcal{L}_{\text{{cap}}}& \text{{等价于计算条件概率 }} p_{{\\mathcal{{C}}}}({\\mathcal{{P}}} | {\\mathcal{{I}}}({\\mathcal{{P}}}; {\\epsilon}_{{\\theta}})) \\ & \text{{的负对数}}, \\ & \text{{这又等于累加从 }} i=1 \\ & \text{{到 }} L \\ & \text{{的条件概率 }} p_{{\\mathcal{{C}}}}(w_i | {\\mathcal{{I}}, w_{{1:i-1}}} ) \\ & \text{{的负对数}}.\end{aligned}

该优化方案借助 DPOK 这一途径得以实现;
研究表明这一模块能够有效缓解物体存在、复杂关系等多种配置问题。

2.2 Attribute Concentration
alt text

如图所示,在SDXL生成模型中,“红词和蓝词在视觉信息处理中通常表现出较强的背景激活特征”,其对应的实体识别较少。为此我们设计了一个概念对齐机制能够部分缓解这一局限性。然而受现有视觉编码模型的限制,在属性关联度方面存在明显不足,整体性能提升较为有限。在此基础上我们提出了一种属性集中策略

这里看下具体做法:

借助 spacy 分析器从提示文本中提取出所有名词及其修饰词语,并将其定义为实体集合 \{e_1, \dots, e_N\}。每个实体即被定义为元组 e_i = (n_i,a_i)
随后进行人工筛选:

  • 首先排除抽象性名词(如场景、氛围、语言)以及难以识别的具体位置描述性名词(如阳光、噪音等)
  • 同时也剔除与背景相关的具体位置描述性名词(如早餐区、浴室等)
  • 最后针对剩余的命名实体应用 Grounded-SAM 模型进行属性分割操作
    其原因是因为扩散模型容易导致错误的属性绑定
    最终将得到一组用于分割的任务目标 \{M^1, \dots, M^N\}
    并基于此设定两个优化目标:
  1. Token 级别注意力损失
  2. Pixel 级别注意力损失

token-level attention loss 就是强制激活 n_i \cup a_i的区域

\begin{aligned}\mathcal{L}_{\text{token}}&=\frac{1}{N}\sum_{i=1}^N\sum_{k\in n_i\cup a_i}\left(1-\frac{\text{分子部分}}{\text{分母部分}}\right)\end{aligned}

这个方法是通过二元交叉熵损失来实现pixel-level attention loss的优化效果:在区域内的每个像素都被强制限定只能关注到目标token的过程中,在这一层面上达到了显著的效果。

其中A代表注意力图中所涉及的像素数量(pixel count)。然而,在提示字段中存在一些特定元素可能会因对齐问题而导致无法在生成图像(generated image)中呈现出来(presented)。在这种情况下, 像素级的关注机制依然保持有效性(valid)。当遮罩全为零时, 它表示没有任何像素应参与当前图像缺失对象的位置标记(position marking)。除了在线模型在进行图像生成任务时, 我们只会在预设比例的时间点上计算这两个损失函数(loss functions)之间的关系

2.3 Fidelity Preservation
alt text

由于目前的技术基于图像字幕模式以及属性与实体间的关系作为基础构建而成, 扩散型技术可能在短时间内集中过多关注点于奖励机制, 导致其性能能力受到影响并最终产出劣质效果, 如图6所示

这个好像还挺新奇的🤔(可以阅读 UFOGen)

对于判别器D_φ的初始化过程,在Stable Diffusion模型中采用了预训练好的UNet架构作为基础设计。这种设计使得判别器能够继承并延续在线训练模型所获得的知识经验基础。通过这一策略预期能够显著提升其识别能力。在我们的实践经验中发现,在这种框架下对抗损失可以在潜在空间维度上进行直接计算而无需依赖图像空间的数据处理方式。需要注意的是,在当前的研究方案中我们采用了一种不同于传统方法的设计思路:即我们的微调模型不直接使用真实世界的图像数据而是基于原始模型输出的结果来进行训练操作以保证生成分布的一致性并实现更为稳健的优化过程

在单一文本提示条件下,在线训练模型与原始扩散模型分别被用来生成对应的图像 latent \hat{z}_0\hat{z}_0'。具体而言,则通过以下方式计算:对抗性损失

\begin{aligned}\mathcal{L}_{\text{{adv}}} = \log(D_{\phi}({\text{{样本}}}) ) + \log(1 - D_{\phi}({\text{{样本'}}}) ). \end{aligned}

2.4 联合训练
alt text

实验

Caption Model 是用 BLIP 在 COCO 数据集上 finetune 的

训练集由 T2I-ComBench、HRS-Bench 以及从 ABC-6K 中随机选取的 5千个prompt 构成,并包含共计 2万幅图像。

训练是在Unet内集成Lora模块(包含原始diffusion和判别器),其余参数被冻结。在并行计算环境下,在多块A100 GPU上完成2K iterations的训练任务,在去噪步骤中共分为51个步骤(其中只有第4至第47步具有梯度反向传播)。

改写说明

全部评论 (0)

还没有任何评论哟~