CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

阅读量：

CoMat: Establishing Diffusion Models for Image Synthesis through Conceptual Bridging Between Image and Text Representations

图文一致性主要原因是由于文本中的 token 激活注意值较低。

由于这种状态的存在导致文本中的 token 无法有效激活图像区域。

这种现象使得图文之间存在不一致性。

作者将其归因于扩散模型在训练过程中对条件利用不足的问题，并因此提出了一种名为 CoMat 的方法。

1. Introduction

缺陷

其实上图所展现出来的还是很基础的目标丢失问题

补充一下：
该问题源于视觉概念激活程度偏低而未能有效影响其关注范围。在此基础上,A系列研究已取得一定成果,其中包括:Atten-and-Excite,Structur Diffusion等。

这里也有一个关于问题的分析：

作者将 token 对应的交叉注意图进行了分析，这里采用的做法是：

通过预训练的UNet架构对该类带有多媒体标题的噪声图像施以降噪处理。同时追踪每个文本token所对应的激活强度数值，并沿空间维度计算其平均值

可以看到带有 Comat 的，里面的所有激活值都有了提高

多说一句🤔
从这个角度看，并无明显差异；Atten-and-Excit 通过将主题视觉概念的 token 提升其响应值来实现这一目标；看起来这里的最终结果与之前的方案一致。

2. Method

作者一共包括三个模块：

Concept Matching
Attribute Concentration
Fidelity Preservation

2.1 Concept Matching

这里采用了图像字幕模型这一技术手段，并将其命名为 Caption Model 。该技术能够根据输入文本精准地识别生成图像中未包含的概念。

在 captions model 的监督之下（约束之下），diffusion model不得不重新访问 text annotations（文本标记）以检索那些被忽视（未被注意到）的条件信息（细节），并赋予那些先前未被注意到的概念更高的重要性（权重），以便实现更为精确的 text-image alignment（对齐）。具体而言，则是：

基于给定文本提示\mathcal{P}及其对应的词tokens集合\{w_1, w_2, \dots, w_L\}；
- 考虑一张在经过 $\mathbf{T}$ 步去噪处理后的图片，在这种情况下，
  冻结状态下的Caption Model $C$ 将会通过计算对数似然的方式评估图片与文字的一致性，
  而我们的训练目标则是最小化这一评估值，
  并将其记为该损失函数 $\mathcal{L}_{\text{cap}}$ 。

$\begin{aligned}\mathcal{L}_{\text{{cap}}}& \text{{等价于计算条件概率 }} p_{{\\mathcal{{C}}}}({\\mathcal{{P}}} | {\\mathcal{{I}}}({\\mathcal{{P}}}; {\\epsilon}_{{\\theta}})) \\ & \text{{的负对数}}, \\ & \text{{这又等于累加从 }} i=1 \\ & \text{{到 }} L \\ & \text{{的条件概率 }} p_{{\\mathcal{{C}}}}(w_i | {\\mathcal{{I}}, w_{{1:i-1}}} ) \\ & \text{{的负对数}}.\end{aligned}$

该优化方案借助 DPOK 这一途径得以实现;
研究表明这一模块能够有效缓解物体存在、复杂关系等多种配置问题。

2.2 Attribute Concentration

如图所示，在SDXL生成模型中，“红词和蓝词在视觉信息处理中通常表现出较强的背景激活特征”，其对应的实体识别较少。为此我们设计了一个概念对齐机制能够部分缓解这一局限性。然而受现有视觉编码模型的限制，在属性关联度方面存在明显不足，整体性能提升较为有限。在此基础上我们提出了一种属性集中策略

这里看下具体做法：

借助 spacy 分析器从提示文本中提取出所有名词及其修饰词语，并将其定义为实体集合 $\{e_1, \dots, e_N\}$ 。每个实体即被定义为元组 $e_i = (n_i,a_i)$ 。
随后进行人工筛选：

首先排除抽象性名词（如场景、氛围、语言）以及难以识别的具体位置描述性名词（如阳光、噪音等）
同时也剔除与背景相关的具体位置描述性名词（如早餐区、浴室等）
最后针对剩余的命名实体应用 Grounded-SAM 模型进行属性分割操作
其原因是因为扩散模型容易导致错误的属性绑定
最终将得到一组用于分割的任务目标 $\{M^1, \dots, M^N\}$ ，
并基于此设定两个优化目标：

Token 级别注意力损失
Pixel 级别注意力损失

token-level attention loss 就是强制激活 $n_i \cup a_i$ 的区域

$\begin{aligned}\mathcal{L}_{\text{token}}&=\frac{1}{N}\sum_{i=1}^N\sum_{k\in n_i\cup a_i}\left(1-\frac{\text{分子部分}}{\text{分母部分}}\right)\end{aligned}$

这个方法是通过二元交叉熵损失来实现pixel-level attention loss的优化效果：在区域内的每个像素都被强制限定只能关注到目标token的过程中，在这一层面上达到了显著的效果。

其中A代表注意力图中所涉及的像素数量（pixel count）。然而，在提示字段中存在一些特定元素可能会因对齐问题而导致无法在生成图像（generated image）中呈现出来（presented）。在这种情况下, 像素级的关注机制依然保持有效性（valid）。当遮罩全为零时, 它表示没有任何像素应参与当前图像缺失对象的位置标记（position marking）。除了在线模型在进行图像生成任务时, 我们只会在预设比例的时间点上计算这两个损失函数（loss functions）之间的关系

2.3 Fidelity Preservation

由于目前的技术基于图像字幕模式以及属性与实体间的关系作为基础构建而成, 扩散型技术可能在短时间内集中过多关注点于奖励机制, 导致其性能能力受到影响并最终产出劣质效果, 如图6所示

这个好像还挺新奇的🤔（可以阅读 UFOGen）

对于判别器D_φ的初始化过程，在Stable Diffusion模型中采用了预训练好的UNet架构作为基础设计。这种设计使得判别器能够继承并延续在线训练模型所获得的知识经验基础。通过这一策略预期能够显著提升其识别能力。在我们的实践经验中发现，在这种框架下对抗损失可以在潜在空间维度上进行直接计算而无需依赖图像空间的数据处理方式。需要注意的是，在当前的研究方案中我们采用了一种不同于传统方法的设计思路：即我们的微调模型不直接使用真实世界的图像数据而是基于原始模型输出的结果来进行训练操作以保证生成分布的一致性并实现更为稳健的优化过程

在单一文本提示条件下，在线训练模型与原始扩散模型分别被用来生成对应的图像 latent $\hat{z}_0$ 和 $\hat{z}_0'$ 。具体而言，则通过以下方式计算：对抗性损失

$\begin{aligned}\mathcal{L}_{\text{{adv}}} = \log(D_{\phi}({\text{{样本}}}) ) + \log(1 - D_{\phi}({\text{{样本'}}}) ). \end{aligned}$

2.4 联合训练

实验

Caption Model 是用 BLIP 在 COCO 数据集上 finetune 的

训练集由 T2I-ComBench、HRS-Bench 以及从 ABC-6K 中随机选取的 5千个prompt 构成，并包含共计 2万幅图像。

训练是在Unet内集成Lora模块（包含原始diffusion和判别器），其余参数被冻结。在并行计算环境下，在多块A100 GPU上完成2K iterations的训练任务，在去噪步骤中共分为51个步骤（其中只有第4至第47步具有梯度反向传播）。

改写说明

全部评论 (0)

还没有任何评论哟~

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

CoMat:AligningTexttoImageDiffusionModelwithImagetoTextConceptMatching 图文一致性的原因还是因为文本的token的激活注意值不高，导...

Kandinsky-3:text-to-image diffusion model

Kandinsky3：最大的开源文生图模型知乎在开源Kandinsky2.2之后，俄罗斯AI研究团队AIForever又开源了新的文生图模型Kandinsky3，这个模型最特别之处时采用了一个超大的t...

Human preference score:better aligning text-to-image models with human preference

本文提出了人类偏好数据集，并且对输出图片有hps评估的分数，但是核心是让hps作为一个维度输入到sd中，让生成图片更好的对齐人类偏好。 1.abstract 在sd的discord收集了一个关于生成图...

vector quantized diffusion model for text-to-image synthesis

CVPR2022论文分享会基于VQDiffusion的文本到图像合成哔哩哔哩bilibiliCVPR2022论文分享会基于VQDiffusion的文本到图像合成,视频播放量1438、弹幕量2、点赞数3...

Multi-Concept Customization of Text-to-Image Diffusion——【代码复现】

本文是发表于CVPR2023上的一篇论文：[[2212.04488]MultiConceptCustomizationofTexttoImageDiffusionarxiv.org]https://a...

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】

本文发表于CVPR2023 论文地址：CVPR2023OpenAccessRepositorythecvf.com Github官方代码地址：github.com 一、Intorduction 最近的...

Multi-Concept Customization of Text-to-Image Diffusion # 论文阅读

URL https://arxiv.org/pdf/2212.04488 TL;DR 2022年12月CMU\+清华+adobe的文章。提出一种基于几张图片做ip保持的方法，可以支持多个ip出现的同一...

Adding Conditional Control to Text-to-Image Diffusion Models

安全验证知乎知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于2011年1月正式上线，以「让人们更好的分享知识、经验和见解，找到自己的解答」为品牌使命。

TAIYI-DIFFUSION-XL:advancing bilingual text-to-image generation with lvlm support

sdxl的中文化 1.introduction Taiyidiffusion，Paidiffusion，AltDiffusion中文场景文本到图像生成，以往英文的，先把中文翻译成英文，再生成。

AnimateDiff：Animate your personalized text-to-image diffusion models with spectific tuning

https://zhuanlan.zhihu.com/p/669814884https://zhuanlan.zhihu.com/p/669814884AnimateDiff本质上还是包含了motio...

是否确定退出登录?

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

CoMat: Establishing Diffusion Models for Image Synthesis through Conceptual Bridging Between Image and Text Representations

1. Introduction

缺陷

2. Method

2.1 Concept Matching

2.2 Attribute Concentration

2.3 Fidelity Preservation

2.4 联合训练

实验

全部评论 (0)

相关文章推荐

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

Kandinsky-3:text-to-image diffusion model

Human preference score:better aligning text-to-image models with human preference

vector quantized diffusion model for text-to-image synthesis

Multi-Concept Customization of Text-to-Image Diffusion——【代码复现】

Multi-Concept Customization of Text-to-Image Diffusion——【论文笔记】

Multi-Concept Customization of Text-to-Image Diffusion # 论文阅读

Adding Conditional Control to Text-to-Image Diffusion Models

TAIYI-DIFFUSION-XL:advancing bilingual text-to-image generation with lvlm support

AnimateDiff：Animate your personalized text-to-image diffusion models with spectific tuning