论文阅读笔记 CosmicMan: A Text-to-Image Foundation Model for Humans, CVPR 2024
项目页面:https://cosmicman-cvpr2024.github.io/
CosmicMan 是一个专有名称,在GitHub上已注册为项目的标题或名称。
该系统旨在通过深度学习技术生成高质量的人类图像,并在CVPR 2024会议上展示其卓越性能。
Introduction
存在不足:
- 缺少专门针对人类主题任务 的文本到图像基础模型。
- 在以人类为中心的内容生成任务中, 前所研究的数据集通常在多样性程度上较为有限,并且质量有待提升。
适用于人类的文生图基础模型所需的关键要素:
- 高质量的数据集;
- 具备持续更新能力的数据生产流程(该流程不仅能够持续地进行数据生成,并且确保其标注准确性和分布的动态适应性);
- 高效实用的模型架构(该架构能够方便地集成到各种下游应用场景中)。
主要贡献:
- 开创性地提出了新的数据生产模式 "Annotate Anyone";
- 构建了CosmicMan-HQ 1.0版本的数据集——一个规模宏大且质量极高的数据集合;该集合包含6,00万张真实世界的单人图像样本,并以其平均分辨率(1,488 × 1,255)作为基准;此外还配备了来自不同粒度层次的精确文本标注信息总量达约一亿一千五百万条;
- 提出了基于分解的方法对密集文本描述与图像像素之间的关系进行建模,并命名为 Daring (基于SD且未添加额外组件的分解注意力重聚焦)训练框架。
Method
1. Annotate Anyone – A Data Flywheel (数据飞轮)

通过人机协作的数据生产范式——Annotate Anyone :
动态更新的数据资源(数据池具备实时更新的能力)
- 闭环标注 (三个实体:数据池、AI 和人类标注员)
在优化流程中(如图所示),其中预训练的InstructBLIP充当了AI模型角色。相较于完全人工标注而言,该系统仅需1%的注标量即可完成相同任务。
标签协议方面,则通过引入人类解析模型SCHP对图像进行细致划分。具体而言,在每个分割区域均设置了3至8个相关问题,并由此形成了总共70个分类问题及其对应的类别设置。
人类解析模型SCHP源自该研究发表于《模式识别与机器智能》期刊中
经由运行Annotate Anyone系统生成了数据集CosmicMan-HQ 1.0。该数据集包含多种人类全身摄影角度的人像样本,并涵盖不同类型的 HEAD shots 和半身 portrait 图片。在分辨率维度上,该数据集显著超越了DF-MM和SHHQ等基准数据集;在整体及面部图像质量方面,则略逊于DF-MM基准集合。

上表中,“Common Scale”代表以常见尺寸拍摄的图像数据集,并包括全身摄影图像、正面人像以及半身摄影图像等实例;其中 HP 和 Aes 分别代表人类解析度图和美学评分指标。
2. Daring - 训练框架
Daring 基于原始Stable Diffusion(SD)进行了最小修改。
前言:
SD系统包含一个变分自动编码器E,将图像x转化为潜在变量z,并在潜在空间中实施扩散机制,从而促进扩散过程并降低计算开销.通过最小化预测噪声εθ与真实噪声ε∼N(0,I)之间的L2误差来优化去噪网络:(image)其中zt是时间t对应的潜在表示,c是一个可通过文本输入而被实例化的条件信息.
交叉注意力层:文本提示P首先通过CLIP文本编码器转换为嵌入c.潜在表示zt与嵌入c分别经过投影得到查询Q和键K.计算交叉注意力图以整合文本信息为空间特征:M=Softmax(QK^T/√d)(2).
SD存在的问题:由于缺乏有效的指导来学习独特的定位特征以及缺少显式对齐约束,该方法仅在文本描述简短且稀疏时表现出良好效果,无法有效处理具有密集概念的复杂文本信息.

Daring的两部分设计:
- 数据离散化,将文本-人类数据分解为遵循人类结构的固定组;
a. 在 CosmicMan-HQ 中给定人类数据样本 𝐱 ,首先将人类解析图重新组织成语义图集 H=\left\{h_i \right\}_{i-1}^{N},其中 N 是语义掩码的数量,h_1 属于人体级别(将所有人类解析图聚合起来以区分前景和背景),其余属于服装级别。
b. 根据 H 分割文本描述,所有文本描述都可以表示为 C=\left\{C_{body},C_{outfit} \right\},整体外观 C_{body}=c_{\left ( s_1,e_1 \right )},服装的细粒度属性 C_{outfit}=\left\{c_{\left ( s_2,e_2 \right )},...,c_{\left ( s_N,e_N \right )},c_{other} \right\} 。其中,c_{\left ( s_n,e_n \right )} 表示与语义图 h_n 相关的第 n 个子描述组,s_n,e_n 分别是描述中概念的开始和结束索引,将没有对应语义掩码的描述短语收集为 c_{other},例如背景的描述。
a. 一种新型损失函数HOLA被提出,并用于强制交叉注意力特征仅在相对于身体结构及其服装排列的适当空间区域内产生显著响应。
每个交叉注意力图M由以下子集组成:M = {m_{(s₁,e₁)}, m_{(s₂,e₂)}, ..., m_{(s_N,e_N)}, m_other}。其中每个m_i(i=1,2,...,N)由公式2计算得出:将K值转换为K_i(对应子描述c_{(s_i,e_i)}的投影嵌入)。
b. 在深度学习框架(SD)中融合HOLA与原始损失函数以明确指导交叉注意力图仅在特定局部区域表现出高响应度。HOLA的具体定义如下:

其中N表示子描述的数量即文本描述被划分成片段的数量s_i和e_i分别表示第i个子描述的起始位置和结束位置m_j是交叉注意力图中的元素表示在第j个位置上的注意力权重h_i是第i个子描述所对应的语义区域的特征。该公式通过计算注意力图与各语义区域特征之间的差异来衡量模型对齐的好坏。
具体而言HOLA的第一项是在人体结构指导下的各概念特征的高响应区尽可能推移至对应的语义区(使模型更好地理解文本描述与图像之间的对应关系)。第二项是在处理同一组概念时能够将这些概念的注意力图平均计算并使其平均值与该组概念所对应的语义图更为接近(使模型更好地理解不同概念间的关联)。
整体损失函数:L= \alpha L_{noise} + \beta L_{HOLA}。
Experiment
具体实现细节如下:基于Stable Diffusion平台(SD-1.5和SDXL版本),结合Daring框架对预训练模型中的整个UNet架构进行了精细微调。该过程采用了AdamW优化器(学习率为1×10-5),并设置了权重衰减系数为1×10-2。实验在由32块80GB的NVIDIA A100 GPU集群运行,并以批量大小64进行训练,总时长约一周。
评估指标:
- 图像质量方面采用FID score(FID)与HPSv2 评分(**HPSv2 **)作为量化分析的标准;
- 在语义准确性评估中基于DSG的思想构建了相关模型,并特别关注物体识别准确率(Acc_{obj})、纹理识别准确率(Acc_{tex})、形状识别准确率(Acc_{shape})以及整体识别准确率(Acc_{all})。值得注意的是,在评估过程中使用了CLIPScore这一方法来衡量模型在细节方面的表现;
- 从用户反馈角度出发进行了偏好调研研究
定量评估:

该模型在细粒度评估方面的性能表现欠佳, 这使得CosmicMan-SD/SDXL这一模型的CLIPScore得分相对较低
人类偏好评估测试:经过对比实验表明,在图像质量以及文本与图像对齐度两个指标上,大多数研究参与者认为我们的生成结果表现更为出色。
消融研究:
-
训练数据融合:
比较对象:a. 基于两个前沿基准数据集LAION-5B和HumanSD;b. 采用三种不同的方法生成文本描述;c. 基于Annotate Anyone生成的描述。
比较结果表明通过实验对比分析表明CosmicMan-HQ数据集的有效性 -
训练策略消融研究:
通过对比实验结果表明,在细粒度人类生成任务中,CosmicMan及其优化版本(加入HOLA损失项)相较于传统方法表现出显著的优势。
应用:
- 2D人体编辑:旨在通过优化人类图像来模拟特定姿势;
- 3D 人体重建:基于一张图片重建三维物体。
