Advertisement

Adding Conditional Control to Text-to-Image Diffusion Models

阅读量:

这篇文章介绍了知乎作为中文互联网高质量问答平台的发展历程及其影响力,并重点讨论了ModelScope魔搭社区中的ControlNet模型及其相关技术。ControlNet是一种端到端的神经网络结构,在大型图像扩散模型中引入特定任务条件以实现精准控图。文章详细解释了其核心技术——零卷积层的应用方式以及如何通过微调生产级权重来保持高质量生成能力。此外还探讨了其在图像生成任务中的应用效果、训练策略以及与已有研究的不同之处,并指出了控制网络中突然收敛的现象及其原因分析。

知乎因其专注的专业环境与友好的社区氛围而迅速崛起,在中文互联网领域占据重要地位。自2011年1月正式上线以来, 知乎已发展成为人们高效分享知识与见解的重要平台, 其品牌形象定位于「让人们更好地分享知识、经验和见解」, 目标是打造一个让用户更有效地交流与获取信息的地方。在这一过程中, 知乎吸引了来自互联网科技领域以及其他如商业、影视、时尚等领域的最富创造力的人群, 并通过其独特的知识共享机制聚集了大量创作者, 形成了一个涵盖广泛兴趣领域的优质内容平台。为了实现这一目标, 知乎不仅建立了高效的社交网络系统, 还注重构建有条理且易于获取的知识体系, 这些特点有助于提升内容的可访问性与传播效率。通过依靠社区的力量实现内容收入的方式运营, 知乎采用...

icon-default.png?t=N7T8

https://zhuanlan.zhihu.com/p/605761756](https://zhuanlan.zhihu.com/p/605761756 "安全验证 - 知乎")

[ModelScope 魔搭社区

icon-default.png?t=N7T8

该模型框架旨在为diffusion模型提供精确的空间控制能力。
传统的diffusion模型通过单个文本prompt进行图像生成操作,
而该框架在生成过程中引入了一种额外的信息指导,
具体而言,
它通过多模态特征增强方法实现了更好的图像质量提升效果。
在模型架构设计方面,
我们采用了一种基于残差网络(ResNet)的新颖模块设计,
该模块能够有效提高特征提取效率,
同时保证输出结果的质量。
此外,
为了进一步优化计算效率,
我们提出了一种高效的特征融合算法。
实验结果表明,
该方法在保持相同性能水平的同时,
显著降低了计算资源消耗。

1.introduction

基于提示的大模型是否符合我们设定的具体要求?在图像领域已经形成清晰任务方向的情况下,大模型能否辅助推动这些特定任务的发展?我们应该构建相应的框架结构来应对大规模的条件设定和用户的需求。在实际操作中,大模型能否持续保持其从海量图像数据中积累的能力?

为了回答这些问题,我们的调查揭示了以下三点关键发现:1)在特定任务领域中,可获得的数据量通常远低于一般图像-文本领域的大规模水平。例如,在目标形状/normal、姿态识别等领域中,最大规模的数据往往仅达到10万条以下(100k),而laion-B集合则提供了高达5百万条的数据集(5b)。2)面对资源限制(大型计算集群并非所有人都具备),预训练权重的微调迁移是一个可行的技术解决方案。3)图像处理问题具有多样化的定义形式(由用户自定义或基于图像注释),尽管可以通过程序化的方式进行调节和优化(如扩散算法的应用),但这些复杂的问题本质上要求系统能够理解输入图像中的对象级别或场景级别含义,并非依赖于人工设计的简单规则即可解决;此外,在许多情况下希望实现端到端的学习与推理过程(end-to-end)。

上图输入是canny边缘图,输出是符合控制条件的图。

本文介绍了controlnet这一创新性的神经网络架构。它作为一种端到端设计,在控制大型图像扩散模型方面展现出卓越的能力。该架构通过将扩散模型权重划分为可训练副本与锁定副本来进行有效管理,在不影响其泛化能力的同时实现了对特定任务输入条件的精准控制。可训练副本与锁定副本分别与零卷积层相连接,在逐步优化过程中实现了从初始状态到最佳参数值的有效过渡。由于其保留了经过生产验证的最优权重配置,在处理不同规模的数据集时表现出极高的稳定性和效率。值得注意的是,在不增加额外计算开销的情况下(即无需构建新层),zero convolutions 的特性使其微调速度与重新构建新层相当甚至更快捷。通过系统性的小规模数据集(包括5万条甚至仅一千条样本)测试表明,controlnet展现出令人满意的性能表现,并且在当前高性能计算硬件(如NVIDIA RTX 3090 Ti)环境下能够实现高效的批量处理能力

2.related work

2.1 hypernetwork and neural network structure

hypernetwork被用来训练一个小规模的递归网络,并对较大规模的神经网络产生影响;而controlnet则采用了特殊设计的卷积操作——其中包含zero convolution技术——并在扩散模型中调整了多个卷积层的初始权重参数以提升训练效果。

2.2 diffusion probabilistic model

在优化训练与采样方法方面,扩散模型采用了多种策略。具体而言,该模型支持多种采样方式:包括Denoising Diffusion Probabilistic Models(DDPM)、Denoising Diffusion Implicit Models(DDIM)以及Score-Based Diffusion Models。其架构基于U-Net设计,并通过引入创新机制实现了更高的效率与更低的计算需求。为了提高效率并减少计算需求,该团队提出了LDM(Lightning Diffusion Models)。

2.3 text-to-image diffusion

扩散模型技术主要应用于文本到图像生成任务中,在此过程中, clip技术被用来将输入文本转化为潜在向量表示,并完成这一转换过程。

2.4 Personization techniques, tailoring methods, and regulatory measures for pretrained diffusion models

基于图像扩散模型是以文本到图像方法为主导的框架性技术体系,在该框架下实现对扩散过程的有效掌控的关键途径在于强化文本引导功能。具体而言,在这种类型的技术实现中不仅可以依靠传统的文本引导策略来完成对扩散过程的调控,并且还可以通过调整剪辑特征来进一步优化效果。

2.5 image-to-image translation

虽然ControlNet与基于图像到图像翻译在某些应用场景上有重叠之处,但它们的核心目的是不同的。基于图像到图像翻译致力于探索不同领域之间的图像映射关系;而ControlNet则专注于通过控制特定任务条件下的扩散模型来实现相关功能。

3.method

3.1 controlnet

如图所示,在本文研究中我们对模型中的锁定参数进行了克隆操作并将其复制至可训练副本中这些被复制的副本将按照外部条件c进行微调优化在此过程中我们将原始参数与新产生的参数分别作为锁定副本与可训练副本来对待这种设计的主要目的是为了代替直接对原始权重进行微调优化以减少数据规模较小样本下的过拟合问题同时又能继承从大规模图像数据集中预训练的大模型质量值得注意的是神经网络模块通过zero convolution层实现了模块间的连接其权重与偏置均初始化为零在初始状态下神经网络模块中的可微调部分与未启用控制模块时的行为完全一致换句话说当我们在实际应用中引入控制模块到特定神经网络模块时它在完成当前任务前不会对整个深度神经网络体系产生任何影响无论是模块的功能特性还是输出质量都将保持原有水平且后续优化过程将呈现类似微调的效果

该公式涉及零卷积层的梯度计算过程分析。具体而言,在神经网络训练初期(即输入样本I在初始阶段对其梯度赋值为零),这一层的权重参数和偏置参数并未受到影响。然而,在第一次完整的训练迭代(即第一次完整的梯度下降过程)后,则会观察到该层权重参数发生更新变化,并最终收敛至非零矩阵状态。

在经过一次梯度下降后,在对输入张量I进行求导运算的过程中,我们得到了非零的梯度值。通过这种方式实现的策略设计下,在保持基础结构不变的前提下,使得零填充卷积成为一种独特的连接层类型,并最终发展为具有优化参数的最佳结构。

3.2 controlnet in image diffusion model

稳定扩散(Stable Diffusion)是一种在数十亿张图像上进行训练的大规模文本到图像扩散模型。其架构采用了类似于U-Net的设计模式,在生成高质量图像方面展现了卓越的能力。该模型由编码器与解码器两个主要部分构成,在中间部分设置了多个跳跃连接以促进特征信息的有效传递。其中核心部分包含25个独立模块:其中有8个模块采用了上采样与下采样的卷积层设计;而剩下的主要部分则由总共17个子块构成(其中包括4层ResNet层和2个Vision Transformer子块),每个Vision Transformer子块又进一步细分为几个交叉注意力或自注意力机制组件。值得注意的是,在文本编码阶段采用OpenAI CLIP方法进行处理;而在扩散过程中的时间步长采用了位置编码机制以提高生成效果的稳定性与多样性

稳定扩散系统采用与vq-GAN类似的预处理方法,将输入的512×512像素图像转化为潜在空间中的64×64像素表示;利用image-based condition(即从原始图像中提取线框图)生成对应的特征表示;通过应用四个具有不同尺寸(分别为四乘四)核和双乘二步幅的卷积层(配合ReLU激活函数),系统能够将image-space条件逐步转化为多层级次的特征图;实验结果表明该网络体系成功实现了对原始高分辨率图像(512×512)的有效降采样过程。

如图所示,在u-net网络结构中嵌入controlnet技术后,在不改变权重值的前提下实现了对各层特征进行精确控制。经过实验验证,在保持原有模型性能的前提下,该方法带来的主要计算资源消耗提升较为显著:在内存占用方面仅增加了约23%,而在每次迭代所需时间上也有所提升。具体而言,在稳定扩散框架中构建了12个编码块及其对应的可训练辅助层,并将模型架构设计为支持四个不同的分辨率级别(即每个多分辨率级别包含三个独立的分支结构)。

作者的安排令人印象深刻。在进行相关实验时,笔者常常会参考已有的学术共识来设计实验方案:例如,在去年八月份发表的一篇论文中提出了prompt to prompt的方法后,《文生图》中的图片布局及几何关系往往是由cross-attn阶段中文本对不同像素点的激活程度所决定的。因此,在初始阶段笔者会思考是否可以直接将text embedding与融合模块结合使用,并将其接入到现有的模型架构中进行微调训练;此外,在注意力机制附近加入融合模块也是一种值得探索的方向。值得注意的是,在这项研究中,并未采取类似的方法;相反地,《 Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation 》这篇论文提出的思路更为直接:模型生成后的UNet解码器已经包含了生成图像的空间信息和语义信息等关键特征;因此,在解码器相关的特征提取部分下展开工作能够有效影响最终生成图像的布局和语义结构等属性特征;这也是作者认为非常有趣的一个创新点。

3.3 training

在训练过程中, 我们以随机方式将50%的文本提示词替换为空字符串, 这有助于controlnet从输入条件图中识别语义内容的能力, 例如涂鸦和边缘图. 其主要原因在于, 当提示对stable diffusion不可见时, 编码器倾向于从输入控制映射中学习更多的语义作为提示词的替代.

3.4 implement

文本-条件图-图像对。

4.question

icon-default.png?t=N7T8

该模型创新性地将LLM与DPM框架相结合,在图像生成任务中首次系统性地揭示了突然收敛现象的本质特征。通过自监督学习机制的有效应用,在保持生成质量的同时显著提升了训练效率,在实验结果中展现出显著的性能优势(公式略)。

controlnet没有自己独立的loss,和ldm共用损失。

全部评论 (0)

还没有任何评论哟~