Advertisement

AIGC产业研究报告 2023——图像生成篇

阅读量:

易观:今年以来,伴随着人工智能技术不断实现突破性进展,生成式AI话题持续受到关注。其中人工智能内容生成(AIGC)的发展态势、市场反响以及相关监管要求也受到了广泛关注。为此,易观对AIGC产业进行了深入研究,并计划发布一系列《AIGC产业研究报告》。

本报告采用内容生成模式作为观察角度,并系统性地阐述了AIGC在语言生成、图像生成等领域的技术发展情况;同时探讨了其关键能力与典型应用场景;针对当前我国AIGC产业发展过程中所面临的问题及未来发展趋势进行了深入分析。旨在通过系统梳理和把握AIGC产业发展脉络,为各领域应用开发者及使用方提供参考方案。

本期图像生成相关内容中, 本报告全面探讨了自GAN以来扩散模型的发展历程, 系统分析了其在图像质量、多样性、稳定性和可控性等方面的关键能力表现, 同时在推进其商业化落地过程中, 面临着来自数据获取、产品化实施以及监管合规等方面的挑战及应对策略。

导语

在人工智能内容生成这一领域的图像是被用作重要模态之一,在AIGC(人工通用智能)领域发挥着不可替代的作用。

本报告旨在聚焦图像生成技术的发展动态及其在产业中的应用现状。通过深入分析当前技术的核心要素与发展趋势, 本研究将探讨影响模型应用能力的关键因素以及商业化过程中面临的实际挑战, 并展望未来的发展趋势及潜力, 以期为人工智能通用系统(AIGC)领域的相关从业者提供有价值的参考建议与借鉴思路。

定义

图像是通过人工智能技术实现的生成过程,在给定数据的支持下完成单一或多模态图像的创建。基于不同的任务目标与输入类型划分后,在这一领域中主要包含三个关键环节:首先为图像是通过人工智能技术实现的生成过程,在给定数据的支持下完成单一或多模态图像的创建;其次为图像是通过人工智能技术实现的生成过程,在给定数据的支持下完成单一或多模态图像的创建;最后为图像是通过人工智能技术实现的生成过程,在给定数据的支持下完成单一或多模态图像的创建。

主要类型和应用领域

基于图像构成的不同类型,基于颜色种类及亮度等级的数量划分的二值图、灰度图、索引图以及RGB图构成了不同的图像类型;而图像生成模型则具备将多种类型的图像相互转换的能力。

在实际应用场景中, 该模型的核心能力主要体现在生成图像的质量与多样性两个关键指标上. 其广泛应用于平面设计. 游戏开发以及动画制作等多个领域. 此外, 在医学影像合成与分析. 化合物合成以及药物发现等领域的拓展上展示了显著的应用前景.

技术发展的关键阶段

在计算机视觉领域中,图像生成技术作为核心内容的发展大致经历了三个关键阶段:

● GAN生成阶段:

生成对抗网络(GAN)是上一代主流图像生成模型中的重要代表。该模型通过生成器与判别器之间的对抗训练机制,在不断迭代中优化两者性能指标:一方面促使生成器不断改善图像质量;另一方面则迫使判别器更加敏锐地识别图像特征。经过长期进化训练后,在数据分布上呈现出高度的一致性特征。然而,在实际应用过程中也暴露出诸多局限性:网络收敛速度较慢、图像细节刻画不够精细、结果呈现高度依赖于初始参数设置等问题。

● 自回归生成阶段:

该自回归模型在图像生成领域的灵感源自于成功的NLP预训练经验。借助Transformer架构中的自我注意力机制优化了GAN的训练流程,并从而增强了模型稳定性以及图像合理性。然而,在推理速度与训练成本等方面存在局限性导致其实际应用受到一定的限制

● 扩散模型生成阶段:

对于前代模型在性能方面的局限性问题,扩散模型(Diffusion Model)已实现了这些问题的完全解决,并展现出显著的性能表现提升。其在训练稳定性与结果准确性方面均取得了突破性进展,在实际应用中已彻底取代了GAN技术的应用场景。而在产业应用领域中面对的大规模跨模态图像生成需求,则必须依赖于与之协同工作的预训练语言模型如CLIP技术的支持。通过基于文本-图像对的联合训练模式,在这一过程中实现了跨模态信息的有效融合与提取,并成功地将生成速度与图像质量均达到了质的飞跃

在当前阶段的图像生成技术发展较为成熟的情况下

主流模型实现原理及优缺点

● 主流模型解析

扩散模型(Diffusion Model)

1、实现原理: 扩散模型基于马尔可夫链的方法,在数据中逐步添加随机噪声的过程中完成训练,并通过逆过程学习实现降噪目标。该过程系统性地引导数据分布向纯高斯噪声分布逼近,并通过反向传播机制恢复原始数据分布特性,在图像生成过程中实现了从噪声到清晰图像的有效转换。整个训练机制展现出一种有序优化的特点,在确保生成效果的同时实现了对生成过程的有效控制。

2、模型优缺点:

CLIP(Contrastive Language-image Pre-training)

1、原理: CLIP是基于对比学习的文本-图像跨模态预训练模型,其训练原理是通过编码器分别对文本和图像进行特征提取,将文本和图像映射到同一表示空间,通过文本-图像对的相似度和差异度计算来训练模型,从而能够根据给定的文本生成符合描述的图像。

2、模型优缺点:CLIP模型凭借其多模态对比学习与预训练机制,在将文本特征与图像特征相互映射方面具有显著优势。具体而言,在零样本条件下展现出色性能;此外,在描述文字与图片风格之间实现更为精准的理解与匹配,并能有效避免因多余细节而导致生成图片的独特性降低。从而使得生成图片的独特性更强。

可以说CLIP本质上是一种图像分类模型,在处理复杂与抽象场景时存在一定的局限性。例如,在涉及时间序列数据以及需要推理计算的任务中可能会导致生成图像效果欠佳。此外,在进行训练时需要大量依赖于由文本-图像对构成的数据集,并且这对系统的资源消耗较大

● 国内外代表模型:

影响模型应用能力的关键因素

从实际应用的角度来看,图像生成模型的核心功能包含生成图像的质量、多样性以及稳定性与可控制性;这些因素对模型的实际应用效果之间的差距产生重要影响。

● 图像质量

图像质量涵盖生成图像的像素信息及其处理后的细节刻画能力。能否全面呈现高画质细节与丰富色彩层次?这不仅涉及物体表面纹理、明暗变化以及色彩层次的表现力,在真实感模拟上也具有重要要求。例如在产品包装设计、视觉营销领域等场景中,则需要根据具体应用需求设定相应的技术参数与性能指标要求。

● 图像多样性

在图像多样性应用领域中,则主要受以下两个因素的影响:一是模型对像素级生成过程的有效调控能力;二是通过深入探索数据分布特性来实现更多样化的图像表征形式。这种双重机制的存在使得模型能够更为精准地把控图像细节特征,在满足多样化的风格化生成需求方面展现出更强的能力。就具体使用场景而言,在个人用户群体中,则特别关注构图布局、色彩运用、主题处理以及实体细节的表现力与艺术性等多重指标;而在行业用户群体中,则在此基础之上更加注重在生成多幅图像或不同风格版本时所体现出的语义一致性与整体协调性要求,并以此为基础确保核心要素的一致性和统一性。这种策略不仅有助于提升商业应用中的实用价值,在技术层面也将为后续的研究工作提供更有针对性的方向指引。

● 图像稳定性

在实际应用场景中, 原始图像可能遇到光照不足或模糊抖动的问题, 因此需要图像生成模型具备一定的抗噪能力, 如图像变形, 失真或不完整描述等, 以确保即使在存在干扰的情况下仍能输出高质量的图像.

● 图像可控性

图像可控性是指使用者能够对生成图像进行精细调节和后续优化。如其颜色、形状、纹理以及生成的物体数量等具体项。其重要性在于它是推动图像生成产品走向成熟 commercialization 的基础。

个人用户的实际需求主要集中在是否可以通过调整文本描述来优化局部细节进而实现再次生成图像的需求。而行业用户对于图像可操控性的要求更为严格,不仅需要能够实现全景操控、精确区域操控以及任意细节操控等基础功能,并且还需要考虑如何引入控制条件以提升模型的一般化能力的同时还应考虑除了文本处理之外还应考虑其他操作手段以达到更好的效果。

典型产业应用场景

计算机视觉领域中具有重要地位的技术环节是图像生成技术,在这一技术框架下主要涵盖了图像分类、图像分割、图像增强、风格转换以及修复等核心业务模块。随着数字信号处理、感知技术和虚拟现实技术的快速发展,在各行业广泛应用于多个实际场景中

● 图像分类、图像分割:可用于工业及工程设计领域中辅助完成目标识别与图像相似度检索任务;同时,在 CAD 辅助设计流程中亦有广泛应用。在医疗领域,则有助于实现医学影像的标注与解剖结构分析,并对病理形态变化进行研究。此外,在零样本分类任务中展现出卓越的效果:这使得无需额外训练即可快速构建项目模型,并显著降低了数据标注与训练成本。

● 图像生成与风格转换技术:该技术在艺术创作、工业设计、影视动画等多个领域展现出巨大的商业潜力。它能够广泛应用于艺术作品创作中,在设计师提供的草图或创意构想基础上生成高质量图像内容,并支持图像合成、编辑与艺术增强功能。这有助于建模师高效完成动漫角色设计与场景构建工作,并为海报设计、产品LOGO及包装装潢提供专业支持。在电子商务领域中应用此技术可提升用户体验,在虚拟试衣间及商品模拟展示等场景下显著改善用户的线上购物体验。

● 图像修复:能够利用已有图像的信息恢复损坏或缺失的部分。其中包含如上色处理、去噪以及填补损坏区域等具体操作。此外还会增强对比度和清晰度的水平。这项技术不仅适用于数字化历史文献的修复与图像修补工作,在摄影与影视制作方面也有着重要的应用价值,在这一领域特别适用于对老照片和老电影进行修复以达到画质提升的效果。

● 图像超分辨率:是一种能够从低分辨率图景恢复并重构高分辨率图景的技术,在医疗影像处理场景中被广泛应用于结合模型数据合成与预测能力实现对图像的识别、特征提取以及重建过程。该技术有助于医生构建逼真的病例和解剖结构,并生成CT扫描图景以辅助病情分析诊断。此外,在天文学观测及卫星遥感观测领域中应用该技术亦能显著提升成像设备性能并克服由于时间和气象条件变化所导致的成像场景差异问题。

随着图像生成技术的进步发展,其与三维生成之间的紧密关联将会在视频、教育、建筑以及虚拟空间建模等领域展开更为深入的系统性探索.模型的稳定可控性成为制约该技术未来发展的重要因素,目前图像生成内容仍存在较大的不确定度,对于艺术创作而言有助于激发艺术家的创作灵感,但就那些对生成图像自身可控性要求极高的专业领域而言,如何使生成图像与预期目标相吻合以及对其精度控制水平直接影响着该技术的应用前景

商业化过程中面临的挑战

● 国内外主流图像生成产品及商业模式

基于全球及本土市场的需求与规模分析,在人工智能图像生成(AIGC)领域中当前图像生成技术已展现出显著的发展势头。

国外主流图像生成平台主要代表有Midjourney、Stable Diffusion及DALL-E 2等。其中采用内置于Discord平台上的Midjourney应用具备高度定制化功能。该平台允许用户快速利用AI模型自动生成所需图片。其呈现效果尤其出色,在艺术风格塑造方面具有显著优势。该平台通过早期开放公测获得了大量用户群支持,并在Discord频道内建立了活跃社群。此外采用订阅制提供基础服务外还包含多种定制化方案供用户选择。该平台构建出一套较为成熟稳定的盈利模式

而Stable Diffusion则完全开源,因而其模型优化迭代速度极快,由此形成了良好的开发者生态环境,主要盈利模式包括API付费以及面向专业人士提供定制化服务;此外,Stable Diffusion可作为插件导入Photoshop,支持直接生成图像并保存至工作空间中,从而显著提升了设计师的工作效率与用户体验

DALL-E 2经过庞大规模参数训练后具备清晰且细节丰富的图像生成能力,并能与真实图片高度相似。目前采用闭源付费模式并基于与OpenAI及微软建立的战略性合作关系整合了ChatGPT技术并将产品融入微软的企业生态系统从而为其赢得核心竞争优势。

另外, Firefly 图像生成模型也已推出,并成功融入到 Adobe 的工作流中。此外, 该公司的训练数据主要来源于 Adobe Stock图片库、公共领域资源以及已过版权保护期限的公开可用内容。该系统能够生产出符合商业需求的高质量图像, 并计划将其与 Photoshop 产品线中的各个软件紧密集成, 包括但不限于 Illustrator 和 Premiere 等工具, 通过这些举措将有助于进一步巩固公司在专业设计领域的竞争优势, 并最终提升客户粘性。

对于国内市场而言,在我国自主研发模型技术不断进步的情况下

● 图像生成商业化落地挑战

综合考虑国际 mainstream 企业的成功经验与内外市场需求状况,在构建成熟的商业模式时必须聚焦于三个方面的问题。

● 数据能力挑战

图像生成的效果在很大程度上取决于训练数据的数量与质量。
当产品扩展至更多专业领域及行业时,则需应对各行业的数据鸿沟、样本匮乏以及质量问题。
此外,在应对不同行业的特定场景需求时,
应基于该领域的专业知识进行增量式训练。
但当前的图像生成模型仍面临理解和处理复杂语义与抽象关联方面的挑战。

在模型训练阶段中采用数据增强策略,并借助合成数据进行预训练的方式能够有效提升下游任务的表现。然而,在商业化过程中需要综合考虑资源投入与性能提升之间的平衡,并权衡成本因素。因此,在不同用户群体的需求下构建完整的资产经营闭环系统对于业务发展至关重要。

对于C端用户提供反馈时, 我们会结合他们的提示词(prompt)以及生成图像选择等多维度信息, 进行详细的交互行为与偏好分析, 最终能够显著提高相关数据处理效率, 并在此基础上形成稳定可靠的数据资产库, 进一步增强模型在中文语义理解能力和图像风格化方面的性能表现, 更精准地推动模型迭代进程;与此同时, 我们会促进中文生成内容社区的发展, 以优化内容分发方式, 根据不同用户的群体特征和服务需求定制相应的服务方案;基于Discord平台构建的内容社区中形成了用户共创的局面, 不断积累沉淀了大量优质数据资源, 并有效提升了平台的用户体验

针对B端客户群体而言,在借鉴Stability AI的成功模式基础上构建通用性强且适应性强的框架结构,并收集来自多个行业的客户群体数据作为训练样本集以便于后续分析与应用研究从而能够根据用户的特定需求定制化解决方案如在动画制作影视后期制作以及建筑设计领域中如在动画制作影视后期制作以及建筑设计领域中

● 产品化能力挑战

在部署图像生成模型的过程中

而决定图像生成产品化能力的关键因素,则包括两点:其一在于模型自身性能是否能够直接适应应用需求;其二则取决于是否能在产品中集成附加工具来弥补模型的局限性;其中可控性构成了产品化的本质难点

其具体方法是通过增加参数集合和数据量来提升模型性能,并从而提升了在图像编辑、图像风格转换以及图像超分辨率等多种应用场景下的融合能力。与此同时,则需要更强的模型部署能力和相应的环境及配套资源。

另外,在此基础上还可以通过引入ControlNet等微调模型来生成符合特定需求的图像;进而实现画面中物体位置和人物姿势的精确把控;不仅解决了传统图像生成模型中难以掌控的部分;还支持视角调节、光影修饰以及细节增补等功能;从而帮助企业在控制成本的同时更快地将产品推向市场。

● 监管合规挑战

生成式AI技术的应用必然面临与之相关的各种风险挑战。为了实现商业化目标,相关主体必须遵守相应的法律法规和行业标准。近期国家互联网信息办公室发布了《生成式人工智能服务管理办法》(征求意见稿),该规定旨在推动AIGC技术在数据利用和行业发展方面的工作逐步走向规范化。就图像合成产品而言,在这一领域中其合规性考量主要涉及隐私保护、版权维护以及人工智能治理等相关内容。

隐私保护方面方面方面,在基于图像生成工具的内容创作具有低成本且操作简便的特点,并且能够实现高度逼真的效果的情况下,在某种程度上引发了信息滥用的问题。这些潜在风险可能引发隐私泄露及伪造欺诈行为危害。具体而言,在金融领域可能将深度合成的脸像应用于身份识别欺诈活动;此外还可能通过传播含有欺骗性或其他有害内容图片进一步造成其他不当行为。因此必须加强生成过程中的数据安全性,并完善流程中的安全防护措施;同时应采取措施提高对于虚假图像的识别能力并加强相关提示

在版权保护方面,在图像生成领域中存在一定的争议和规定。基于公开可获取的数据集进行训练的模型可能带来因复制训练数据而涉及图像知识产权的风险。例如研究指出生成模型可能并非真正生成新图像而是模仿训练数据中的图像。目前已有部分行业及机构要求生成式AI内容需注明来源并禁止其直接使用未授权的生成式AI技术。值得探讨的问题包括:应否对图像生成作品实施版权保护?在实际应用中如何界定原创与由生成式AI创作的内容比例?

人工智能治理方面首先要关注的是公平性问题其中图像生成模型的训练数据来源存在未经严格筛选和清洗的问题这可能导致模型内部可能隐含着性别种族或文化等方面的潜在偏见其次讨论的是模型可解释性方面的挑战随着深度神经网络结构层次不断深化的大规模模型中存在对底层数据信息覆盖不足的问题这使得这些大模型在解析生成过程中的效果变得越发模糊其可解释性与实际应用中的可用性之间具有密切关联

前沿探索与趋势展望

当前,在当前图像生成技术研究领域中,研究人员主要致力于如何深入理解图像实体之间的复杂关联、优化多模态间的转换与生成能力以及进一步提高采样效率并保证样本质量的研究工作。这些努力旨在显著提升了模型在复杂及抽象任务中的图像生成能力,并最终形成了更具实用性的跨模态处理方案。

其中,OpenAI提出的全新图像生成模型Consistency Models不仅能够克服扩散模型迭代步骤多、采样速度慢的问题,并且无需对抗训练可以直接生成高质量样本的同时,在完成多种图像任务方面具有显著效率优势。针对传统GAN架构因增加架构容量而导致的稳定性问题已有研究成果提出创新性解决方案,在提升推理速度与生成效果方面展现出超越现有方法的优势。可以看出GAN技术在图像编辑与图像转换等应用场景中依然具有广泛的应用前景。

当用户的规模效应逐渐显现并治理机制逐步完善时,在未来阶段内图像生成将会朝着更加标准化、细分化的市场需求方向演进。具体而言,在面对类型不同的使用群体时,对生成效果的要求也呈现出不同的视角与偏好。其中C端用户更关注图像生成平台所具有的便捷性特征、具体的付费模式选择以及图纹风格设置等方面的使用体验问题。而B端用户则更重视图像生成的产品能力表现、提供的服务模式体系质量以及覆盖的实际应用场景范围,并特别关注该技术方案与现有产品及系统的适配性以及是否具备本地化部署支持等问题导向。这些差异化的定制需求将会进一步加剧并得到显著提升。

为此,在技术研发和商业模式创新方面需展开协同研究。具体而言,在技术研发层面可关注算力基础建设和算法优化方向;在商业模式创新方面则应着重考虑收入分配机制及价值转化路径等维度。通过建立覆盖多场景的商业实践体系,并在此基础上形成具有市场竞争力的产品服务组合模式。这将有助于推动图像生成技术在国内范围内的产业化落地实施

AIGC系列研究报告将深入探索六个核心领域:语言合成技术研究、图像合成技术研究、语音合成技术研究、视频合成技术研究、三维合成技术研究以及分子识别与电路架构设计等前沿方向。该系列将分批于本月内陆续推出,并诚挚邀请各界关注,并期待与您共同探讨推动AIGC产业创新发展的可能性。

声明须知: 易观分析在本文中使用的一些第三方数据及其他信息均源自公开渠道收集整理, 该数据及其他信息的相关性及准确性请参考相关专业机构官方发布的权威数据以获得最终确认. 在任何情况下, 本文仅作为参考, 不构成任何依据. 本文的所有权归属于发布者, 在未得到我们(即易观分析)的合法授权情况下, 禁止任何形式的转载、引用或用于其他用途. 经合法授权后使用的媒体、网站或个人应当完整引用原文并注明来源. 文章的所有权归属于发布者. 未经我们的授权, 禁止任何形式的转载、引用或用于其他用途. 经合法授权后使用的媒体、网站或个人应当完整引用原文并注明来源. 我们保留向相关方追究责任的权利.

全部评论 (0)

还没有任何评论哟~