AIGC产业研究报告2023——三维生成篇
定义
人工智能三维生成是指通过深度神经网络学习并创造物体或场景的三维模型,在此基础上赋予其色彩与光影使其呈现更加逼真的效果。在实践中创建物体或场景的三维模型被称为三维建模,并对这些模型进行着色与照明处理以实现其视觉效果。
主要类型
在三维生成过程中,在学习和生成的过程中涉及到了两种主要的数据类型:一种是显性的表现形式(如体素栅格、点云和网格),另一种是基于神经网络参数构建的隐性的表现形式(称为神经场)。根据这两种不同类型的输入数据分析方法,在人工智能的应用下形成了两种不同的维度表现方式:一种是基于显性的输入特征的数据驱动模式(称为显式模式),另一种是基于隐式的输入特征的数据驱动模式(称为暗式模式)。
在引入人工智能技术之前,在传统的三维生成工作中都采用显性表达的三维数据。同样地,在早期的人工智能三维生成研究中也专注于学习和生成显性表达的三维数据,并将此类人工智能三维生成命名为原生三维型。
在人工智能直接学习和生成三维数据的过程中存在诸多挑战,在这些核心问题中一个关键难点在于可扩展性有限且难以满足多样性的需求。针对这一核心挑战,在现有研究中一个显著的趋势是将二维图像转化为三维数据作为基础,在这种背景下一种新型的人工智能生成方法被提出并命名为'二维升维型'
技术发展的关键阶段

受制于技术发展的限制,在2018年前仅限于基于传统的人工智能三维生成应用领域中使用了包括VAE(变分自编码器)、流式架构(Flow-based)、GAN(生成对抗网络)、EBM(能量建模)以及扩散模型在内的多种技术方案。其中GAN(生成对抗网络)凭借卓越的生成效果,在2022年前成为人工智能三维生成领域的主流技术。然而其训练难度巨大且对硬件配置要求极高导致其大规模产业应用受到限制。
由此可见二维图像生成技术迅速发展并带动了应用领域的飞速发展 由此可知 二维升维型已成为当前人工智能三维生成研究与应用的重要关注点
******●******2018年-2020年:二维升维萌芽期
在2018年,“以神经网络参数的形式表示三维内容”的技术——即神经场——首次出现。尽管这一方法仍处理三维数据的本质特征,并因缺少相关的训练数据而在2018至2020年间发展速度较为缓慢,但它却构成了二维升维派的发展前提。
******●**2020年-2022年:二维升维技术发展期
在2020年时,伯克利大学、谷歌公司以及加大圣地亚哥分校组成的联合团队首次提出了名为NeRF(Neural Radiance Fields)的一种新型算法。该算法能够从单一的二维静态图像中推断出其对应的三维特征,并生成多个视角下的二维图像;即可生成具有多维度感知能力的画面。其重建效果优良,并能够在较大的场景范围内实现三维重建;但由于训练难度大、对硬件要求高及效率低等问题,在实际应用中仅能用于试验性和趣味性的小型场景;而在产业应用场景中,则面临诸多技术瓶颈亟待突破
******●**2022年-至今:二维升维应用探索期
今年上半年,在AI技术领域取得了重要进展的是二维图像生成技术在本年度经历了快速的发展阶段。该种新型技术不仅提升了生成图像的质量和创造力显著提升,在很多应用场景中都能展现出更高的效率优势。正是因为这一点,在商业应用方面展现出更高的潜力得到了广泛的认可和关注程度也在持续提高。当前这一新型技术在商业应用方面展现出更高的潜力得到了广泛的认可和关注程度也在持续提高。
为了进一步推动这一技术向实用化方向发展,在今年上半年已有几家公司开始探索将其与传统三维生成方法进行深度融合,并尝试开发具有产业规模的应用以解决当前训练难度、硬件要求及效率等问题所造成的限制。
主流模型实现原理及优缺点
****●Dream Fields模型
在2021年末时, DreamFields 模型率先将 CLIP¹ 模型与 NeRF 模型相结合, 基于 CLIP 从文本生成二维图像的能力, 借助 NeRF 利用二维图像学习三维物体结构及其纹理渲染的能力, 实现了自然语言至三维空间的整体生成过程.
CLIP与NeRF的有效结合展现了其应用潜力,并超越了传统三维生成模型在想象力方面的局限。然而受限于结构简单性的问题,在大规模场景构建上存在局限。此外由于较低的生成效率和较弱的渲染质量,在商业化应用方面也表现不足。
注:1.请参考《AIGC产业研究报告2023——图像生成篇》
● CLIP-NeRF模型
在同一年提出的时代背景下,CLIP-NeRF架构通过整合CLIP与NeRF技术实现了协同作用,在处理三维重建任务时,相较于后者,在处理三维重建任务时,前者的独特之处在于能够通过自然语言描述或二维示意图辅助实现对三维对象及其视觉呈现的精准控制。就生成精度及商业可行性而言,在现有技术条件下两者的表现并无显著差异。
尽管存在一些局限性,Dream Fields模型与CLIP-NeRF模型揭示了人工智能在三维生成领域的巨大潜力,并证实了利用自然语言实现三维生成技术的可行性。此外,进一步探讨了通过自然语言优化生成效果的可能性。
****●DreamFusion模型
在 2022年9月 时 ,Google发布了一款名为 DreamFusion 的创新技术框架 。该框架基于 Dream Fields 模型构建 ,并运用扩散模型计算出概率密度蒸馏损失函数来取代传统的 CLIP 模型 ,从而显著增强了从自然语言向三维内容转换过程中的统一性 。此外 ,研究结果进一步验证了仅凭单张二维图像即可推导出三维结构的可能性。
尽管 DreamFusion 在提升三维模型的结构准确性的同时也增强了其渲染的真实感, 虽然提高了生成效率但所需硬件配置相对较低. 然而, 在规模、渲染效果以及细节完整性等方面的表现仍未能达到工业界标准. 相较之下 Dream Fusion 模型在原理设计上与传统三维数据生成技术的衔接较为薄弱, 这使得将其推广至商业领域仍然面临诸多挑战.
****●Magic3D模型
2022年11月起,英伟达于二〇二二年十一月提出了名为Magic3D的新模型,在这一基础上提出了一种双阶段优化方案:首先采用与现有方法类似的扩散模型生成低分辨率且易于渲染的三维数据结构;随后利用传统计算机图形学中的技术提升渲染质量
以下是经过同义改写的文本:
基于Magic3D模型之后
影响模型应用能力的关键因素

****●生成质量
该系统在生成内容的质量上表现优异,在涵盖细节完整性、数据准确性和呈现效果等多个维度上均表现出色,在实际应用中对生成内容的质量有着较高的要求。相较于传统的人工化方法,在当前阶段人工智能系统的生成质量仍存在明显不足。
****●生成效率
不同于生成二维图像,在处理三维数据时因维度提升而导致计算复杂度急剧上升。随着计算需求急剧增加,现有的大多数模型在处理三维数据时仍显不足,并且这些模型在训练和推理阶段对内存资源需求极大。而这些模型在训练及应用中所面临的高计算复杂度和内存消耗问题导致整体开发及应用成本显著攀升。
****●可控性
对可控制性的维度主要包括能否产出符合预期的三维内容以及能否根据需求调整生成和呈现的效果。当前人工智能驱动的三维生成技术能够在基本层次上满足实际应用需求,在此基础之上却难以实现高级功能调用。具体而言有两类解决方案可供采用:其一是通过持续提升对于自然语言和图像信息的理解能力来增强功能调用能力;其二则是寻求系统优化路径以实现功能模块的有效分离,在此过程中需特别注意输出数据格式的具体规范。
典型产业应用场景

****●游戏开发
游戏设计师或制作人可以高效地应用先进的三维生成技术来打造细节丰富且生动的虚拟角色与场景描述,在提升玩家沉浸体验的同时显著增强画面的真实度和代入感
****●建筑设计
专业的建筑设计人员可以通过利用三维生成技术更快捷地生成建筑模型以及制作出高质量的可视化效果图,并显著提升设计效率并确保设计精度。
****●电影和动画制作
制片人可借助三维生成技术创造出逼真的三维场景与角色形象,并以此为基础展现复杂且生动的视觉效果。通过这些创新的技术应用,在电影与动画领域中进一步提升艺术质量及其观众的观看体验水平。
****●虚拟现实
在虚拟现实开发中,设计者能够借助数字建模技术构建具有高度立体化的虚拟环境与形象角色,从而显著提升其真实度与沉浸体验
****●工业制造
生产制造商能够利用三维生成技术以更快捷的方式生成零部件和模具,并非传统方法所能比拟。通过这一创新工艺的应用,在确保产品性能的同时显著提升了生产效率和制造精度。此外,在优化流程的基础上降低了制造成本水平。
****●医疗保健
医学专业人士能够借助三维生成技术构建精确的人体解剖模型以及精密的医疗设备,在医疗教育领域进行教学,在手术培训中提供模拟环境,并在疾病诊断研究中发挥重要作用。
****●艺术设计
艺术家和设计师可以通过三维生成技术开发出具有创新性的数字艺术品、数字化雕塑以及其他类型创意作品,并以此来提升艺术创作效率与表现能力。
****●教育培训
该技术已被广泛应用于教育培训领域。教师与学生能够通过该技术更有效地掌握复杂的技术与科学知识,并在此过程中提升学习效能。这有助于提升教学成效与学习效能。
市场主流应用
传统三维生成工作流程主要包含生成三维模型与渲染三维模型两个阶段。基于对可控性需求的考虑,这两个阶段被分别处理。由此可见,目前市场上的人工智能三维生成应用可按功能划分,其中一部分能够实现上述两项功能,而另一部分则仅实现三维渲染功能。
****●海外市场情况
目前主流国际市场上的三维生成工具中的一部分主要来源于英伟达与Meta这类科技巨头的资金支持与技术投入。同时也有来自OpenAI、Luma、Kaedim以及Meshy等初创企业的身影。
英伟达作为计算机图形学领域的资深企业,在三维生成领域具有卓越的产品生态系统以及合作伙伴网络支持。其研发的Magic3D模型不仅支持三维建模还具备渲染功能,并计划推出基于生成式AI云服务Picasso的功能模块。英伟达与素材供应商Shutterstock的战略合作可有效保障其在三维生成过程中的版权合规性;同时双方亦将携手Adobe共同探索人工智能技术在该领域的创新应用场景
Meta开源的MCC模型能够实现从一张带深度信息的二维图像完成三维重建;然而该模型仅能生成较为基础的三维模型;其生成过程存在较高的失败率且整体效果较为有限
OpenAI开源发布的Point·E模型旨在将自然语言转换为三维数据进行生成。该模型具有高效的生成速度,并且其对硬件资源的需求相对较低。然而,在输出的质量上仍存在不足,并且由于该模型采用点云表示方法,难以满足专业领域对于高质量三维数据的需求。随后发布的Shap-E模型相比Point·E,在运行效率和图像质量上均有显著提升。该模型通过结合网格表示和NeRF技术实现双重数据表征,并且虽然在某些方面有所改进但依然无法完全满足专业应用的要求
专注于三维生成的人工智能创业公司的Luma平台现已推出移动端Luma AI应用程序。该应用仅凭移动端摄影设备即可重建真实的三维物体,并提供了将视频转换为三维模型的API接口以便开发者将其整合到工作流程中。
作为一个专注于人工智能驱动的三维生成技术团队,Meshy致力于加速游戏开发者与三位元内容艺术家之间的创作进程.目前,玩家可通过Discord社区访问Meshy提供的三位元模型渲染功能,该服务可实现通过自然语言处理技术自动生成三位元渲染模型,并基于二维概念图进行建模. Meshy亦宣布未来将推出其人工智能驱动的高级别三位元建模工具.
****●中国市场情况
目前中国市场的三维生成工具不仅来源于各大知名品牌如阿里云、华为云、商汤科技和旷视科技等企业级云计算平台的支持,并且得到了创新团队以及高校科研机构的提供。
阿里云、华为云、商汤等资深科技企业均基于行业特点与解决方案推出三维生成应用。其中阿里云的全息空间产品侧重于三维呈现建筑空间信息,并通过建筑信息模型(BIM)实现线上模拟现有建筑结构与实时店铺展示。商汤则利用其空间三维生成产品SenseMARS为房地产行业打造线上三维看房解决方案。此外还有旷视开源的OccDepth模型可基于二维视觉数据补充场景三维结构并满足自动驾驶道路检测需求
中国的创业团队与研究机构更倾向于通过技术基础推动三维生成应用的发展。太极图形作为一家创业型图形软件公司,在这一领域持续投入资源以研发Taichi并行编程语言。该语言已得到进一步优化支持更多元化的三维生成模型,并已在移动端应用领域取得重要进展。来自上海交通大学、香港城市大学以及微软研究院的研究团队提出了一种名为Make-IT-3D的新创新模型,在人工智能辅助下显著增强了三维重建能力。基于这一模型的驱动方法能够从单一二维图像中提取高质量的三维内容,并能根据需求从文本描述中生成相应的三维对象并进行精细渲染调整。

商业化过程中面临的挑战
****●场景应用落地挑战
当前人工智能三维生成模型在生成质量、生成效率与可控性方面均面临明显缺陷,在短期内难以彻底解决的前提下,人工智能三维生成必须找到适合其发展规律的应用场景方能真正落地应用
目前,在三维生成领域中,其应用场景主要可分为两类:一类是面向专业人士的应用场景;另一类则是针对普通消费者的场景。对于专业人士而言,在工业级应用层面的需求下,人工智能三维生成必须具备包括高质量生成和高度可控性的双重能力,并且还需要满足专业场景的特殊应用需求。具体而言,在游戏与电影行业,则需要具备想象力与现实化能力;而工业、建筑业及医疗领域则要求具备高度准确性等特性。相比之下,在普通消费者群体中虽然对人工智能三维生成的质量和可控性并没有过高要求(即相对较低),但这一群体却普遍对生成效率提出了较高的期望值。
在各类应用场景中, 更重要的问题是运用人工智能三维生成技术能够带来显著的经济效益. 当前, 在人工智能三维生成技术方面的不足程度一定程度上限制了其在商业化中的适用范围.
****●版权挑战
自基于二维图像生成的技术实现商业化的进程以来, 版权问题一直是人工智能生成领域(AIGC)面临的重大挑战.这一技术瓶颈不仅体现在二维图像处理阶段, 还会延伸到三维生成领域.在当前的人工智能技术发展中, 三维生成的应用仍需大量依赖文本与二维图像的数据来进行模型训练.当所使用的文本与二维图像的数据均源自受版权保护的内容时, 这种商业化实践往往会引发一系列版权相关的问题.
****●技术革新挑战
当前有许多人工智能三维生成的潜在商业化应用领域,在电影制作、产品概念设计以及游戏三维资产制作等方面表现突出。然而,在实际应用中用户仍然倾向于使用二维图像。这些应用场景之所以继续采用三维生成技术主要是因为它们要求所有视角呈现的一致性。因此目前三维生成在这些领域仍具备独特价值
然而,在此类应用领域中,二维图像生成技术的发展速度显著快于其他类型。如果在这种应用场景下، 二维图像生成的应用能够确保被接受的二维图象在不同视角下的一致性, 那么, 在这种应用场口中, 三维生成可能会被广泛取代。
除了上述之外,在人工智能语言生成领域快速发展的前提下,则有可能训练出一种专门用于操作传统三维生成工具的语言模型;这可能会进一步发展成为完全取代的人工智能三维生成模型。
前沿探索与趋势展望
随着技术的发展进步,在线人工智能三维数据呈现技术的整体性能水平、运算效率以及控制稳定性等方面都将迎来显著提升。在控制稳定性方面,在线人工智能数据呈现技术和传统3D呈现流程之间的协同效应将进一步增强,在线呈现系统将引入分级显示机制,并赋予各级展示内容在主流3D呈现软件中即时查看、修改并反馈至系统的核心能力,在专业领域中显著提高智能化辅助效能。在此开发过程中,则需广泛依赖开源技术社区的技术支持,并具备潜在可能与其他自然语言处理技术相结合的应用空间以进一步提升对三维数据呈现结果进行自然语言解读的能力。
伴随着生成质量和生成效率的显著提升
本系列报告将涵盖六大部分内容:语言生成、图像生成、音频生成、视频生成、三维生成以及分子发现与电路设计等领域,并将在本月陆续推出。热忱欢迎社会各界关注,并期待与大家共同探讨这一领域的发展前景。
**声明须知
