Advertisement

Midjourney:AIGC领域图像生成的创新典范

阅读量:

Midjourney:AIGC领域图像生成的创新典范

关键词:Midjourney,AIGC,图像生成,创新,人工智能

摘要:本文聚焦于Midjourney这一AIGC领域图像生成的创新典范。首先介绍了其产生的背景,包括AIGC领域的发展趋势以及Midjourney的目标受众等。详细阐述了Midjourney的核心概念,如工作原理和架构,并通过Mermaid流程图进行直观展示。深入剖析了其核心算法原理,结合Python代码进行说明,同时给出了相关的数学模型和公式。通过项目实战,展示了如何使用Midjourney进行图像生成,包括开发环境搭建、代码实现与解读。探讨了Midjourney在多个实际场景中的应用,推荐了学习、开发所需的工具和资源。最后总结了Midjourney的未来发展趋势与挑战,并提供了常见问题解答和参考资料,旨在为读者全面深入地了解Midjourney提供有价值的信息。

1. 背景介绍

1.1 目的和范围

在当今数字化时代,人工智能技术的飞速发展催生了众多创新应用,其中AIGC(人工智能生成内容)领域尤为引人注目。图像生成作为AIGC的重要分支,正逐渐改变着人们创作和获取图像的方式。Midjourney作为该领域的一款知名工具,以其出色的图像生成能力和创新的功能受到广泛关注。本文的目的在于全面深入地剖析Midjourney,从其核心原理、算法、应用场景等多个方面进行探讨,帮助读者了解其技术细节和潜在价值。文章的范围涵盖了Midjourney的基本概念、技术原理、实际应用、工具资源以及未来发展趋势等内容。

1.2 预期读者

本文的预期读者包括对AIGC领域感兴趣的技术爱好者、从事图像生成相关工作的专业人士、人工智能领域的研究者以及希望借助Midjourney进行创意设计的艺术家和设计师等。无论是想要了解前沿技术动态,还是寻求实际应用的解决方案,本文都将提供有价值的参考。

1.3 文档结构概述

本文将按照以下结构进行组织:首先介绍Midjourney产生的背景信息,包括目的、预期读者和文档结构概述等;接着阐述Midjourney的核心概念,包括其工作原理和架构,并通过流程图进行直观展示;深入分析其核心算法原理,结合Python代码详细说明;给出相关的数学模型和公式,并进行详细讲解和举例;通过项目实战,展示如何使用Midjourney进行图像生成,包括开发环境搭建、代码实现与解读;探讨Midjourney在多个实际场景中的应用;推荐学习、开发所需的工具和资源;总结Midjourney的未来发展趋势与挑战;提供常见问题解答和参考资料,方便读者进一步深入学习。

1.4 术语表

1.4.1 核心术语定义
  • AIGC(人工智能生成内容) :指利用人工智能技术自动生成各种类型内容的过程,包括文本、图像、音频、视频等。
  • Midjourney :一款基于人工智能的图像生成工具,用户可以通过输入文本描述来生成相应的图像。
  • 扩散模型(Diffusion Model) :一种用于生成数据的概率模型,在图像生成领域取得了显著的成果,Midjourney采用了类似的技术。
  • 提示词(Prompt) :用户输入给Midjourney的文本描述,用于指导图像生成的方向和风格。
1.4.2 相关概念解释
  • 图像生成 :通过计算机算法从无到有地创建图像的过程,传统的图像生成方法主要基于手工绘制或图形处理软件,而AIGC图像生成则借助人工智能技术自动生成。
  • 自然语言处理(NLP) :研究计算机如何处理和理解人类语言的技术,在Midjourney中,NLP技术用于理解用户输入的提示词,并将其转化为图像生成的指令。
  • 深度学习 :一种基于人工神经网络的机器学习方法,通过大量的数据训练模型,使其能够自动学习数据中的特征和模式,Midjourney的图像生成能力依赖于深度学习模型的训练。
1.4.3 缩略词列表
  • AIGC :Artificial Intelligence Generated Content
  • NLP :Natural Language Processing

2. 核心概念与联系

2.1 Midjourney的工作原理

Midjourney的核心工作原理基于深度学习技术,特别是扩散模型。其基本过程可以概括为:用户输入一个文本提示词,该提示词经过自然语言处理模块进行解析和理解,提取其中的关键信息,如主题、风格、颜色等。然后,这些信息被传递给图像生成模型,该模型根据这些信息逐步生成图像。具体来说,扩散模型通过在图像上添加噪声,然后逐步去除噪声的方式来生成图像。在生成过程中,模型会根据提示词的信息不断调整图像的特征,使其符合用户的需求。

2.2 架构示意图

下面是Midjourney的架构示意图:

用户输入提示词

自然语言处理模块

特征提取

图像生成模型

图像后处理模块

生成图像输出

这个流程图展示了Midjourney的主要工作流程。用户输入提示词后,首先经过自然语言处理模块进行处理,提取出关键特征。然后,这些特征被传递给图像生成模型,该模型根据特征生成图像。最后,图像经过后处理模块进行优化和调整,输出最终的生成图像。

2.3 核心概念之间的联系

自然语言处理模块和图像生成模型之间存在紧密的联系。自然语言处理模块负责将用户输入的文本提示词转化为图像生成模型能够理解的特征信息。图像生成模型则根据这些特征信息生成图像。图像后处理模块则是对生成的图像进行进一步的优化和调整,使其更加符合用户的期望。整个过程中,各个模块相互协作,共同完成图像生成的任务。

3. 核心算法原理 & 具体操作步骤

3.1 扩散模型原理

扩散模型是Midjourney的核心算法之一,其基本思想是通过在图像上添加噪声,然后逐步去除噪声来生成图像。具体来说,扩散过程可以分为两个阶段:正向扩散过程和反向扩散过程。

3.1.1 正向扩散过程

在正向扩散过程中,模型逐渐向原始图像添加高斯噪声,直到图像变成纯噪声。这个过程可以用以下公式表示:
xt=αtxt−1+1−αtϵt \mathbf{x}t = \sqrt{\alpha_t} \mathbf{x}{t - 1} + \sqrt{1 - \alpha_t} \mathbf{\epsilon}_t
其中,xt\mathbf{x}_t 表示第 tt 步的图像,αt\alpha_t 是一个衰减系数,ϵt\mathbf{\epsilon}_t 是高斯噪声。

3.1.2 反向扩散过程

在反向扩散过程中,模型从纯噪声开始,逐步去除噪声,恢复出原始图像。这个过程可以通过一个神经网络来实现,该神经网络的目标是预测每一步添加的噪声。反向扩散过程可以用以下公式表示:
xt−1=1αt(xt−1−αt1−αˉtϵθ(xt,t)) \mathbf{x}_{t - 1} = \frac{1}{\sqrt{\alpha_t}} (\mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}t}} \mathbf{\epsilon}\theta(\mathbf{x}t, t))
其中,ϵθ(xt,t)\mathbf{\epsilon}
\theta(\mathbf{x}_t, t) 是神经网络预测的噪声,αˉt=∏i=1tαi\bar{\alpha}t = \prod{i = 1}^t \alpha_i。

3.2 Python代码实现扩散模型

以下是一个简单的Python代码示例,用于演示扩散模型的正向和反向扩散过程:

复制代码
    import torch
    import torch.nn as nn
    import torch.optim as optim
    import numpy as np
    
    # 定义扩散模型的参数
    T = 1000
    beta = torch.linspace(0.0001, 0.02, T)
    alpha = 1 - beta
    alpha_bar = torch.cumprod(alpha, dim=0)
    
    # 正向扩散过程
    def forward_diffusion(x_0, t):
    sqrt_alpha_bar = torch.sqrt(alpha_bar[t])
    sqrt_one_minus_alpha_bar = torch.sqrt(1 - alpha_bar[t])
    noise = torch.randn_like(x_0)
    x_t = sqrt_alpha_bar * x_0 + sqrt_one_minus_alpha_bar * noise
    return x_t, noise
    
    # 定义简单的神经网络用于反向扩散
    class UNet(nn.Module):
    def __init__(self):
        super(UNet, self).__init__()
        # 这里简单定义一个全连接网络作为示例
        self.fc = nn.Linear(64, 64)
    
    def forward(self, x, t):
        return self.fc(x)
    
    # 反向扩散过程
    def reverse_diffusion(x_T, model):
    x_t = x_T
    for t in reversed(range(T)):
        if t > 0:
            noise = torch.randn_like(x_t)
        else:
            noise = torch.zeros_like(x_t)
        epsilon_theta = model(x_t, t)
        alpha_t = alpha[t]
        alpha_bar_t = alpha_bar[t]
        x_t_minus_1 = (1 / torch.sqrt(alpha_t)) * (x_t - ((1 - alpha_t) / torch.sqrt(1 - alpha_bar_t)) * epsilon_theta) + torch.sqrt(beta[t]) * noise
        x_t = x_t_minus_1
    return x_t
    
    # 示例代码
    x_0 = torch.randn(1, 64)  # 初始图像
    t = 500  # 扩散步数
    x_t, noise = forward_diffusion(x_0, t)
    
    model = UNet()
    x_0_reconstructed = reverse_diffusion(x_t, model)
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/FEMOtP5bnTdRhL0ogcwNqa6QU4DY.png)

3.3 具体操作步骤

  1. 用户输入提示词 :用户通过Midjourney的界面输入文本提示词,描述想要生成的图像的主题、风格、颜色等信息。
  2. 提示词处理 :自然语言处理模块对用户输入的提示词进行解析和理解,提取其中的关键信息,并将其转化为图像生成模型能够理解的特征向量。
  3. 图像生成 :图像生成模型根据特征向量,使用扩散模型逐步生成图像。在生成过程中,模型会根据提示词的信息不断调整图像的特征,使其符合用户的需求。
  4. 图像后处理 :生成的图像经过后处理模块进行优化和调整,如调整颜色、对比度、清晰度等,使其更加美观和逼真。
  5. 图像输出 :最终生成的图像通过Midjourney的界面输出给用户。

4. 数学模型和公式 & 详细讲解 & 举例说明

4.1 扩散模型的数学基础

扩散模型的数学基础主要基于概率论和统计学。正向扩散过程可以看作是一个马尔可夫链,其中每一步的状态只依赖于前一步的状态。反向扩散过程则是通过一个神经网络来学习如何从噪声中恢复出原始图像。

4.1.1 正向扩散过程的概率分布

在正向扩散过程中,给定第 t−1t - 1 步的图像 xt−1\mathbf{x}_{t - 1},第 tt 步的图像 xt\mathbf{x}_t 的概率分布可以表示为:
p(xt∣xt−1)=N(xt;αtxt−1,(1−αt)I) p(\mathbf{x}t | \mathbf{x}{t - 1}) = \mathcal{N}(\mathbf{x}t; \sqrt{\alpha_t} \mathbf{x}{t - 1}, (1 - \alpha_t) \mathbf{I})
其中,N(xt;μ,Σ)\mathcal{N}(\mathbf{x}_t; \mu, \Sigma) 表示均值为 μ\mu,协方差为 Σ\Sigma 的高斯分布。

4.1.2 反向扩散过程的概率分布

在反向扩散过程中,给定第 tt 步的图像 xt\mathbf{x}t,第 t−1t - 1 步的图像 xt−1\mathbf{x}{t - 1} 的概率分布可以表示为:
p(xt−1∣xt)=N(xt−1;μθ(xt,t),Σθ(xt,t)) p(\mathbf{x}{t - 1} | \mathbf{x}t) = \mathcal{N}(\mathbf{x}{t - 1}; \mu\theta(\mathbf{x}t, t), \Sigma\theta(\mathbf{x}t, t))
其中,μθ(xt,t)\mu
\theta(\mathbf{x}t, t) 和 Σθ(xt,t)\Sigma\theta(\mathbf{x}_t, t) 是由神经网络 θ\theta 预测的均值和协方差。

4.2 目标函数

扩散模型的训练目标是最小化反向扩散过程的负对数似然损失:
L=−Et,x0,ϵ[log⁡p(xt−1∣xt)] L = -\mathbb{E}_{t, \mathbf{x}0, \mathbf{\epsilon}} [\log p(\mathbf{x}{t - 1} | \mathbf{x}t)]
在实际训练中,通常使用简化的损失函数:
L=Et,x0,ϵ[∥ϵ−ϵθ(xt,t)∥2] L = \mathbb{E}
{t, \mathbf{x}0, \mathbf{\epsilon}} [|\mathbf{\epsilon} - \mathbf{\epsilon}\theta(\mathbf{x}t, t)|^2]
其中,ϵ\mathbf{\epsilon} 是正向扩散过程中添加的噪声,ϵθ(xt,t)\mathbf{\epsilon}
\theta(\mathbf{x}_t, t) 是神经网络预测的噪声。

4.3 举例说明

假设我们有一张原始图像 x0\mathbf{x}_0,我们想要通过扩散模型生成这张图像。首先,我们进行正向扩散过程,逐步向图像添加噪声,直到图像变成纯噪声。然后,我们使用反向扩散过程,从纯噪声开始,逐步去除噪声,恢复出原始图像。

例如,在正向扩散过程中,当 t=1t = 1 时,我们向原始图像 x0\mathbf{x}_0 添加少量的噪声,得到 x1\mathbf{x}_1。随着 tt 的增加,添加的噪声越来越多,图像逐渐变得模糊,直到变成纯噪声。在反向扩散过程中,我们从纯噪声开始,逐步去除噪声,恢复出原始图像。在每一步中,神经网络根据当前的图像和时间步预测添加的噪声,然后根据预测的噪声去除噪声,得到前一步的图像。

5. 项目实战:代码实际案例和详细解释说明

5.1 开发环境搭建

5.1.1 安装Python

首先,确保你已经安装了Python 3.7或更高版本。你可以从Python官方网站(https://www.python.org/downloads/)下载并安装Python。

5.1.2 安装依赖库

使用以下命令安装所需的依赖库:

复制代码
    pip install torch torchvision numpy matplotlib
    
    
    bash

其中,torchtorchvision 是PyTorch深度学习框架的核心库,numpy 用于数值计算,matplotlib 用于图像可视化。

5.2 源代码详细实现和代码解读

以下是一个使用PyTorch实现简单图像生成的代码示例:

复制代码
    import torch
    import torch.nn as nn
    import torch.optim as optim
    import numpy as np
    import matplotlib.pyplot as plt
    
    # 定义扩散模型的参数
    T = 1000
    beta = torch.linspace(0.0001, 0.02, T)
    alpha = 1 - beta
    alpha_bar = torch.cumprod(alpha, dim=0)
    
    # 正向扩散过程
    def forward_diffusion(x_0, t):
    sqrt_alpha_bar = torch.sqrt(alpha_bar[t])
    sqrt_one_minus_alpha_bar = torch.sqrt(1 - alpha_bar[t])
    noise = torch.randn_like(x_0)
    x_t = sqrt_alpha_bar * x_0 + sqrt_one_minus_alpha_bar * noise
    return x_t, noise
    
    # 定义简单的神经网络用于反向扩散
    class UNet(nn.Module):
    def __init__(self):
        super(UNet, self).__init__()
        self.fc1 = nn.Linear(64, 128)
        self.fc2 = nn.Linear(128, 64)
        self.relu = nn.ReLU()
    
    def forward(self, x, t):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        return x
    
    # 反向扩散过程
    def reverse_diffusion(x_T, model):
    x_t = x_T
    for t in reversed(range(T)):
        if t > 0:
            noise = torch.randn_like(x_t)
        else:
            noise = torch.zeros_like(x_t)
        epsilon_theta = model(x_t, t)
        alpha_t = alpha[t]
        alpha_bar_t = alpha_bar[t]
        x_t_minus_1 = (1 / torch.sqrt(alpha_t)) * (x_t - ((1 - alpha_t) / torch.sqrt(1 - alpha_bar_t)) * epsilon_theta) + torch.sqrt(beta[t]) * noise
        x_t = x_t_minus_1
    return x_t
    
    # 训练模型
    def train_model(model, num_epochs=100, learning_rate=0.001):
    optimizer = optim.Adam(model.parameters(), lr=learning_rate)
    criterion = nn.MSELoss()
    
    for epoch in range(num_epochs):
        x_0 = torch.randn(1, 64)  # 随机生成初始图像
        t = np.random.randint(0, T)
        x_t, noise = forward_diffusion(x_0, t)
        epsilon_theta = model(x_t, t)
    
        loss = criterion(epsilon_theta, noise)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    
        if (epoch + 1) % 10 == 0:
            print(f'Epoch [{epoch + 1}/{num_epochs}], Loss: {loss.item():.4f}')
    
    # 主函数
    if __name__ == "__main__":
    model = UNet()
    train_model(model)
    
    # 生成图像
    x_T = torch.randn(1, 64)
    x_0_reconstructed = reverse_diffusion(x_T, model)
    
    # 可视化生成的图像
    plt.imshow(x_0_reconstructed.detach().numpy().reshape(8, 8), cmap='gray')
    plt.show()
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/FW0PwNk8aCUR6lzArb9mMJK5nySh.png)

5.3 代码解读与分析

5.3.1 正向扩散过程

forward_diffusion 函数实现了正向扩散过程,根据给定的初始图像 x0\mathbf{x}_0 和时间步 tt,添加高斯噪声得到 xt\mathbf{x}_t。

5.3.2 神经网络模型

UNet 类定义了一个简单的全连接神经网络,用于反向扩散过程中预测添加的噪声。

5.3.3 反向扩散过程

reverse_diffusion 函数实现了反向扩散过程,从纯噪声开始,逐步去除噪声,恢复出原始图像。

5.3.4 训练模型

train_model 函数用于训练神经网络模型,通过最小化预测的噪声和实际添加的噪声之间的均方误差损失来优化模型。

5.3.5 生成图像

在主函数中,我们首先训练模型,然后随机生成一个纯噪声图像 xT\mathbf{x}_T,使用反向扩散过程恢复出原始图像 x0\mathbf{x}_0,最后使用 matplotlib 库将生成的图像可视化。

6. 实际应用场景

6.1 创意设计

Midjourney在创意设计领域具有广泛的应用。设计师可以使用Midjourney快速生成各种风格的设计草图,如海报设计、广告设计、包装设计等。例如,设计师可以输入“复古风格的音乐海报,有一位歌手在舞台上演唱”,Midjourney可以快速生成符合要求的海报设计草图,为设计师提供灵感和参考。

6.2 游戏开发

在游戏开发中,Midjourney可以用于生成游戏场景、角色、道具等图像资源。游戏开发者可以根据游戏的主题和风格,输入相应的提示词,生成高质量的游戏图像。例如,开发者可以输入“奇幻风格的游戏场景,有一座城堡和一片森林”,Midjourney可以生成逼真的游戏场景图像,节省了游戏开发的时间和成本。

6.3 影视制作

在影视制作中,Midjourney可以用于生成特效图像、场景设计等。例如,在科幻电影中,需要大量的外星生物、宇宙飞船等特效图像,使用Midjourney可以快速生成这些图像,提高影视制作的效率和质量。

6.4 教育领域

在教育领域,Midjourney可以用于辅助教学。教师可以使用Midjourney生成与教学内容相关的图像,帮助学生更好地理解和掌握知识。例如,在历史课上,教师可以输入“古代战争场景,有士兵和战马”,Midjourney可以生成相应的历史场景图像,使课堂更加生动有趣。

7. 工具和资源推荐

7.1 学习资源推荐

7.1.1 书籍推荐
  • 《深度学习》(Deep Learning):由Ian Goodfellow、Yoshua Bengio和Aaron Courville合著,是深度学习领域的经典教材,涵盖了深度学习的基本原理、算法和应用。
  • 《Python深度学习》(Deep Learning with Python):由Francois Chollet编写,介绍了如何使用Python和Keras库进行深度学习模型的开发和训练。
7.1.2 在线课程
  • Coursera上的“深度学习专项课程”(Deep Learning Specialization):由Andrew Ng教授讲授,包括五门课程,全面介绍了深度学习的理论和实践。
  • edX上的“人工智能导论”(Introduction to Artificial Intelligence):由麻省理工学院(MIT)提供,介绍了人工智能的基本概念、算法和应用。
7.1.3 技术博客和网站
  • Towards Data Science:一个专注于数据科学和机器学习的技术博客,提供了大量的高质量文章和教程。
  • Medium上的人工智能相关专栏:有许多人工智能领域的专家和爱好者在Medium上分享他们的经验和见解。

7.2 开发工具框架推荐

7.2.1 IDE和编辑器
  • PyCharm:一款专业的Python集成开发环境(IDE),提供了丰富的代码编辑、调试和项目管理功能。
  • Jupyter Notebook:一个交互式的开发环境,适合进行数据探索、模型训练和可视化。
7.2.2 调试和性能分析工具
  • TensorBoard:一个用于可视化深度学习模型训练过程和性能的工具,可以帮助开发者更好地理解模型的训练情况。
  • PyTorch Profiler:PyTorch提供的性能分析工具,可以帮助开发者找出代码中的性能瓶颈。
7.2.3 相关框架和库
  • PyTorch:一个开源的深度学习框架,提供了丰富的深度学习模型和工具,广泛应用于图像生成、自然语言处理等领域。
  • Hugging Face Transformers:一个用于自然语言处理的开源库,提供了大量的预训练模型和工具,方便开发者进行自然语言处理任务的开发。

7.3 相关论文著作推荐

7.3.1 经典论文
  • “Denoising Diffusion Probabilistic Models”:提出了扩散模型的基本原理和算法,是扩散模型领域的经典论文。
  • “Attention Is All You Need”:介绍了Transformer架构,是自然语言处理领域的重要突破。
7.3.2 最新研究成果
  • 关注arXiv.org上关于图像生成和人工智能的最新研究论文,了解该领域的最新发展动态。
7.3.3 应用案例分析
  • 可以参考一些知名的图像生成项目的开源代码和文档,了解如何将扩散模型应用于实际项目中。

8. 总结:未来发展趋势与挑战

8.1 未来发展趋势

8.1.1 更高质量的图像生成

随着技术的不断进步,Midjourney等图像生成工具将能够生成更加高质量、逼真的图像。未来的图像生成模型可能会结合更多的先验知识和真实世界的数据,提高图像的细节和真实感。

8.1.2 多模态融合

未来的图像生成工具可能会实现多模态融合,即不仅可以根据文本提示生成图像,还可以根据音频、视频等其他模态的输入生成图像。例如,用户可以输入一段音乐,生成与音乐风格相匹配的图像。

8.1.3 个性化定制

为了满足不同用户的需求,图像生成工具将更加注重个性化定制。用户可以根据自己的喜好和需求,调整图像的风格、颜色、尺寸等参数,生成符合自己要求的图像。

8.2 挑战

8.2.1 数据隐私和安全

图像生成工具需要大量的数据进行训练,这些数据可能包含用户的隐私信息。如何保护用户的数据隐私和安全是一个重要的挑战。

8.2.2 伦理和法律问题

图像生成技术的发展可能会带来一些伦理和法律问题,如虚假图像的传播、版权问题等。如何制定相应的伦理和法律规范,引导图像生成技术的健康发展是一个亟待解决的问题。

8.2.3 计算资源需求

图像生成模型通常需要大量的计算资源进行训练和推理,这对于普通用户来说可能是一个挑战。如何降低计算资源的需求,提高图像生成的效率是一个重要的研究方向。

9. 附录:常见问题与解答

9.1 Midjourney生成的图像版权归谁所有?

Midjourney生成的图像版权归属问题比较复杂,目前并没有明确的法律规定。一般来说,如果用户使用Midjourney生成的图像用于个人非商业用途,通常不会涉及版权问题。但如果用于商业用途,建议用户仔细阅读Midjourney的使用条款,了解相关的版权规定。

9.2 Midjourney生成的图像质量如何提高?

可以通过以下方法提高Midjourney生成的图像质量:

  • 提供更加详细和准确的提示词,明确图像的主题、风格、颜色等要求。
  • 尝试不同的提示词组合,找到最适合的表达方式。
  • 对生成的图像进行后处理,如使用图像处理软件进行优化和调整。

9.3 Midjourney是否可以生成动画?

目前Midjourney主要专注于静态图像的生成,暂时不支持直接生成动画。但可以通过生成一系列相关的静态图像,然后使用动画制作软件将这些图像组合成动画。

10. 扩展阅读 & 参考资料

10.1 扩展阅读

  • 《生成对抗网络实战》(Generative Adversarial Networks in Action):介绍了生成对抗网络(GAN)的原理和应用,与扩散模型有一定的关联。
  • 《人工智能时代的图像与视频生成》:探讨了人工智能在图像和视频生成领域的应用和发展趋势。

10.2 参考资料

全部评论 (0)

还没有任何评论哟~