Flow Matching For Generative Modeling

阅读量：

Flow Matching For Generative Modeling

一、基于流的（Flow based）生成模型

生成模型

为了更好地理解生成任务的本质及其核心目标是什么，在机器学习领域中我们通常假设世界上的所有图片遵循特定的概率模型 pdata(x)，其中pdata代表了数据空间中的真实图像概率密度函数。然而这一概率模型毫无疑问是一个高度复杂的统计模式。在实际应用中我们通常获得了一组来自数据集的图像样本{x₁, x₂, …, xₘ}这些样本被认为是该模型生成过程中的输入实例。我们的目标是通过训练建立一个能够映射从隐式空间中的高斯球面包络中提取随机向量z到观察到的真实图像x=G(z)，其输出结果应能精确模仿真实数据集中的图像特征；同时希望所得到的概率模型p_G能够尽可能逼真地复制数据集的真实统计特性

从概率模型的视角来看，在达到上述目标时可以通过优化生成器GG的相关参数来进行操作：
为了达到上述目标,G∗=arg⁡max⁡∑i=1mlog pG(xi)\text{为了达到上述目标, } G^* = \arg\max \sum_{i=1}^{m} \log p_G(x_i)
证明表明，在最大化这个对数似然的同时, 相当于最小化生成器分布pG(x)p_G(x)与目标分布pdata(x)p_{data}(x)之间的KL散度, 即让这两个分布尽可能接近:
因此, 生成器参数可表示为: G∗≈arg⁡min⁡KL(pdata∣∣pG)\text{因此, 生成器参数可表示为: } G^* \approx \arg\min KL(p_{data}||p_G)

概率密度的变量变换定理

给定一个随机变量 zz 及其概率密度函数 z∼π(z)z\sim\pi(z) ，通过一个一对一的映射函数 ff 构造一个新的随机变量 x=f(z)x=f(z)。如果存在逆函数 f−1f^{-1} 满足 z=f−1(x)z=f^{-1}(x)，那么新变量 xx 的概率密度函数 p(x)p(x) 计算如下：
p(x)=π(z)∣dzdx∣=π(f−1(x))∣df−1dx∣=π(f−1(x))∣(f′−1(x)∣ 若z为随机变量p(x)=π(z)∣det⁡(dzdx)∣=π(f−1(x))∣det⁡(Jf−1)∣ 若z为随机向量 p(x)=\pi(z)|\frac{dz}{dx}|=\pi (f^{{-1}(x))|\frac{df}{-1}}{dx}|=\pi(f^{-1}(x))|(f'{-1}(x)| \ \ \ \ 若z为随机变量 \ p(\mathbf{x})=\pi(\mathbf{z})|\det(\frac{d\mathbf{z}}{d\mathbf{x}})|=\pi(f^{{-1}(\mathbf{x}))|\det(\mathbf{J}_{f}{-1}})| \ \ \ \ \ 若\mathbf{z}为随机向量
其中 det⁡(⋅)\det(\cdot) 表示行列式，J\mathbf{J} 表示雅可比矩阵，是向量函数中因变量各维度关于自变量各维度的偏导数组成的矩阵，可类比为单变量函数的导数。

流模型推导

现在广泛存在的生成模型种类繁多，各有特色。VAE通过提升ELBO进行变分推断以隐式逼近数据分布特性；GAN借助对抗训练手段实现对数据分布的隐式建模；而流模型则能够直接优化对数似然以捕捉复杂的概率密度结构。

流模型通过最大化对数似然来进行生成器GG的优化：

当前面临的问题是如何计算这个式子。具体而言，这个式子计算的核心体现在以下两个方面：

如何计算行列式 det⁡(JG)\det(J_G)
如何求逆矩阵 G−1G^{-1}

为了实现生成器网络 GG 的功能需求, 我们必须确保其能够满足特定条件. 这正是流模型生成器在数学理论层面所面临的主要挑战. 在过去的流模型相关研究中, 研究者们开发出了多种创新性的架构模块（例如 decoupling layer）, 这些设计能够在一定程度上有效满足上述两个关键运算的需求.

另外需要注意的是，在流模型中要求其输入与输出具有相同的尺寸。这是因为如果不具备相同维度，则无法实现可逆性（非方阵矩阵不可能实现可逆变换）。例如创建这样的图像时需要将随机噪声设置为同样大小（即 $1 \times h \times w$ 的形状）。这与传统的生成对抗网络（GAN）以及变分自编码器（VAE）等生成模型存在显著差异（它们通常具有不同维度的空间信息）。

堆叠多个网络

在实践中,基于数学理论的制约使得单一可逆神经网络的能力受到限制,生成器通常由多层结构构成,这也是"流模型"这一术语名称的由来.实际上就是将多个函数 Gi 连续作用的结果,通过取对数运算后,从而转化为累加的形式.

比如我们有 KK 个网络 {fi}i=1K{f_i}_{{i=1}}^K，对噪声分布 π(z0)\pi(\mathbf{z}_0) 进行 KK 步变换，得到数据 x\mathbf{x}，即有：
x=zk=fK(fK−1...f1(z0)) \mathbf{x}=\mathbf{z}k=f_K(f{K-1}...f_1(\mathbf{z}_0))
对于其中第 ii 步有：
zi∼pi(zi)zi=fi(zi−1), zi−1=f−1(zi) \mathbf{z}i\sim p_i(\mathbf{z}i)\ \mathbf{z}i=f_i(\mathbf{z}{i-1}),\ \ \mathbf{z}{i-1}=f^{-1}(\mathbf{z}i)
根据变量变换定理，相邻两步之间的隐变量分布的关系为：
pi(zi)=pi−1(fi−1(zi))∣det⁡Jfi−1∣=pi−1(zi−1)∣det⁡Jfi∣−1
每一步的对数似然为：
log⁡pi(zi)=log⁡pi−1(zi−1)−log⁡(det⁡(Jfi)) \log p_i(\mathbf{z}i)=\log p{i-1}(\mathbf{z}{i-1})-\log(\det(\mathbf{J}{f_i}))
对于整个 KK 步的过程，对数似然为：
log⁡p(x)=log⁡pK(zK)=log⁡pK−1(zK−1)−log⁡(det⁡(JfK))=log⁡pK−2(zK−2)−log⁡(det⁡(JfK−1))−log⁡(det⁡(JfK))= ...=log⁡π(z0)−∑i=1Klog⁡(det⁡(Jfi))

可以看出，流模型的基本原理是基于一系列可逆神经网络的设计，在生成过程中从噪声分布逐步推导出数据分布的过程。具体而言，在采样生成时通过逆向过程将其转化为新的数据样本序列。

二、连续归一化流

常规流模型基于离散的一定数量（例如K K 个）可逆神经网络进行数据分布的转换操作。而连续归一化流（Continuous Normalizing Flow, CNF），即通过一系列可逆神经网络逐步实现数据分布的转换过程，并将其扩展为连续的情形研究。

考虑 d 维空间中的数据点 x=(x₁,x₂,…,x_d)∈ℝ^d 。CNF 的主要研究内容包括：

概率密度路径函数（Probability Density Path Function） $p$ ： $[0,1]\times \mathbb{R}^d \mapsto \mathbb{R}_{>0}$ ，该函数描述了随时间变化的概率分布情况，并满足归一化条件 $\int p_t(x) dx = 1$ 。
时间相关的向量场（Time-Varying Vector Field） $v$ ： $[0,1]\times \mathbb{R}^d \mapsto \mathbb{R}^d$ ，该向量场定义了数据点在状态空间中的运动方向及其速率。其作用反映了系统状态随时间演化的过程。

该向量场 vt 被用来构建一个随时间演变的微分同胚映射，在动力系统理论中通常被称为流动 (flow)，记作 ϕ\phi：[0,1]×ℝᵈ → ℝᵈ。这个流动由以下常微分方程定义：

\frac{\mathrm{d}}{\mathrm{d}t}\phi_t(\mathbf{x}) = v_t(\phi_t(\mathbf{x}))

ϕ0(x)=x \phi_0(x)=x

这里的ϕt(x) $\phi_t(x)$ 代表了 flow $\phi$ 在时间 $t$ 时刻的状态。这与扩散模型中时间步 $t$ 所对应的噪声图相一致。 $p_t(x)$ 则表示概率密度路径在 $t$ 时刻的状态。这等同于flow $\phi$ 在该时刻的概率分布情况。

早期研究中，Neural ODE 开发出了一种以 θ∈Rp 为参数的神经网络 vt(x;θ)，用于建模向量场 vt；从而能够计算生成 flow ϕt ，进而实现 CNF。

CNF 可以利用 push forward 公式将简单的先验分布 p₀（即纯噪声）转换为复杂的数据分布 p₁（即数据分布）：
pt = [ϕₜ]∗p₀
其中推前操作符 ∗ 的定义是：
[ϕₜ]∗(x) = p₀(ϕₜ⁻¹(x)) det [∂ϕₜ⁻¹/∂x (x)]
如果满足上述等式则认为是由向量场 vₜ生成的概率密度路径

利用连续性方程（Continuity Equation）来判断是否存在由向量场生成的概率密度路径，则是一个偏微分方程（PDE），它提供了判断是否存在由概率场生成的概率密度路径的充分必要条件：
$\frac{d}{dt}p_t(x)+\text{div}(p_t(x)v_t(x))=0$
其中散度运算符 $\text{div}$ 是关于空间变量 $x=(x^1,\dots,x^d)$ 的偏导数组成的： $\text{div}=\sum_{i=1}^d\frac{\partial}{\partial x^i}$ 。附录 C 进一步阐述了有关 CNF 的相关背景知识。

为什么说向量场 vtv_t “生成” 了概率密度路径 ptp_t？为什么要用常微分方程 ODE 来表达？

vtv_t 是 ϕt\phi_t 的导数（微分）。导数或者说微分，就是一个量随着另一个量极小变化时的变化，其实写成离散形式也好理解了，微分就是变化量： ϕt′=ϕt+Δt−ϕt\phi't=\phi{t+\Delta t}-\phi_t 。就是从上一个时间点，怎么到下一个时间点，再知道初值 ϕ0=x\phi_0=x 之后，就能从第一个点 “流” 到最后一个点，得到一个路径 ptp_t，所以说 “向量场（ϕt\phi_t ODE 的解 ϕt′=vt\phi'_t=v_t）生成了一条概率路径”。而 ODE dϕt/dt=v(zt,t)d\phi_t/dt=v(z_t,t) 定义了一个向量场 vv 。

三、Flow Matching

当我们构建生成模型时，在这个过程中我们假设有这样一个未知的概率分布函数Q(x₁)，其中需要注意的是，在本文中使用的符号体系与扩散模型论文中的常用符号有所区别：这里x₁代表真实的数据样本而非通常意义上的噪声变量；而x₀则代表随机噪声信号。基于这样的假设前提下，在该分布下我们能够通过采样方法生成大量具有代表性的样本数据，并且由于这个分布的具体形式未知（即无法用显式的数学表达式直接描述），因此我们需要通过其他方法来进行建模和推断工作。

定义概率路径为 ptpt，并设定后续点 q ≈ q 与之相当接近；Flow Matching 的核心即在于匹配这条关键的概率路径，在此过程中实现了从初始状态 pt=ptpt 到终态 pt=qtpt=qt 的转换过程。如何设计这条关键的概率路径，则是我们后续的重点探讨内容。

设定目标概率密度函数 pₜ(𝑥) 和其对应的向量场 uₜ(𝑥)，这两者共同构成了Flow Matching的目标。其损失函数可表示为：

𝐿𝐿𝑀(\theta)=𝔼_{𝑡,𝑥∼𝑝ₜ}[||𝑣ₜ(𝑥)-𝑢ₜ(𝑥)||²]

其中 θ 表示构建该条件神经网络所需的参数。简便来说，在训练完成后，
当模型损失降至零时，
该条件神经网络就能够准确重建相应的向量场，
从而实现对不同时间步长 t 的目标概率密度分布 pₜ(𝑥)
的有效建模，
自然也就具备了生成符合数据分布 q (x₁ = p₁ (x)) 样本的能力。

Flow Matching 目标函数相当简单, 然而在实际应用中难以计算, 因为我们缺乏关于 ptp_t 和 utu_t 的信息. 存在多条概率路径能够实现 p_1(x) ≈ q(x), 值得注意的是, 我们难以求取生成目标 ptp_t 的解析表达式.

由条件概率路径和条件向量场构建 ptp_t 和 utu_t

在此基础上, 我们将介绍如何构建目标概率路径 ptp_t 和向量场 utu_t 的方法. 该方法的核心思路在于基于单个样本构造相应的条件概率路径与条件向量场, 并随后通过积分手段将这些条件路径与边缘概率路径/向量场进行关联, 最终形成一个易于计算的目标函数.

通过混合一种基础的概率路径来生成目标概率路径是一个简便的方法：给定选定的数据样本 $x_{1}$ , 我们定义 $p_{t}(x|x_{1})$ 为条件概率路径, 它必须满足：

当时间 t 等于零时有 p_0(x | x_1) = p(x) ，即 p_0(x) 不受样本数据 x_1 影响，而是遵循一个标准噪声分布；
- 当时间 $t$ 等于一时， $p_1(\mathbf{x}|\mathbf{x}_\text{prev})$ 是一个以 $\mathbf{x}_\text{prev}$ 为中心的高斯分布（具体而言是均值为 $\mathbf{x}_\text{prev}$ 、方差 $\sigma^2\mathbf{I}$ 的正态分布）；即此时的概率密度函数应接近真实数据生成模型。

对每一个真实样本 x₁∈X₁ 的条件概率分布 pt(⋅|x₁)，通过与先验分布 q(⋅|X₁=X₁_x₁^) 的组合（即计算后验分布），最终得到的是目标边缘分布 pt(⋅|X₁=X₁_x₁^)：

特别地，在时间 $t=1$ 时（即 $t=1$ ），边缘概率 $p_1$ 是一个混合分布，并且能够很好地近似于数据分布 $q$ ：

p_1(x) = \int p_1(x|x_1) q(x_1) dx_1 \approx q(x)

我们也可以通过将条件向量场进行 "边缘化" 处理，并定义一个边缘向量场（marginal vector field），假设对于所有的时间点 $t$ 和位置 $x$ 满足 $p_t(x)>0$ ：

u_t(x) = \int u_t(x|x_1)\frac{p_t(x|x_1) q(x_1)}{p_t(x)} dx_1

其中 $u_t(\cdot|x_₁)$ 是一个从 $\mathbb{R}^d$ 到 $\mathbb{R}^d$ 的函数，并且它生成了 $p_t(\cdot|x₁)$ 的条件向量场

那么，在对条件向量场进行积分的基础上构建边缘向量场ut(x)u_t(x)，是否能生成对应的边缘概率路径pt(x)p_t(x)呢？作者通过验证证实了这一点，在附录A中详细阐述了这一过程。实际上所要验证的就是上述所描述的构造边缘概率路径/向量场的形式是否满足连续性方程。

通过这一机制将条件向量场（具备生成条件概率路径的能力）与边缘向量场（具备生成边缘概率路径的能力）建立了关联。由此可知，我们可以将原本难以计算的边缘概率场转化为较为简单的条件概率场。这种转化简化了处理过程。在正式表述上：

**定理1 基于给定的条件概率路径 p(x|x₁)p(x|x_1)，我们建立了用于生成该路径的条件向量场 u(x|x₁)u(x|x_1)。对于任意的数据分布 q(x₁)q(x_1)，其边缘向量场 utu_t 和 ptpₜ 满足连续性方程，并且 utuₜ 能够由这些方程所描述的状态转移机制所驱动

条件流匹配 Conditional Flow Matching

令人惋惜的是，在边缘向量场与边缘概率路径中求积运算存在困难的情况下，我们目前仍未能获得 utu_t 的值。这也就使得我们无法直接计算原始 Flow Matching 指标函数。对此问题上，在现有研究的基础上作者提出了一种更为简便的方法——条件流匹配（Conditional Flow Matching）目标：
LCFM(θ)=Et,q(x1),pt(x∣x1)∣∣vt(x)−ut(x∣x1)∣∣2 \mathcal{L}\text{CFM}(\theta)=\mathbb{E}{t,q(x_1),p_t(x|x_1)}||v_t(x)-u_t(x|x_1)||^2

在其中 t服从均匀分布于区间 (0, 1)，并且变量 x₁服从分布 q(x₁)，此时变量 x 服从条件分布 pₜ(x | x₁) 。具体而言，在构建FM目标函数时我们直接回归了向量场 uₜ(x)，但在此处构建CFM目标函数时则采用了条件化的方式进行回归即 uₜ(x | x₁) 。相比之下，在构建CFM目标函数时我们不再直接从 pₜ(x | x₁) 中采样也不再直接计算 uₜ(x | x₁) 而是通过其他途径实现了无偏估计的目的。因为我们的构造基于单个样本因此这两个实现条件都较为容易满足

作者证明了：

定理2 假设对于所有x属于ℝ^d空间中的任意点x以及参数t在区间[0,1]内取值，则对于所有这样的x和t都有概率密度函数p_t(x)大于零（即p_t(x) > 0）。在此条件下，则其对应的损失函数∇_θLCFM(θ)与∇_θLFM(θ)至多相差一个与参数θ无关的常数值（即它们之间的差异是一个在优化过程中可忽略不计的影响因素）。

这表明，在期望上的优化CFM目标与FM目标具有等价性关系。由此可见，在t=1时通过设定合适的条件概率分布函数以及相应的向量场来训练一个CNF模型，在t=1时能够近似未知数据分布q(q)，而无需先验地知道边缘概率路径或边缘向量场的具体形式。

四、高斯条件概率路径和条件向量场

CFM 目标适用于所有的条件概率路径和条件向量场。本节中，我们重点讨论高斯条件概率路径族的 pt(x∣x1)p_t(x|x_1) 和 ut(x∣x1)u_t(x|x_1)。即，我们考虑如下形式的高斯条件概率路径：
pt(x∣x1)=N(x∣μt(x1),σt2(x1)I) p_t(x|x_1)=\mathcal{N}(x|\mu_t(x_1),\sigma_t^2(x_1)\mathbf{I})
其中 μ:[0,1]×Rd→Rd\mu:[0,1]\times \mathbb{R}^{d\rightarrow\mathbb{R}}d 和 σ:[0,1]×R→R>0\sigma:[0,1]\times\mathbb{R}\rightarrow\mathbb{R}_{>0} 分别是关于时间 tt 的高斯分布的均值和标准差。需要满足：

当时间点 t 等于零时（t=0），我们设定初始状态变量 x₁ 的均值 μ₀ 和标准差 σ₀ 均为一（μ₀=σ₀=1），由此可推出系统中所有条件概率路径最终收敛至标准正态分布 p(x)=N(x|μ=0,Σ=I)，即p(x)=\mathcal{N}(x|{\bm{0}}, {\bm{I}})；
当时间点 t 进入下一阶段（t=1）时，则有…₁(x₁)=σ_min（其中 σ_min 表示最小的标准差），此时为了确保后续推断的有效性需保证 σ_min 值必须足够小以确保…₁(x|x₁) 是一个高度集中在中心点 x₁ 的高斯分布。

有无穷多个向量场能够生成任何特定的概率路径；然而，在这些向量场中占据主导地位的是那些在连续性方程中加入无散度项而导致底层分布不变的情况（例如，在连续性方程中引入一个无散度组件），从而造成了不必要的额外计算。作者选择使用与高斯分布相关的标准变换作为其方法的基础。具体而言，在给定x₁的情况下讨论流动：

ψt(x)=σt(x1)x+μt(x1) \psi_t(x)=\sigma_t(x_1)x+\mu_t(x_1)
当 xx 是标准的高斯分布时，ψt(x)\psi_t(x) 是一个仿射变换，映射到均值为 μt(x1)\mu_t(x_1)、标准差为 σt(x1)\sigma_t(x_1) 的正态分布随机变量。也就是说，根据上式，ψt\psi_t 的前向过程从噪声分布 p0(x∣x1)p_0(x|x_1) 流向 pt(x∣x1)p_t(x|x_1) ，即：
[ψt]∗p(x)=pt(x∣x1) [\psi_t]*p(x)=p_t(x|x_1)
生成这个条件概率路径 pt(x∣x1)p_t(x|x_1) 的条件向量场 ut(x∣x1)u_t(x|x_1) 为：
ddtψt(x)=ut(ψt(x)∣x1) \frac{d}{dt}\psi_t(x)=u_t(\psi_t(x)|x_1)
将 ψt\psi_t 重写为仅关于 x0x_0，并将上式代入到 CFM 损失中，有：
LCFM(θ)=Et,q(x1),p(x0)∣∣vt(ψt(x0))−ddtψt(x0)∣∣2 \mathcal{L}\text{CFM}(\theta)=\mathbb{E}_{t,q(x_1),p(x_0)}||v_t(\psi_t(x_0))-\frac{d}{dt}\psi_t(x_0)||^2
由于 ψt\psi_t 是可逆的仿射映射，我们可以闭式计算出 utu_t。

记 f′f' 表示关于时间的函数 ff 对时间的微分，即 f′=ddtff'=\frac{d}{dt}f。

令 pt(⋅|x₁)p_t(\cdot|x_1) 为一个高斯概率路径，则其对应于的 flow map ψₜψₜ 存在唯一的向量场 ψₜψₜ 其形式为：

高斯条件概率路径的特殊情形

该形式化方案适用于任意函数 μ_t(x₁) 和 σ_t(x₁)，其适用范围极为广泛且不受限制。我们可将其设定为满足所需边界条件的任意可微函数。本节将介绍两个具体示例：首先介绍本文形式化框架下已有经典扩散模型（如 VP/VE）的推导过程；然后展示基于我们直接采用的概率路径方法论可知，在不依赖于扩散过程推理的前提下完成相应的构建步骤；进而提出了一种基于Wasserstein-2最优传输理论的概率路径构建方法。

例子1：Diffusion Conditional VFs

扩散模型通过逐步添加噪声至真实数据样本直至变为纯噪声。该随机过程具备特定要求以实现对于任意时间 tt 的闭式表达。通过设定不同的均值 μt(x₁) 和标准差 σt(x₁)，可以得到特定的高斯条件概率路径 pₜ(x|x₁)。

首先来看 Variance Exploding，其反向（噪声->数据）路径为：
pt(x)=N(x∣x1,σ1−t2I) p_t(x)=\mathcal{N}(x|x_1,\sigma^2_{1-t}\mathbf{I})
其中 σt\sigma_t 是一个单增函数，σ0=0,σ1>>1\sigma_0=0,\sigma_1>>1。上式这种 VE 扩散模型，是选择了均值和标准差分别为 μt(x1)=x1,σt(x1)=σ1−t\mu_t(x_1)=x_1,\sigma_t(x_1)=\sigma_{1-t} 。带入到定理 3 的公式中：
ut(x∣x1)=−σ1−t′σ1−t(x−x1) u_t(x|x_1)=-\frac{\sigma'{1-t}}{\sigma{1-t}}(x-x_1)
另一种经典的扩散模型 Variance Preserving 扩散路径的形式为：
pt(x∣x1)=N(x∣α1−tx1,(1−α1−t2)I)αt=e−12T(t)T(t)=∫0tβ(s)ds p_t(x|x_1)=\mathcal{N}(x|\alpha_{1-t}x_1,(1-\alpha^2_{1-t})\mathbf{I})\ \alpha_t=e^{-\frac{1}{2}T(t)}\ T(t)=\int_0^t\beta(s)ds
其中 β\beta 是关于 tt 的 noise scale 函数。上式是选择了均值和标准差分别为 μt(x1)=α1−tx1,σt(x1)=1−α1−t2\mu_t(x_1)=\alpha_{1-t}x_1,\sigma_t(x_1)=\sqrt{1-\alpha_{1-t}^2} 。带入到定理 3 的公式中：
ut(x∣x1)=α1−t′1−α1−t2(α1−tx−x1)=−T′(1−t)2[e−T(1−t)x−e−12T(1−t)x11−e−T(1−t)] u_t(x|x_1)=\frac{\alpha'_{1-t}}{1-\alpha^{2_{1-t}}(\alpha_{1-t}x-x_1)=-\frac{T'(1-t)}{2}[\frac{e}{-T(1-t)}x-e^{{-\frac{1}{2}T(1-t)}x_1}{1-e}{-T(1-t)}}]
实际上，本文在指定特定的条件扩散过程时构建出的条件向量场 ut(x∣x1)u_t(x|x_1) ，与宋飏等人（Diff SDE 论文，公式 12）中给出的确定性概率流模型是相符的。并且，将扩散条件向量场与 FM 训练目标结合起来，能得到另一种训练 score matching 的方法，作者发现该方法训练起来更加稳定。

作者进一步阐述了上述所提及的概率路径是如何通过扩散过程进行推导的。因此他们未能在最终的时间步实现真正的噪声分布（Zero Terminal SNR 同样面临这一挑战）。实际应用中，p_0(x)主要依赖于一个合适的高斯分布近似来进行采样和似然计算。然而，在本文中提出的方法则能够对概率路径进行精确调节，并直接设定 μ_t 和 σ_t 的值。下一步我们就可以尝试这一方法。

例子2：Optimal Transport Conditional VFs

一种更为直观的方式是将均值和标准差定义为简单的线性变换；即通过简单的线性变换来定义它们：
KaTeX parse error: Got function '\min' with no arguments as subscript at position 42: …x)=1-(1-\sigma_\̲m̲i̲n̲)t
由定理 3可知,产生上述路径的向量场为：
KaTeX parse error: Got function '\min' with no arguments as subscript at position 33: …{x_1-(1-\sigma_\̲m̲i̲n̲)x}{1-(1-\sigma…

其中 t∈[0,1]t\in[0,1]。其对应的 flow 为：

此时，在计算损失函数时，
KaTeX parse error: Got function '\min' with no arguments as subscript at position 95: …(x_1-(1-\sigma_\̲m̲i̲n̲)x_0)||^2
本文提出了一种基于均值与标准差的线性构造方法，
不仅能得到简单直观的路径，
这在以下方面具有重要意义：
条件流ψt(x)实际上是两个高斯分布p0(x|x1)和p1(x|x1)之间的最优传输映射（Optimal Transport (OT) Displacement Map）。
而最优传输插值（OT Interpolant）则被定义为：
pt=[(1−t)id+tψ]∗p0
其中ψ:ℝ^d→ℝd是从p0到p1的最优传输映射，
id表示恒等映射，
即id(x)=x。
因此，
(1−t)id+tψ即为OT位移映射。
此前研究表明，
在这种情况下，
当第一个高斯分布为标准高斯时，
其对应的OT位移映射形式如式23所示。

在最优传输位移框架下分析可以看出,粒子会按照直线运动且持续匀速运行

下图对比展示了扩散条件得分函数（典型的扩散方法中的回归目标），具体包括梯度 ∇log⁡pt(x∣x₁)\nabla \log p_t(x|x₁)，以及与最优传输（OT）相关的条件向量场。在两个示例中所涉及的初始和终止的一维高斯分布是一致的。值得注意的是，在时间维度上最优传输向量场的方向保持一致这一特性无疑简化了回归任务的要求；这一属性也可以从OT的形式中得到验证：其条件表示为 ut(x∣x₁)=g(t)h(x∣x₁)u_t(x|x₁) = g(t)h(x|x₁)，其中ut表示随时间变化而变化的因素g(t)，乘以空间相关的因素h(x∣x₁)h(x|x₁)；此外我们还注意到尽管所采用的是条件流模型作为最优解候选者但它并不意味着边际流必然是最优传输解然而我们仍期望边际流具备相对简单的结构

全部评论 (0)

还没有任何评论哟~

Flow Matching For Generative Modeling

FlowMatchingForGenerativeModeling 一、基于流的（Flowbased）生成模型生成模型我们先回顾一下所谓的生成任务，究竟是想要做什么事情。我们认为，世界上所有的图片...

FLOAT: Generative Motion Latent Flow Matching for Audio-driven TalkingPortrait

摘要随着基于扩散的生成模型的快速发展，人像动画已经取得了显著的效果。然而，由于其迭代采样的特性，在视频的时间一致性生成和快速采样方面仍然面临着挑战。提出了一种基于流匹配生成模型的音频驱动说话人像视频...

Hierarchical Generative Modeling for Controllable Speech Synthesis笔记

文章目录可控语音合成的分层生成建模一、简介二、模型 2.1具有分层隐式变量的可控生成模型 2.2变分推论和训练 2.3显示分类标签的连续属性空间 2.4神经网络结构三、相关研究四、实验可控...

Flow Matching学习笔记

文章目录 FlowMatching是用来做什么的？生成模型从先验分布到目标分布:FlowMatching 使FlowMatching变得可解实际应用中通常无法获取utx的表达式 Conditio...

流匹配模型[Flow Matching]

流匹配模型：概念、优缺点与扩散模型的对比在生成建模领域，流匹配模型（FlowMatching）是一种通过学习流场将初始分布（通常是高斯噪声）变换为目标分布的新型框架。本文将对流匹配模型的概念、与扩散...

李宏毅——Flow-based Generative Model

李宏毅——FlowbasedGenerativeModel 导语已经介绍的生成模型数学背景 jacobianMatrix Determinant changeofVariableTheorem f...

[个人开源]——matting with flow matching

FastPortraitMattingwithFlowMatching 代码：Matting.fm 📻Overview Werefertodepthfmtoperformtheportraitmat...

Weakly-Supervised Action Localization by Generative Attention Modeling批注

WeaklySupervisedActionLocalizationbyGenerativeAttentionModeling 主要任务相关工作方法：主要任务动作定位，方法又可以分为两类：一...

Diffusion for World Modeling

世界模型也扩散！训练出的智能体竟然不错,在图像生成领域占据主导地位的扩散模型，开始挑战强化学习智能体。世界模型提供了一种以安全且样本高效的方式训练强化学习智能体的方法。近期，世界模型主要对离散潜在变...

Neural Graph Matching Networks for Chinese Short Text Matching

NeuralGraphMatchingNetworksforChineseShortTextMatching 1.介绍中文短文本匹配不同于英文，中文分词可能是错误的、模糊的或不一致的，从而损害最终的...

是否确定退出登录?

Flow Matching For Generative Modeling