流匹配 (FM) 是一种用于训练连续归一化流 (CNF) 的新方法,它能够以空前的规模训练 CNF。它基于一种称为“条件概率路径”的概念,该路径描述了从噪声样本到数据样本的转换过程。FM 的目标是通过回归固定条件概率路径的向量场来匹配该目标概率路径,而无需进行昂贵的模拟。

条件流匹配 (CFM)

为了使 FM 更加易于处理,引入了条件流匹配 (CFM) 的概念。CFM 避免了对难以处理的积分的依赖,并使用每个样本定义的概率路径和向量场。

CFM 目标函数:

1
LCFM(θ) = Et,q(x1),p(x0) ||| vt(ψt(x0)) - d/dt ψt(x0) |||² 

其中:

  • θ 是 CNF 向量场的可学习参数。
  • t ∼ U(均匀分布)。
  • x1 是服从未知数据分布 q(x1) 的随机变量。
  • x0 ∼ p(x0) 是服从简单分布的随机变量,例如标准正态分布。
  • ψt 是与条件概率路径 pt(x|x1) 对应的流映射。
  • vt 是 CNF 向量场。

CFM 的优势:

  • 与原始 FM 目标函数具有相同的最佳值。
  • 不需要显式了解难以处理的目标向量场。

条件概率路径和向量场

CFM 适用于任何条件概率路径和条件向量场。常用的方法是使用高斯条件概率路径。

高斯条件概率路径:

1
pt(x|x1) = N(x|µt(x1), σ²t(x1)I)

其中:

  • µt(x1) 是时间 t 的条件均值。
  • σ²t(x1) 是时间 t 的条件方差。
  • I 是单位矩阵。

条件向量场:

1
ut(x|x1) = σ't(x1) / σt(x1) (x - µt(x1)) + µ't(x1)

其中:

  • σ’t(x1) 是 σt(x1) 对时间 t 的导数。
  • µ’t(x1) 是 µt(x1) 对时间 t 的导数。

扩散路径与最优传输 (OT) 路径

扩散路径和最优传输 (OT) 路径是两种常见的用于定义条件概率路径的方法。

扩散路径:

扩散路径使用随机微分方程来定义概率路径。然而,扩散路径可能会导致弯曲的采样轨迹,并且在训练过程中采样成本可能会发生巨大变化。

OT 路径:

OT 路径使用最优传输理论来定义概率路径。OT 路径下的粒子始终以恒定速度沿直线轨迹移动。与扩散路径相比,OT 路径具有以下优势:

  • 更简单的采样轨迹
  • 更快的训练速度
  • 更快的生成速度
  • 更好的性能

流匹配的应用

流匹配已成功应用于各种生成建模任务,例如:

  • 图像生成
  • 视频生成
  • 音频生成

流匹配的优势:

  • 可扩展到非常高维度。
  • 提供了一种关于扩散模型的替代观点。
  • 允许更直接地指定概率路径,从而实现更快的采样和/或改进生成。
  • 在训练和采样方面都很容易。

总结:

流匹配是一种用于训练连续归一化流的强大技术。它提供了一种灵活且可扩展的框架,用于学习从简单分布到复杂数据分布的转换。通过利用条件概率路径和向量场,流匹配避免了昂贵的模拟,并实现了高效的训练和采样。