流匹配与扩散模型的联系和区别

核心思想

  • 扩散模型: 扩散模型的核心思想是通过逆转一个逐渐加噪的过程来从分布中采样。 模型通过逐步从信号中去除噪声来生成样本,其训练目标可以表示为重新加权的变分下界。
  • 流匹配: 流匹配是一种基于连续归一化流 (CNF) 的生成模型的新范式。 其核心思想是使用固定条件概率路径的向量场回归来训练 CNF。 流匹配允许使用各种概率路径来监督 CNF 训练,包括扩散路径和最优传输 (OT) 路径。

模型架构

  • 扩散模型: 扩散模型通常使用 UNet 架构,该架构由一系列残差层和下采样卷积组成,然后是一系列具有上采样卷积的残差层,跳过连接连接具有相同空间大小的层。
  • 流匹配: 流匹配使用 CNF 作为其模型架构。 CNF 是由一系列可逆变换组成的生成模型,这些变换可以将简单分布(例如,标准正态分布)转换为复杂数据分布。 流匹配中的 CNF 可以使用各种架构,例如 UNet 或基于 Transformer 的架构。

主要数学公式

  • 扩散模型: 扩散模型的主要数学公式包括正向加噪过程和逆向去噪过程。
    • 正向加噪过程使用预定义的方差表逐步将高斯噪声添加到数据中,将数据分布转换为近似高斯噪声分布。
    • 逆向去噪过程使用神经网络来学习从噪声样本中预测去噪样本。 训练目标通常是均方误差损失或去噪分数匹配损失。
  • 流匹配: 流匹配的主要数学公式包括连续性方程、条件流匹配 (CFM) 损失和条件概率路径。
    • 连续性方程用于描述概率密度函数随时间的演化。
    • CFM 损失用于训练 CNF,使其生成的流与目标概率路径匹配。
    • 条件概率路径定义了从噪声样本到数据样本的转换过程。 流匹配可以使用各种条件概率路径,包括高斯路径和 OT 路径。

应用

  • 扩散模型: 扩散模型已成功应用于各种生成任务,包括图像合成、视频生成、音频合成、3D 渲染和生成,以及多模态生成。
  • 流匹配: 流匹配是一种相对较新的方法,但它已在图像生成任务中显示出良好的结果。 它可以应用于与扩散模型类似的任务,并且由于其灵活性和对各种概率路径的支持,它可能具有比扩散模型更广泛的应用范围。

区别

  • 训练方法: 扩散模型通常使用基于分数匹配的损失函数进行训练,而流匹配使用 CFM 损失函数来训练 CNF。
  • 概率路径: 扩散模型通常使用预定义的扩散路径,而流匹配允许使用各种概率路径,包括扩散路径和 OT 路径。 这为流匹配提供了更大的灵活性,并可能导致更有效的训练和采样过程。
  • 效率: 流匹配可以比扩散模型更有效地进行训练和采样,尤其是当使用 OT 路径时。 这是因为 OT 路径可以提供比扩散路径更直接的从噪声到数据的转换。

联系

  • 扩散路径: 流匹配可以使用扩散路径作为其条件概率路径。 在这种情况下,流匹配可以被视为训练扩散模型的替代方法。
  • 生成模型: 扩散模型和流匹配都是生成模型,其目标是从数据分布中生成新样本。 它们都利用了深度学习技术来学习数据分布的复杂结构。