概述

去噪扩散概率模型(DDPM)、基于分数的生成模型(SGM)和随机微分方程(SDE)都是强大的生成模型工具,它们之间有着密切的联系。DDPM 和 SGM 可以被视为 SDE 框架下的特定实例,而 SDE 为理解和改进扩散模型提供了一个统一的数学框架。

核心思想

  • DDPM:DDPM 的核心思想是通过逆转一个逐渐加噪的过程来从分布中采样。模型通过学习从噪声样本中预测去噪样本,逐步从信号中去除噪声来生成样本。其训练目标可以表示为重新加权的变分下界。
  • SGM:SGM 使用数据分布的分数(即对数概率密度的梯度)来学习生成模型。这些模型通过使用分数来引导采样过程,从简单的噪声分布开始生成样本。
  • SDE:SDE 用于对包含随机成分的系统进行建模。在生成模型的背景下,SDE 用于描述正向加噪过程和逆向去噪过程。DDPM 和 SGM 中的正向过程都是该 SDE 的离散化。

主要数学公式

  • DDPM:DDPM 的主要数学公式包括正向加噪过程逆向去噪过程

    • 正向加噪过程使用预定义的方差表逐步将高斯噪声添加到数据中,将数据分布转换为近似高斯噪声分布。
    • 逆向去噪过程使用神经网络来学习从噪声样本中预测去噪样本。训练目标通常是均方误差损失或去噪分数匹配损失。
  • SGM:SGM 的主要数学公式包括分数匹配朗之万动力学

    • 分数匹配用于训练模型以估计数据分布的分数。
    • 朗之万动力学是一种用于从概率分布中采样的方法,它使用分数来引导采样过程。
  • SDE:SDE 的一般形式为:

    1
    dx = f(x, t)dt + g(t)dw

    其中:
    * x 是时间 t 时的状态。
    * f(x, t) 是漂移函数,它决定了过程的确定性部分。
    * g(t) 是扩散函数,它决定了过程的随机性强度。
    * w 是标准维纳过程(布朗运动),它为过程引入了随机性。

工作流程

  • DDPM
    1. 训练: 使用数据集训练神经网络,学习从噪声样本中预测去噪样本。
    2. 生成: 从一个简单的噪声分布开始,逐步对噪声进行去噪,直到生成最终的样本。
  • SGM:
    1. 训练: 使用分数匹配来训练神经网络,学习数据分布的分数。
    2. 生成: 从一个简单的噪声分布开始,使用朗之万动力学进行采样,并利用学习到的分数来引导采样过程。
  • SDE:
    1. 定义正向和反向 SDE,分别描述加噪和去噪过程。
    2. 使用数值方法来模拟 SDE,例如欧拉-丸山方法。

优缺点

  • DDPM
    • 优点: 简单易懂,训练稳定,生成高质量样本。
    • 缺点: 采样速度慢,需要多次迭代才能生成最终样本。
  • SGM:
    • 优点: 可以使用各种采样方法,灵活度高。
    • 缺点: 训练可能不稳定,需要仔细调整超参数。
  • SDE:
    • 优点: 为扩散模型提供了一个统一的数学框架,可以帮助我们更深入地理解这些模型的工作原理,并开发新的改进方法。
    • 缺点: 对数学要求较高,数值模拟可能很复杂。

对象和应用

  • DDPM: 主要应用于图像、视频、音频等连续数据的生成任务。
  • SGM: 应用范围更广,可以用于生成图像、音频、分子结构等各种类型的数据。
  • SDE: 主要用于描述和分析扩散模型,以及设计新的采样方法。

总结

DDPM、SGM 和 SDE 都是强大的生成模型工具,它们之间有着密切的联系。DDPM 和 SGM 可以被视为 SDE 框架下的特定实例,而 SDE 为理解和改进扩散模型提供了一个统一的数学框架。 通过将 DDPM 和 SGM 表示为 SDE,我们可以更深入地理解这些模型的工作原理,并开发新的改进方法。

其他

  • DDPM 中使用的反向过程参数化建立了扩散模型与多个噪声级别的去噪分数匹配和退火朗之万动力学采样的联系。
  • 虽然基于分数的生成模型和 DDPM 类似,但 DDPM 允许直接评估对数似然,并且训练过程使用变分推理明确地训练了朗之万动力学采样器。
  • 基于分数的生成模型的模型架构,通常使用类似于 DDPM 的架构,例如 UNet。