主要扩散模型及其相关类别
1.基于分数匹配的扩散模型
● 噪声条件评分网络 (NCSN): 这是一种早期的基于分数匹配的扩散模型,它使用神经网络来学习数据分布的评分函数。
● 潜空间评分生成模型 (LSGM): LSGM 使用变分自编码器 (VAE) 将数据压缩到潜空间,然后在潜空间中应用评分匹配来学习数据分布。
● 基于分数的随机微分方程 (Score-SDE): Score-SDE 使用随机微分方程 (SDE) 来描述扩散过程,并使用神经网络来学习 SDE 的漂移项,该漂移项与数据分布的评分函数相关。
● ScoreFlow: ScoreFlow 通过最大化似然函数的上界来训练基于分数的扩散模型。
2.潜变量模型
● 潜扩散模型 (LDM): LDM 使用预训练的 VAE 将图像压缩到潜空间,然后在潜空间中应用扩散模型来生成图像。这种方法可以提高训练和推理效率,并生成更高质量的图像。
3.条件引导的扩散模型
● 引导扩散 (GLIDE): GLIDE 使用分类器引导来控制扩散模型的生成过程,使其生成符合特定条件的图像。
● 分类器引导扩散 (CfDG): CfDG 是一种改进的分类器引导方法,它可以更有效地将条件信息整合到扩散模型中。
● 稳定扩散 (Stable Diffusion): Stable Diffusion 是一种流行的文本到图像扩散模型,它使用 LDM 和 CfDG 来生成高质量的图像。
4.基于 Transformer 的扩散模型
● U-ViT: U-ViT 将 Transformer 模块引入到 U 形结构中,作为扩散模型的主干网络,它将所有输入视为 token,并在浅层和深层之间使用长跳跃连接。
● 扩散 Transformer (DiT): DiT 使用视觉 Transformer (ViT) 作为主干网络来代替 U-Net,并进一步证明了 Transformer 在图像生成任务中的可扩展性。
● PixArt-α: PixArt-α 简化了扩散 Transformer 中计算密集的类条件分支,方法是加入交叉注意模块来注入通过 T5 编码的文本条件。
5.基于状态空间模型 (SSM) 的扩散模型
● Mamba: Mamba 结合了 SSM 架构,并提出了硬件感知算法,可实现高效的训练和推理。
● DiM: DiM 引入 Mamba 作为扩散主干网络,用于生成高分辨率图像。
● ZigMa: ZigMa 通过在图像中加入基于连续性的归纳偏差,使 Mamba 模块适用于二维图像,并通过执行三维序列的时空分解,将其扩展到视频生成任务。
类别之间的关系:
这些类别之间存在着一些联系。例如,许多基于分数匹配的扩散模型也使用了潜变量模型,例如 LSGM 和 LDM。条件引导的扩散模型可以使用各种主干网络,包括基于 U-Net、Transformer 或 SSM 的网络。