文章阅读一:使用中学数学从头开始理解LLM
原文链接 本文中,我们讨论大型语言模型(LLMs)如何工作,从头开始 ———— 假设你仅知道两个数的加法和乘法。这篇文章是完全独立的。我们从用纸笔构建一个简单生成式AI开始,然后了解我们需要的一切,一边对现代LLMs和Transformer架构有一个深刻理解。本文将剔除机器学习中所有花里胡哨的东西,尽可能简单的表示一切:数字。我们仍然会在您阅读专业术语内容时,指出这些东西的名称,以束缚你的想法。 从加法/乘法到当今最先进的人工智能模型,在不假定其他知识或参考其他来源的情况下,这意味着我们涵盖了大量的内容。这不是一个玩具 LLM 解释–理论上,一个有决心的人可以从这里的所有信息中重新创建一个现代...
论文阅读八:一致性模型
摘要 虽然扩散模型在图像、音频和视频生成领域获得显著进展,但它们依赖于迭代采样过程,导致生成缓慢。为克服该限制,提出一致性模型。一致性模型直接映射噪声到数据,以生成高质量样本。通过设计,支持快速一步生成,同时允许多步采样,以平衡计算和采样质量。它们还支持零样本(zero-shot)数据编辑,例如图像恢复、着色和超分辨,而无需再这类任务上额外训练。一致性模型可以通过两种方式训练:(1)蒸馏预训练扩散模型,或者(2)作为独立生成模型。通过大量实验证明,它们优于现有扩散模型一步和几步采样的蒸馏技术,对于一步生成,获得CIFAR-10上3.55和ImageNet 64×6464\times6464×64 上6.20的先进FID水平。当独立训练时,一致性模型成为一个新系列的生成模型,在诸如CIFAR-10、ImageNet64x64和LSUN 256x256标准基准上,优于现有的一步、非对抗生成模型。 如下图,数据通过概率流常微分方程(PF-ODE)转为噪声。在PF-ODE轨迹上的任意点 xtx_txt...
论文阅读七:LLaMA-Factory:100多种语言模型的统一高效微调
摘要 高效的微调对于使大型语言模型(LLM)适应下游任务至关重要。然而,在不同的模型上实现这些方法需要付出巨大的努力。我们介绍LLAMAFACTORY,这是一个整合了一套尖端高效训练方法的统一框架。它提供了一种解决方案,可以灵活地定制100多个LLM的微调,而无需通过内置的web UI LLAMABOARD进行编码。我们实证验证了我们的框架在语言建模和文本生成任务上的效率和有效性。它已发布于 https://github.com/hiyouga/LLaMA-Factory ,并获得了25000多颗星和3000个fork。 引言 大型语言模型(LLM)(赵等人,2023)具有显著的推理能力,并赋予了广泛的应用,如问答(Jiang等人,2023b)、机器翻译(Wang等人,2023c;Jiao等人,2023a)和信息提取(Jiao等人(2023b))。随后,大量LLM被开发出来,并可通过开源社区访问。例如,Hugging...
论文阅读五:D-FINE:将DETRS中的回归任务重新定义为细粒度分布细化
摘要 我们介绍了D-FINE,这是一种强大的实时对象检测器,通过在DETR模型中重新定义边界框回归任务,实现了出色的定位精度。D-FINE包括两个关键组成部分:细粒度分布细化(FDR)和全局最优定位自蒸馏(GO-LSD)。FDR将回归过程从预测固定坐标转换为迭代细化概率分布,提供了一种细粒度的中间表示,显著提高了定位精度。GOLSD是一种双向优化策略,通过自蒸馏将定位知识从精细分布转移到较浅层,同时简化了较深层的残差预测任务。此外,D-FINE在计算密集型模块和操作中采用了轻量级优化,在速度和精度之间实现了更好的平衡。具体来说,D-FINE-L/X在NVIDIA T4 GPU上以124/78 FPS的速度在COCO数据集上实现了54.0%/55.8%的AP。在Objects365上进行预训练时,D-FINE-L/X的AP达到57.1%/59.3%,超过了所有现有的实时检测器。此外,我们的方法显著提高了各种DETR模型的性能,AP高达5.3%,额外参数和训练成本可以忽略不计。我们的代码和预训练模型:https://github.com/Peterande/D-FINE...
论文阅读四:CMs:简化,稳定和缩放连续时间一致性模型
摘要 一致性模型(CMs)是一类强大的基于扩散的生成模型,针对快速采样进行了优化。大多数现有的CMs都是使用离散化时间步长训练的,这会引入额外的超参数,并且容易出现离散化误差。虽然连续时间公式可以缓解这些问题,但它们的成功受到训练不稳定性的限制。为了解决这个问题,我们提出了一个简化的理论框架,该框架将之前扩散模型和CMs的参数化统一起来,确定了不稳定的根本原因。基于这一分析,我们介绍了扩散过程参数化、网络架构和训练目标方面的关键改进。这些变化使我们能够以前所未有的规模训练连续时间CMs,在ImageNet 512×512上达到1.5B参数。我们提出的训练算法仅使用两个采样步骤,在CIFAR-10上实现了2.06的FID得分,在ImageNet 64×64上实现了1.48的FID分数,在ImageNet...
扩散模型中的量化、加速和采样方法
1. 量化方法 核心思想: 量化方法旨在通过将模型参数和激活值从高精度转换为低精度来减小模型大小和计算量,从而提高模型效率。例如,将 FP32 精度的参数转换为 FP16 或 INT8 精度。 工作流程: 训练: 模型量化可以在训练过程中或训练后进行。 推理: 推理阶段使用量化后的模型,通常需要特定的硬件或软件支持。 对象: 模型参数和激活值。 优缺点: 优点: 减少内存占用,允许在资源受限的设备上部署模型。 降低计算量,提高推理速度。 降低功耗,延长电池寿命(尤其适用于移动设备)。 缺点: 可能导致精度损失,需要权衡模型大小/速度和性能。 需要仔细选择量化方法和精度,以最小化精度损失。 应用: 量化方法广泛应用于各种深度学习模型中,包括扩散模型,以提高效率并使其更易于部署。 关于扩散模型量化的额外信息: 来源中没有明确提及特定于扩散模型的量化方法。有关量化方法的更多信息来自外部知识,您可能需要独立核实。 2. 加速方法 核心思想: 加速方法旨在通过减少采样过程中的迭代次数或计算量来提高扩散模型的生成速度。 工作流程: 训练:...