论文阅读三十八:TaQ-DiT:用于扩散Transformer的时间感知量化
摘要 基于Transformer的扩散模型,称为扩散Transformers(DiTs),已经在图像和视频生成任务中取得先进性能。然而,它们的大型模型尺寸和缓慢推理速度限制它们的实际应用,呼唤模型压缩方法,如量化。不幸地是,现有DiT量化方法忽略了(1)重建的影响和(2)跨不同层的不同的量化敏感度,阻碍它们的性能。为了解决这些问题,我们提出创新的用于DiTs的时间感知量化(TaQ-DiT)。具体地,(1)当在量化阶段分别重建权重和激活,我们观察到不收敛问题,并引入联合重建方法来解决这个问题。(2)我们发现Post-GELU激活对量化尤其敏感,因为它们在不同的去噪步骤中具有显著的可变性,并且在每个步骤中都存在极端的不对称性和变化。为此,我们提出时变感知变换来促进更有效的量化。实现结果表明,当量化DiT的权重到4位和激活到8位(W4A8)时,我们的方法显著超越先前量化方法。 引言 由于分层架构的高效性,基于 UNet 的扩散模型(DM)[1]...
论文阅读三十五:WHALE:面向具身决策的可推广和可扩展的世界模型
摘要 世界模型在具身环境的决策中至关重要,实现无成本的探索,若在真实世界将是昂贵的。为了促进有效决策,世界模型必须具备强大的泛化能力来支持分布外(OOD)区域的忠实想象,且提供可靠的不确定性估计来评估模拟经验的置信度,两者都都先前扩展方法提出了重大挑战。本文引入WHALE,学习可泛化世界模型的框架,包含两种关键技术:行为调节(behavior-conditioning)和回溯推断(retracing-rollout)。行为调节解决策略分布漂移,世界模型泛化误差的主要来源之一,而回溯推断无需模型集成可实现有效的不确定性估计。这些技术是通用的,可以与任意神经网络架构结合来进行世界模型学习。结合这两种技术,我们推出Whale-ST,一个可扩展的基于时空transformer的世界模型,具有强大的泛化能力。我们展示了Whale-ST 在模拟任务中的优越性,通过评估值估计精度和视频生成保真度。此外,我们测试了我们不确定估计技术的有效性,它在全离线场景中增强了基于模型的策略优化。进一步地,我们提出Whale-X,一个414M参数世界模型,在来自 Open...
论文阅读三十四:DuQuant:通过双重变换分布异常值可以增强量化LLM
大型语言模型(LLM)的量化面临着重大挑战,特别是由于存在阻碍高效低位表示的异常值激活。传统方法主要是解决正常异常值(Normal Outliers),即所有标记中具有相对较大幅度的激活。然而,这些方法难以平滑显示明显更大值的巨大异常值,这导致低位量化的性能显著下降。本文中,我们介绍DuQuant,一种新的方法,利用旋转和置换变换来更有效的消除大量和正常异常值。首先,DuQuant由构建旋转矩阵开始,使用特定的异常值维度作为先验知识,使用逐块旋转来重分布异常值到相邻通道。第二,我们进一步使用锯齿置换(zigzag permutation)来平衡块间的异常值分布,从而减少逐块方差。后续的旋转进一步平滑激活环境,增强了模型表现。DuQuant简化量化过程,且善于管理异常值,在多个任务上超越各种大小和类型的LLMs的先进基准,即便是4位权重激活量化。我们的代码在: https://github.com/Hsu1023/DuQuant...
论文阅读三十二:广义SAM:可变输入图像尺寸的SAM的高效微调
摘要 有大量近期研究关于改进微调基础模型的效率。本文中,我们提出一种新颖的高效微调方法,允许SAM的输入图像大小是可变的。SAM是用于图像分割的强大基础模型,训练在巨大数据集上,但它需要微调来识别任意类别。SAM的输入图像尺寸固定在 1024×10241024\times 10241024×1024 ,导致训练中的大量计算需求。此外,固定输入图像尺寸可能导致图像信息损失,即,由于固定的宽高比。为解决这个问题,我们提出广义SAM(GSAM)。不同于先前方法,GSAM是第一个在SAN训练中应用随机裁剪,从而显著降低训练的计算成本。在各种类型和各种像素数的数据集上进行的实验表明,GSAM 可以比 SAM 和其他 SAM 微调方法更有效地进行训练,实现相当或更高的准确率。我们的代码: https://github.com/usagisukisuki/G-SAM...
论文阅读三十一:3D高斯溅射用于实时辐射场渲染
辐射场方法最近彻底改变了用多张照片或视频捕获的场景的新颖视图合成。然而,实现高视觉质量仍然需要训练和渲染成本高昂的神经网络,而最近更快的方法不可避免地会以速度换取质量。对于无界和完全场景(不是独立物体)和1080p分辨率渲染,当前没有方法可以取得实时显示速率。我们引入三个关键因素,允许我们取得先进视觉质量,同时保持有竞争力的训练次数,并且重要的是,允许1080分辨率的高质量实时( ≥30fps\ge 30 fps≥30fps...
论文阅读三十:Mamba2:Transformers are SSMs
摘要 虽然Transformers已经成为深度学习在语言建模中成功的主要架构,状态空间模型(SSMs),如Mamba,近期被证明在小到中尺寸匹配或超越Transformers。我们证明,这些模型系列实际上是非常紧密相关的,并在SSMs和注意力变体之间开发一个丰富的理论联系框架,通过对一类研究良好的结构化半可分矩阵的各种分解来联系。我们的状态空间对偶性(SSD)框架允许我们设计新的架构(Mamba-2),其核心层是Mamba的选择性SSM的优化,速度快2-8倍,同时继续在语言建模中与Transformers具有可比性。...
论文阅读二十九:Llama3
当今人工智能(AI)系统由基础模型驱动。本文介绍一组新的基础模型,称为Llama3。它是一群语言模型,原生支持多语言、编码、推理和工具使用。我们最大的模型是具有405B参数和上下文窗口达到128K标记的密集Transformer。本文展示Llama3的大量实验评估。我们发现,Llama3在大量任务上提供了与GPT-4等领先语言模型相当的质量。我们公开发布Llama3,包括预训练和后训练的405B参数语言模型和我们用于输入和输出安全的Llama Guard 3模型版本。本文还介绍了我们通过组合方法将图像、视频和语音功能集成到Llama3中的实验结果。我们观察到,这种方法在图像、视频和语音识别任务上与最先进的技术具有竞争力。结果模型尚未广泛发布,因为它们仍在开发中。 Website:...