论文阅读十八:液体时间常数网络
摘要 我们介绍一类新的连续时间循环神经网络模型。我们不是通过隐式非线性来声明学习系统的动态,而是构建通过非线性互连门调制的线性一阶动态系统网络。由此产生的模型表示具有与其隐藏状态耦合的变化(即液体)时间常数的动态系统,其输出由数值微分方程求解器计算。这些神经网络展示了稳定和有界的行为,在神经常微分方程族中产生优越的表现力,提高了在时间序列预测任务上的性能。为了证明这些特性,我们首先采用理论方法来寻找它们动态性上的界限,并通过在潜在轨迹空间中测量的轨迹长度计算它们的表达能力。我们然后执行一系列时间序列预测实验来展示液体时间常数网络(LTCs)相较于经典和现代RNNs的近似能力。 引言 具有由常微分方程(ODEs)确定的连续时间隐藏状态的循环神经网络(RNN),是用于建模医药、工业和商业环境中无处不在的时间序列数据的有效算法。神经ODE的状态,x(t)∈RDx(t)\in R^Dx(t)∈RD ,由此方程的解定义: dx(t)/td=f(x(t),I(t),t,θ)dx(t)/td =...
论文阅读十六:SiT:利用可扩展的插值Transformers探索基于流和扩散的生成模型
摘要。 我们提出可扩展插值Transfomrers(SiT),这是建立在扩散Transformers(DiT) 骨干上的一类生成模型。插值框架,比标准扩散模型,允许以一种更为灵活的方式连接两个分布,使得各种影响构建在动态性传输上的生成模型设计选择的模块化研究成为可能:离散或连续时间学习、目标函数、连接分布的插值,和确定性或随机采样。通过仔细引入上述成分,SiT在条件ImageNet...
论文阅读十五:随机自回归视觉生成
摘要 这篇文章提出用于视觉生成的随机自回归模型(RAR),在图像生成任务上达到最先进的性能,同时保持与语言模型框架完全兼容。提出的RAR很简单:在具有下一个标记预测目标的标准自回归训练过程中,输入序列(通常以栅格形式排序)以概率 r 随机排列为不同的分解顺序,其中 r 从 1 开始并在训练过程中线性衰减为 0。这种退火训练策略使模型能够学习最大化所有分解顺序的预期似然,从而有效提高模型建模双向上下文的能力。重要的是,RAR保留自回归建模框架的完整性,确保与语言建模完全兼容,同时极大改善图像生成的性能。在ImageNet-256基准,RAR取得1.48的FID分数,不仅超越先前的现金自回归图像生成器,还优于领先的基于扩散和基于掩码transformer的方法。代码和模型在: https://github.com/bytedance/1d-tokenizer...
论文阅读十四:TOKENFORMER:用标记化模型参数重新思考Transformer缩放
摘要 Transformers已经成为基础模型的主导架构,由于它们在各种领域的优越性能。然而,这些模型的大量扩展成本仍然是一个值得关注的问题。这个问题主要起源于它们依赖于线性投影中的固定参数数量。当引入架构修改(如,通道维度),整个模型通常需要重新开始训练。随着模型尺寸继续增长,这种策略导致不但增长的高计算成本,从而变得不可持续。为了克服这个问题,我们引入Tokenformer,一个原生可扩展的架构,其注意力机制不仅用于输入标记之间的计算,而且用于标记和模型参数之间的交互,从而增强了架构的灵活性。通过将模型参数看待为标记,我们将Transformers中所有线性投影替换为我们的标记-参数注意力层,其中输入标记作为查询,模型参数作为键和值。这种重构允许渐进和高效扩展,而无需从头再训练。我们的模型通过增量添加新的键值参数对从124M扩展到1.4B参数,取得可比拟于从头开始训练的Transformers的性能,同时极大减少训练成本。代码和模型在:https://github.com/Haiyang-W/TokenFormer...
论文阅读十三:混合Transformer:一种用于多模态基础模型的稀疏可扩展架构
摘要 大型语言模型(LLMs)的发展已经扩张到多模态系统,能够在一个统一的框架内处理文本、图像和语言。相比训练仅文本的LLMs,训练这些模型需要非常大的数据集和计算资源。为克服这种扩张挑战,我们引入混合Transformer(MoT),一种稀疏多模态transformer架构,显著减少预训练计算成本。MoT通过模态解耦模型的非嵌入参数——包括前馈网络、注意力矩阵和层归一化——在整个输入序列上实现了具有全局注意力的特定模态处理。我们在多种设置和模型尺度上评估MoT。在Chameleon 7B设置上(自回归文本图像生成),MoT仅使用55.8%的FLOPs来匹配密集基准的性能。当扩展到包含语言,MoT仅使用37.2%的FLOPs达到可比拟密集基准的语音性能。在Transfusion设置中,其中文本和图像使用不同目标训练,7B MoT使用三分之一的FLOPs匹配密集基准的图像模态性能,760M...
论文阅读十:BitNet a4.8:1位LLM的4位激活
摘要 最近对1位大型语言模型(LLM)的研究,如BitNet b1.58[MWM+24],为降低LLM的推理成本同时保持其性能提供了一个有前景的方向。在这项工作中,我们引入了BitNet a4.8,为1位LLM启用4位激活。BitNet a4.8采用混合量化和稀疏化策略来减轻异常信道引入的量化误差。具体来说,我们利用4位激活作为注意力和前馈网络层的输入,同时对中间状态进行稀疏化,然后进行8位量化。大量实验表明,BitNet a4.8在同等训练成本下实现了与BitNet b1.58相当的性能,同时通过启用4位(INT4/FP4)内核实现了更快的推理。此外,BitNet a4.8仅激活55%的参数,并支持3位KV缓存,进一步提高了大规模LLM部署和推理的效率。论文地址 BitNet a4.8 的概览,包括权重和激活量化。所有参数都是三元的(即 BitNet b1.58 [MWM+24] 中的 1.58 位)。我们使用混合量化和稀疏化策略来处理某些 Transformer...