论文阅读五十五:Transformer2:自适应LLMs
摘要 自适应大型语言模型(LLM)旨在解决传统微调方法带来的挑战,这些方法通常计算密集,处理各种任务的能力是静态的。我们介绍了Transformer2,这是一种新颖的自适应框架,通过选择性地仅调整LLM权重矩阵的奇异分量,实时调整LLM以适应看不见的任务。在推理过程中,Transformer2采用了两步机制:首先,调度系统识别任务属性,然后使用强化学习训练的特定于任务的“专家”向量被动态混合,以获得传入提示的目标行为。我们的方法优于LoRA等无处不在的方法,参数更少,效率更高。Transformer2展示了不同LLM架构和模式的多功能性,包括视觉语言任务。Transformer2代表了一次重大的飞跃,它提供了一种可扩展、高效的解决方案,用于增强LLM的适应性和特定任务的性能,为真正动态、自组织的人工智能系统铺平了道路。代码在 https://github.com/SakanaAI/self-adaptive-llms
论文阅读五十四:Titans:在测试时学习记忆
摘要 十多年来,人们对如何有效利用循环模型和注意力进行了广泛的研究。虽然循环模型旨在将数据压缩到固定大小的内存中(称为隐藏状态),但注意力允许关注整个上下文窗口,捕获所有标记的直接依赖关系。然而,这种更精确的依赖关系建模伴随着二次成本,将模型限制在固定长度的上下文中。我们提出了一种新的神经长期记忆模块,可以学习记忆历史背景,并在利用很久以前的信息的同时帮助注意力关注当前的上下文。我们证明,这种神经记忆具有快速并行训练的优点,同时保持了快速推理。从记忆的角度来看,我们认为注意力由于其有限的上下文但精确的依赖性建模而表现为短期记忆,而神经记忆由于其记忆数据的能力而表现为长期、更持久的记忆。基于这两个模块,我们介绍了一个新的架构系列,称为Titans,并提出了三种变体,以解决如何将内存有效地整合到这个架构中。我们在语言建模、常识推理、基因组学和时间序列任务方面的实验结果表明,Titans比Transformer和最近的现代线性递归模型更有效。与基线相比,它们还可以有效地扩展到大于2M的上下文窗口大小,在大海捞针任务中具有更高的精度。论文地址
论文阅读五十三:GAN已死;GAN万岁!现代GAN基线
摘要 人们普遍认为GAN难以训练,文献中的GAN架构充斥着经验技巧。我们提供了反对这一说法的证据,并以更有原则的方式建立了一个现代GAN基线。首先,我们推导出了一个行为良好的正则化相对论GAN损失,它解决了之前通过一系列特殊技巧解决的模式下降和不收敛问题。我们从数学上分析了我们的损失,并证明它允许局部收敛保证,这与大多数现有的相对论损失不同。其次,这种损失使我们能够抛弃所有临时技巧,用现代架构替换普通GAN中使用的过时骨干网。以StyleGAN2为例,我们提出了一个简化和现代化的路线图,该路线图产生了一个新的极简主义基线——R3GAN(“Re-GAN”)。尽管简单,但我们的方法在FFHQ、ImageNet、CIFAR和Stacked MNIST数据集上超越了StyleGAN2,并与最先进的GAN和扩散模型进行了比较。 论文地址
论文阅读五十一:ReFT:强化微调推理
摘要 增强大型语言模型(LLMs)推理能力的一种方式是使用思想连(CoT)注释执行有监督微调(SFT)。然而,该方式不能展示足够强的泛化能力,因为训练仅依赖于给定的CoT数据。在数学问题求解中,例如,在训练数据中每个问题仅有一个注释的推理路径。直观上,算法最好从来自给定问题的多个注释推理路径上学习。为了解决这个问题,我们提出一个简单但有效的方式,称为强化微调(ReFT)来增强学习的LLMs进行推理的泛化能力,使用数学问题求解作为示例。ReFT首先使用SFT预热模型,然后使用在线强化学习,本文中指定为PPO算法,来进一步微调模型,其中,给定问题,会自动采样大量推理路径,并且奖励自然地来自真实答案。在GSM8K、MathQA和SVAMP数据集上进行的广泛实验表明,ReFT的表现明显优于SFT,通过结合多数投票和重新排名等推理时间策略,可以进一步提高性能。请注意,ReFT通过从与SFT相同的训练问题中学习来获得改进,而不依赖于额外的或增强的训练问题。这表明ReFT具有更强的泛化能力。论文地址...
论文阅读五十:字节潜在Transformer:Patches比Tokens扩展性好
摘要 我们介绍了Byte Latent...
论文阅读四十八:免训练图神经网络和标签作为特征的力量
摘要 我们提出免训练图神经网络(TFGNNs),无需训练即可使用,也可以使用选择性的训练来改善,对于转导节点分类。我们首先提倡标签即特征(LaF),这是一种可接受但尚未探索的技术。我们证明了LaF可证明地增强了图神经网络的表达能力。我们基于这一分析设计了TFGNN。在实验中,我们证实了TFGNN在无训练环境中优于现有的GNN,并且比传统的GNN收敛的训练迭代次数少得多。 论文地址
论文阅读四十七:3DGS.zip:3D高斯泼溅压缩方法综述
摘要 3D 高斯泼溅(3DGS)已成为实时辐射场渲染的前沿技术,提供质量和速度的先进性能。3DGS将场景建模为三维高斯的集合,或“泼溅”,以及额外的属性优化以符合场景的集合和视觉特性。尽管它在渲染速度和图像保真度中的优势,3DGS受到其显著的存储和内存需要的限制。这些高需求使得3DGS对于移动设备或耳机不实际,减少它在计算机图形学重要领域中的应用。为解决这些挑战,并促进3DGS的实用,该先进报告(STAR)提供综合和细致的关于3DGS更加有效的压缩和压实技术的检测。我们分类当前方法为压缩技术,旨在以最小数据量获得的最高质量,和压实技术,旨在使用最少的高斯取得最优质量。我们介绍了所分析方法背后的基本数学概念,以及关键的实现细节和设计选择。我们的报告深入讨论了这些方法之间的异同,以及它们各自的优缺点。我们根据关键性能指标和数据集建立了比较这些方法的一致标准。具体而言,由于这些方法是在短时间内并行开发的,目前还没有全面的比较。这项调查首次提出了评估3DGS压缩技术的统一标准。为了促进对新兴方法的持续监测,我们维护了一个专门的网站,该网站将定期更新新技术和对现有发现的修订...
综述十一:大模型微调方法
大型语言模型微调方法详解(SFT、PT、RM、PPO、DPO 和 KTO) 以下是对几种关键的大型语言模型(LLM)微调方法的比较,包括重要的“RM”(奖励模型)。 1. SFT(监督式微调) 核心思想: 经典的监督学习。使用输入-输出对(提示和期望的回复)的数据集训练 LLM。 数据: 带有清晰的示例,说明模型应该如何回应的标记数据。 过程: 调整 LLM 的权重,以最大限度地减少其预测与数据集中正确答案之间的差异。 优点: 易于实现,通常提供强大的基线性能。 缺点: 需要高质量的标记数据,在捕捉细微的人类偏好或复杂的任务方面可能效果较差。 2. PT(提示微调) 核心思想: 不是大幅度改变 LLM 的权重,而是在输入中添加一小组“提示”参数。 数据: 类似于 SFT,使用输入-输出对。 过程: 只训练提示参数,引导 LLM 给出更好的回应,而不改变其核心知识。 优点: 非常节省参数,适用于资源有限的情况。 缺点: 对于非常复杂的任务,可能无法达到与完全微调(SFT)相同的性能水平。 3. RM(奖励模型) 核心思想: 训练一个单独的模型来预测给定 LLM...