论文阅读二十八:SAM2:分割图像和视频中的任何内容
我们提出分割一切模型SAM2,是解决图像和视频中快速视觉分割的基础模型。我们构建一个数据引擎,通过用户交互改进模型和数据,来收集迄今为止最大规模的视频分割数据集。我们的模型是简单的transformer架构,对于实时视频处理具有流式内存。SAM2在我们数据上训练,提供跨广泛任务范围的强大的性能。在视频分割中,我们观测到比先前方法更好的准确度,使用3倍少的的交互。在图像分割,我们的模型更加准确,且6倍快于SAM模型。我们相信我们的数据、模型和见解将成为视频分割及其相关感知任务的重要里程碑。 演示: https://sam2.metademolab.com 代码: https://github.com/facebookresearch/sam2 网站:...
论文阅读二十七:PINNs跨框架比较:JAX、TENSORFLOW和PYTORCH
摘要 物理信息神经网络(PINNs,Physics-Informed Neural Networks)已经成为用于遵循物理定律并解决非线性偏微分方程(PDEs)的关键技术。提高PINN实现的性能可以显著加快模拟的速度,并促进创新方法的创建。本文介绍了“PINNs-JAX”,这是一个创新的实现,它利用JAX框架来利用XLA编译器的独特功能。这种方法旨在提高PINN应用程序中的计算效率和灵活性。我们对PINN-JAX与TensorFlow V1、TensorFlow V2和PyTorch等广泛使用的框架中的传统PINN实现进行了全面比较,评估了六个不同示例的性能。这些问题包括连续问题、离散问题、正问题和逆问题。我们的研究结果表明,用JAX实现的PINN在更简单的例子中表现更好,但TensorFlow V2在应对大规模挑战方面具有潜在的优势,正如3D Navier-Stokes案例所示。为了支持协作开发和进一步研究,我们已将源代码公开于: https://github.com/rezaakb/pinns-jax...
论文阅读二十六:SEEDEDIT:将图像重新生成与图像编辑对齐
摘要 我们引入SeedEdit,一个扩散模型,可以使用任意文本提示修改给定图像。在我们看来,这项任务的关键是在保持原始图像(即图像重建)和生成新图像(即,图像再生成)之间获得最佳平衡。为此,我们从一个弱生成器(文本到图像模型)开始,在这两个方向之间创建不同的对,并逐渐将其对齐为一个强图像编辑器,在两个任务之间实现良好的平衡。SeedEdit可以实现比以前的图像编辑方法更多样化、更稳定的编辑能力,从而能够对扩散模型生成的图像进行连续修改。我们的网站是 https://team.doubao.com/seededit...
论文阅读二十五:MagicQuill:一个智能交互式图像编辑系统
摘要 作为一种高度实用的应用程序,图像编辑会遇到各种用户需求,因此优先考虑出色的易用性。在本文中,我们推出了MagicQuill,这是一个集成的图像编辑系统,旨在支持用户快速实现他们的创造力。我们的系统从一个流线型但功能强大的界面开始,使用户只需几笔就能表达他们的想法(例如,插入元素、擦除对象、更改颜色等)。然后,这些交互由多模态大型语言模型(MLLM)监控,以实时预测用户意图,从而绕过了提示输入的需要。最后,我们应用了强大的扩散先验,并通过精心学习的双分支插件模块进行了增强,以精确控制的方式处理编辑请求。请访问 https://magicquill.art/demo/...
论文阅读二十三:基于零样本知识测试的LLM幻觉推理
摘要 LLM幻觉,LLM偶尔会产生不忠实的文本,对其实际应用构成了重大挑战。大多数现有的检测方法依赖于外部知识、LLM微调或幻觉标记的数据集,并且它们不能区分不同类型的幻觉,而幻觉对于提高检测性能至关重要。我们引入了一个新的任务,幻觉推理,它将LLM生成的文本分为三类:对齐、未对齐和伪造。我们新颖的零样本方法评估LLM是否对给定的提示和文本有足够的知识。我们在新数据集上进行的实验证明了我们的方法在幻觉推理中的有效性,并强调了它对提高检测性能的重要性。...
论文阅读二十二:有限数据微调语言模型实用指南
摘要 使用预训练大型语言模型(LLMs)已经称为自然语言处理(NLP)中的事实标准,尽管它们需要大量数据。受最近以有限数据训练LLM为重点的研究激增的启发,特别是在低资源领域和语言中,本文调查了最近的迁移学习方法,以优化数据稀缺的下游任务中的模型性能。我们首先解决初始化和持续的预训练策略,以更好地利用未知领域和语言的先验知识。然后,我们研究如何在微调和少样本学习过程中最大限度地利用有限的数据。最后一节从特定任务的角度,回顾了适用于不同数据稀缺程度的模型和方法。我们的目标是为从业者提供实用的指导方针,以克服数据受限带来的挑战,同时突出未来研究的有前景的方向。论文地址 引言 预训练语言模型(PLMs)正在改变NLP领域,显示出学习和建模来自复杂和多样化领域的自然语言数据底层分布的出色能力(Han等人,2021)。然而,他们的训练需要大量的数据和计算资源,这在许多现实世界场景中可能是令人望而却步的(Bai et al.,2024),尤其是对于英语以外的语言和专业领域,例如医学(Crema et al.,2023;Van Veen et al.,2021)、化学(Jablonka et...
论文阅读二十一:通过近似因子分解克服强化学习中的维数诅咒
摘要 众所周知,强化学习(RL)算法存在维数灾难,这是指大规模问题往往导致样本复杂度呈指数级增长。常用解决方案是使用深度神经网络进行函数近似。然而,这种方式通常缺少理论保障。为了理论性地解决维数诅咒,我们观察到,许多真实世界问题显示出特定任务的结构,当适当利用时,可以改进RL的样本效率。基于这种见解,我们提出通过将原始马尔可夫决策过程(MDP)近似分解到较小的、独立演化的MDPs来解决维数诅咒。这种因子分解使得在基于模型和无模型的环境中开发样本高效的RL算法成为可能,后者涉及方差减少的Q学习变体。我们为这两种提出的算法提供了改进的样本复杂度保证。值得注意的是,通过MDP的近似因式分解利用模型结构,样本复杂性对状态动作空间大小的依赖性可以呈指数级降低。从数值上讲,我们通过在合成MDP任务和配备风电场的储能控制问题上的实验证明了我们提出的方法的实用性。论文地址 引言 近年来,强化学习已经成为未知环境中解决序列决策问题的流行框架,应用在不同领域,如机器人(Kober等,2013)、运输(Haydari &...
论文阅读二十:优化缩放LLM测试时间计算比缩放模型参数更有效
使LLM能够通过使用更多的测试时间计算来提高其输出,是构建可以在开放式自然语言上运行的一般自我改进代理的关键一步。本文研究了LLM中推理时间计算的缩放,重点回答了以下问题:如果允许LLM使用固定但非微不足道的推理时间计算,那么它在具有挑战性的提示下能提高多少性能?回答这个问题不仅对LLM的可实现性能有影响,而且对LLM预训练的未来以及如何权衡推理时间和预训练计算也有影响。尽管它很重要,但很少有研究试图了解各种测试时间推理方法的缩放行为。此外,目前的工作在很大程度上为其中一些策略提供了负面结果。在这项工作中,我们分析了两种主要的机制来扩展测试时间计算:(1)针对密集的、基于过程的验证者奖励模型进行搜索;以及(2)在测试时给出提示的情况下自适应地更新模型在响应上的分布。我们发现,在这两种情况下,缩放测试时间计算的不同方法的有效性因提示的难度而异。这一观察结果促使应用...
论文阅读十九:思维LLMS:思维生成的一般指导
摘要 LLM通常经过培训,能够回答用户问题或遵循指示,类似于人类专家的反应方式。然而,在标准的对齐框架内,它们缺少回答前显式思考的基本能力。思考对于需要推理和规划的复杂问题是重要的,但可以用于任意任务。我们提出了一种训练方法,在不使用额外人工数据的情况下,为现有的LLM配备这种思维能力,以便进行一般指导。我们通过迭代搜索和优化过程来实现这一点,该过程探索了可能的思维生成空间,使模型能够在没有直接监督的情况下学习如何思考。对于每一条指令,使用判断模型对候选思维进行评分,仅评估他们的反应,然后通过偏好优化进行优化。我们发现,这一程序在AlpacaEval和Arena...