综述十二:视频生成模型
模型 STIV:Scalable Text and Image Conditioned Video Generation (24/12) 论文地址 核心思想:视频生成领域取得了显著进展,但仍然迫切需要一个清晰、系统的配方来指导稳健和可扩展模型的开发。在这项工作中,我们提出了一项全面的研究,系统地探讨了模型架构、训练配方和数据管理策略的相互作用,最终提出了一种简单且可扩展的文本图像条件视频生成方法,称为STIV。我们的框架通过帧替换将图像条件集成到扩散Transformer(DiT)中,同时通过图像-文本条件无分类的联合引导引入文本条件。这种设计使STIV能够同时执行文本到视频(T2V)和文本图像到视频(TI2V)任务。此外,STIV可以很容易地扩展到各种应用,如视频预测、帧插值、多视图生成和长视频生成等。通过对T2I、T2V和TI2V的全面消融研究,STIV尽管设计简单,但表现出了强大的性能。分辨率为5122的8.7B型号在VBench...
综述十:多模态模型
模型 基础模型 LLaVA: Visual Instruction Tuning (23/04) 论文地址 代码 核心思想:指令调优大型语言模型(LLMs)使用机器生成指令遵循数据,被证明在新任务上提升零样本能力,但这一想法在多模态领域的探索较少。提出第一个尝试,使用仅语言GPT-4来生成多模态语言图像指令遵循数据。通过在这种生成数据上指令调优,引入LLaVA:大型语言和视觉助手,一种端到端训练的大型多模态模型,连接视觉编码器和LLM,用于通用用途视觉和语言理解。为促进在视觉指令遵循上的进一步研究,构建两个具有多样性和挑战性的面向应用任务的评估基准。 Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond...
论文阅读四十五:流式深度强化学习
摘要 自然智能以连续流的方式处理经验,每时每刻都在实时感知、行动和学习。流式学习是Q-learning和TD等经典强化学习(RL)算法的工作方式,它通过使用最新样本而不存储来模仿自然学习。这种方法也非常适合资源受限、通信受限和隐私敏感的应用程序。然而,在深度 RL 中,学习者几乎总是使用批量更新和重放缓冲区,这使得它们的计算成本很高,而且与流式学习不兼容。虽然批量深度 RL 的盛行通常归因于其采样效率,但流式深度 RL 的缺失还有一个更关键的原因,那就是它经常出现不稳定性和学习失败,我们称之为流式障碍。本文介绍了stream-x 算法,它是第一类在预测和控制方面都克服了流障碍的深度 RL 算法,并且与批处理 RL 的样本效率相匹配。通过在 Mujoco Gym、DM Control Suite 和 AtariGames 中的实验,我们证明了现有算法中的流障碍,并利用我们的stream-x算法:流 Q、流 AC 和流 TD 成功实现了稳定学习,在 DM Control Dog...
论文阅读四十四:用于高效细致曲面重建的二次高斯泼溅
摘要 最近,3D高斯泼溅(3DGS)因其在神经辐射场(NeRF)之上的卓越的渲染质量和速度而受到关注。为了解决3DGS在曲面表示中的限制,2D高斯泼溅(2DGS)引入圆盘(disks)作为场景基元,来建模和重构来自多视图图像的几何图形。然而,圆盘的一阶线性近似常常导致过平滑的结果。我们提出二次高斯泼溅(QGS),一种新方法,它用二次曲面替代圆盘,增强了几何拟合。QGS在非欧空间定义高斯分布,允许基元捕获更复杂的纹理。作为二阶曲面近似,QGS还渲染空间曲率来指导法线一致性项,来有效减少过平滑。而且,QGS是2DGS的泛化版本,取得更准确和细致的重建,已由DTU和TNT上的实验验证,展示了它超越了几何重建中大多数先进方法的有效性。我们的代码将会作为开源发布。项目在:...
论文阅读四十三:测试时高效学习:LLMs的主动微调
摘要 微调语言模型的近期努力常常依赖于自动数据选择,通常使用来自大型数据集的最近邻检索。然而,我们理论性说明,这种方法倾向于选择冗余数据,限制了它的效率,甚至有损性能。为此,我们引入SIFI,一种数据选择算法,旨在减少给定提示模型响应的不确定性,它统一了来自检索和主动学习的思想。鉴于最近邻检索常常在存在信息重复时失败,SIFT考虑到信息重复,并优化选择样本的整体信息增益。我们的评估重点是在测试时对Pile数据集上的提示特定语言建模进行微调,并表明SIFT在计算开销最小的情况下始终优于最近邻检索。此外,我们证明了我们的不确定性估计可以预测测试时间微调的性能增益,并利用这一点开发了一种自适应算法,该算法将测试时间计算与实现的性能增益成比例。我们提供了activeft(主动微调)库,可以作为最近邻检索的直接替代品。 论文地址
论文阅读四十二:1位AI架构:部分1.1,基于GPU的快速无损BitNet b1.58推理
1位大语言模型(LLM)的最新进展,如BitNet[WMD+23]和BitNet b1.58[MWM+24],为提高LLM在速度和能耗方面的效率提供了一种有前景的方法。这些发展还使本地LLM能够在各种设备上部署。在这项工作中,我们介绍了bitnet.cpp,这是一个量身定制的软件栈,旨在释放1位LLM的全部潜力。具体来说,我们开发了一组内核来支持CPU上三进制BitNet b1.58 LLM的快速无损推理。大量的实验表明,bitnet.cpp在各种型号的CPU上实现了显著的加速,在x86 CPU上从2.37倍到6.17倍不等,在ARM CPU上从1.37倍到5.07倍不等。该代码可在 https://github.com/microsoft/BitNet 上获得。 bitnet.cpp bitnet.cpp是1位LLM(例如bitnet b1.58模型)的推理框架。它提供无损推理,同时优化速度和能耗。bitnet.cpp的初始版本支持CPU上的推理。 如图1所示,bitnet.cpp在ARM...
论文阅读四十:大型视觉编码器的多模态自回归预训练
摘要 我们引入一种用于大型视觉编码器预训练的新方法。基于视觉模型自回归预训练的最新进展,我们扩展该架构到多模态设置,即,图像和文本。本文中,我们展示AIMv2,一组通用视觉编码器,特点是简单的预训练、可扩展性,和一系列下游任务中的卓越的性能。其实现是通过将视觉编码器和多模态解码器配对,自回归地生成原始图像块和文本标记。我们的编码器不仅在多模态评估方面表现出色,而且在定位、接地(grounding)和分类等视觉基准方面也表现出色。值得注意的是,我们的 AIMV2-3B 编码器在 ImageNet-1k 的冻结躯干上达到了 89.5% 的准确率。此外,AIMV2 在不同环境下的多模态图像理解方面始终优于最先进的对比模型(如 CLIP、SigLIP)。 论文地址
论文阅读三十九:SAMURAI:用于零样本视觉追踪的具有运动感知记忆的自适应SAM
摘要 分割一切模型 2(SAM2)在目标分割任务上已经展示强大性能,但在视觉目标追踪中面临挑战,尤其当处理具有快速移动或自遮挡的物体的拥挤场景时。此外,原始模型中固定窗口的记忆方法未考虑选择用于下一帧调节的图像特征的记忆的质量,导致视频中的误差传播。本文介绍SAMURAI,SAM2的增强适应性版,专为视觉目标跟踪而设计。通过结合时间运动线索和提出的运动感知记忆选择机制,SAMURAI有效地预测目标运动,并优化掩码选择,无需再训练或微调,取得稳健精确追踪。SAMURAI实时操作,并在各种基准数据集上展示强大的零样本性能,说明了它的无需微调的泛化能力。评估中,SAMURAI在现有追踪器的成功率和精度上取得显著改进, LaSOTextLaSOT_{ext}LaSOText上增益为 7.1%, GOT-10k上增益3.5%。而且,它相较于LaSOT上的全监督方法取得竞争性的结果,突出了它在复杂追踪场景的健壮性,以及它在真实世界动态环境应用上的潜力。代码和结果在: https://github.com/yangchris11/samurai...