综述十二:视频生成模型
模型
STIV:Scalable Text and Image Conditioned Video Generation (24/12)
论文地址
核心思想:视频生成领域取得了显著进展,但仍然迫切需要一个清晰、系统的配方来指导稳健和可扩展模型的开发。在这项工作中,我们提出了一项全面的研究,系统地探讨了模型架构、训练配方和数据管理策略的相互作用,最终提出了一种简单且可扩展的文本图像条件视频生成方法,称为STIV。我们的框架通过帧替换将图像条件集成到扩散Transformer(DiT)中,同时通过图像-文本条件无分类的联合引导引入文本条件。这种设计使STIV能够同时执行文本到视频(T2V)和文本图像到视频(TI2V)任务。此外,STIV可以很容易地扩展到各种应用,如视频预测、帧插值、多视图生成和长视频生成等。通过对T2I、T2V和TI2V的全面消融研究,STIV尽管设计简单,但表现出了强大的性能。分辨率为5122的8.7B型号在VBench T2V上达到了83.1,超过了CogVideoX-5B、Pika、Kling和Gen-3等领先的开源和闭源型号。同样大小的模型在5122分辨率的VBench I2V任务上也实现了90.1的最新结果。通过为构建尖端视频生成模型提供透明和可扩展的配方,我们的目标是为未来的研究提供支持,并加快向更通用、更可靠的视频生成解决方案迈进。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Model The World!