发布于 1天前

数据减少超千倍，500美金就可训练一流视频模型，港城、华为Pusa来了

FVDM & Pusa 一作：刘耀芳目前在香港城市大学攻读博士学位，导师为著名数学家 Prof. Raymond Chan (陈汉夫) 及 Prof. MOREL Jean-Michel。他也曾在腾讯 AI Lab 实习，主导 / 参与 EvalCrafter , VideoCrafter 等工作，其研究兴趣包括扩散模型，视频生成等；项目主管：刘睿，香港中文大学 MMLab 博士，华为香港研究所小艺团队技术负责人。

扩散模型为图像合成带来了革命，其向视频领域的延伸虽潜力巨大，却长期受困于传统标量时间步对复杂时序动态的束缚。我们去年提出的帧感知视频扩散模型 (FVDM)，通过引入向量化时间步变量 (VTV)，赋予每一帧独立的时间演化路径，从根本上解决了这一难题，显著提升了时序建模能力。

然而，范式的转变需要更多实践的检验和普及。为此，我们与华为香港研究所小艺团队合作进一步推出了 Pusa 项目。Pusa 不仅是 FVDM 理论的直接应用和验证，更重要的是，它探索出了一条极低成本微调大规模预训练视频模型的有效路径。

具体而言，Pusa 通过对预训练模型如 Wan-T2V 14B 进行非破坏性微调，仅需 500 美金训练成本即可达到比 Wan 官方 I2V（至少O(100k)美金的训练成本）更好的效果，成本降低超 200 倍，数据更是减少超 2500 倍！不仅如此，Pusa-Wan 同时解锁了图生视频、首尾帧、视频过渡、视频拓展等广泛应用并且还保留了文生视频能力。