数据减少超千倍,500美金就可训练一流视频模型,港城、华为Pusa来了
FVDM & Pusa 一作:刘耀芳目前在香港城市大学攻读博士学位,导师为著名数学家 Prof. Raymond Chan (陈汉夫) 及 Prof. MOREL Jean-Michel。他也曾在腾讯 AI Lab 实习,主导 / 参与 EvalCrafter , VideoCrafter 等工作,其研究兴趣包括扩散模型,视频生成等;项目主管:刘睿,香港中文大学 MMLab 博士,华为香港研究所小艺团队技术负责人。
扩散模型为图像合成带来了革命,其向视频领域的延伸虽潜力巨大,却长期受困于传统标量时间步对复杂时序动态的束缚。我们去年提出的帧感知视频扩散模型 (FVDM),通过引入向量化时间步变量 (VTV),赋予每一帧独立的时间演化路径,从根本上解决了这一难题,显著提升了时序建模能力。
然而,范式的转变需要更多实践的检验和普及。为此,我们与华为香港研究所小艺团队合作进一步推出了 Pusa 项目。Pusa 不仅是 FVDM 理论的直接应用和验证,更重要的是,它探索出了一条极低成本微调大规模预训练视频模型的有效路径。

具体而言,Pusa 通过对预训练模型如 Wan-T2V 14B 进行非破坏性微调,仅需 500 美金训练成本即可达到比 Wan 官方 I2V(至少O(100k)美金的训练成本)更好的效果,成本降低超 200 倍,数据更是减少超 2500 倍!不仅如此,Pusa-Wan 同时解锁了图生视频、首尾帧、视频过渡、视频拓展等广泛应用并且还保留了文生视频能力。


Vbench 图生视频测试样例

文本指令:一只大白鲨在海里游泳(a great white shark swimming in the ocean)

文本指令:一个戴着墨镜坐在汽车驾驶座上的男人(a man sitting in the driver's seat of a car wearing sunglasses)

文本指令:一头棕白相间的奶牛正在吃干草(a brown and white cow eating hay)
此外,Pusa-Mochi 更是只要 100 美金训练成本便可实现如下效果。
图生视频效果对比
首尾帧效果对比
更多首尾帧样例
T2V 结果与基础模型 Mochi 对比
目前,Pusa 的完整代码库、训练数据集和训练代码已全面开源,旨在推动整个领域的共同进步。
而对于 Pusa,我们还可以简化策略,得益于对基础模型的非破坏性改造,在训练初始模型已经具备充足基础能力,我们只需在此基础上进行少量独立时间步微调便可掌握时序动态控制能力。
Pusa 的「十八般武艺」:零样本解锁多样化视频任务,效果惊艳