港大字节联手推出视频模型Goku:可生成数字人
在生成式AI技术狂飙突进的2025年,港大与字节跳动联合发布的最新视频生成模型Goku(悟空)

这款基于校正流Transformer(Rectified Flow Transformer)的模型,不仅实现了文生视频、图生视频等多模态生成能力,更以百倍成本降低的广告视频生成效率。
技术亮点:多模态联合生成架构
Goku采用图像-视频联合VAE技术,将图像和视频压缩到共享的潜在空间,再通过全注意力Transformer建模,实现跨模态的统一生成。这种架构使得模型既能生成高质量静态图像,又能输出连贯动态视频,例如仅凭一张皮鞋照片即可生成带人物讲解的展台视频。

校正流算法加持
相比传统扩散模型,Goku基于校正流(Rectified Flow)公式,显著提升了收敛速度与理论性质。其多阶段训练策略(图文对齐预训练→图像-视频联合训练→模态微调)进一步优化生成效果,在文本到视频生成任务中取得VBench得分84.85的SOTA成绩。

训练数据涵盖3600万视频和1.6亿图像,结合美学评分过滤、多模态大语言模型标注等技术,确保数据质量。团队还采用ByteCheckpoint技术优化训练效率,模型保存性能提升529倍,加载性能提升3.5倍,支持从1B到8B参数规模的灵活部署。
广告视频革命:Goku+作为广告基础模型,可将广告视频制作成本降低至原来的1/100。用户仅需一张商品图+文字描述,即可生成人物互动讲解的高质量视频,例如化妆品展示或吃播场景,逼真度几可乱真。
官方已发布技术细节与评估数据,开发者可提前了解模型架构与训练方法。
项目地址: