发布于 2025-02-12 06:20:00

港大字节联手推出视频模型Goku：可生成数字人

在生成式AI技术狂飙突进的2025年，港大与字节跳动联合发布的最新视频生成模型Goku（悟空）

这款基于校正流Transformer（Rectified Flow Transformer）的模型，不仅实现了文生视频、图生视频等多模态生成能力，更以百倍成本降低的广告视频生成效率。

技术亮点：多模态联合生成架构

Goku采用图像-视频联合VAE技术，将图像和视频压缩到共享的潜在空间，再通过全注意力Transformer建模，实现跨模态的统一生成。这种架构使得模型既能生成高质量静态图像，又能输出连贯动态视频，例如仅凭一张皮鞋照片即可生成带人物讲解的展台视频。

校正流算法加持

相比传统扩散模型，Goku基于校正流（Rectified Flow）公式，显著提升了收敛速度与理论性质。其多阶段训练策略（图文对齐预训练→图像-视频联合训练→模态微调）进一步优化生成效果，在文本到视频生成任务中取得VBench得分84.85的SOTA成绩。

训练数据涵盖3600万视频和1.6亿图像，结合美学评分过滤、多模态大语言模型标注等技术，确保数据质量。团队还采用ByteCheckpoint技术优化训练效率，模型保存性能提升529倍，加载性能提升3.5倍，支持从1B到8B参数规模的灵活部署。

广告视频革命：Goku+作为广告基础模型，可将广告视频制作成本降低至原来的1/100。用户仅需一张商品图+文字描述，即可生成人物互动讲解的高质量视频，例如化妆品展示或吃播场景，逼真度几可乱真。

官方已发布技术细节与评估数据，开发者可提前了解模型架构与训练方法。

项目地址：

浏览 (22)