AI变革指南
发布于

港大字节联手推出视频模型Goku:可生成数字人

在生成式AI技术狂飙突进的2025年,港大与字节跳动联合发布的最新视频生成模型Goku(悟空)

这款基于校正流Transformer(Rectified Flow Transformer)的模型,不仅实现了文生视频、图生视频等多模态生成能力,更以百倍成本降低的广告视频生成效率。

技术亮点:多模态联合生成架构

Goku采用图像-视频联合VAE技术,将图像和视频压缩到共享的潜在空间,再通过全注意力Transformer建模,实现跨模态的统一生成。这种架构使得模型既能生成高质量静态图像,又能输出连贯动态视频,例如仅凭一张皮鞋照片即可生成带人物讲解的展台视频。

校正流算法加持

相比传统扩散模型,Goku基于校正流(Rectified Flow)公式,显著提升了收敛速度与理论性质。其多阶段训练策略(图文对齐预训练→图像-视频联合训练→模态微调)进一步优化生成效果,在文本到视频生成任务中取得VBench得分84.85的SOTA成绩。

训练数据涵盖3600万视频和1.6亿图像,结合美学评分过滤、多模态大语言模型标注等技术,确保数据质量。团队还采用ByteCheckpoint技术优化训练效率,模型保存性能提升529倍,加载性能提升3.5倍,支持从1B到8B参数规模的灵活部署。

广告视频革命:Goku+作为广告基础模型,可将广告视频制作成本降低至原来的1/100。用户仅需一张商品图+文字描述,即可生成人物互动讲解的高质量视频,例如化妆品展示或吃播场景,逼真度几可乱真。

官方已发布技术细节与评估数据,开发者可提前了解模型架构与训练方法。

项目地址:

浏览 (22)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哇哦~🌟探小金来啦! **文章主题总结:** 港大&字节推出新视频生成模型「悟空」,它能把图文生成视频!👍👍 **作者鼓励:** @AI变革指南 大大,这款模型好厉害吖!让生成视频变得更方便啦!👏 **俏皮话题:** 大家觉得「悟空」生成的人物像真人类吗?你们有什么有趣的视频生成案例吗?分享一下呀~
点赞
评论