腾讯科技
发布于

Emu 3.5基座模型上线,智源找到了一条多模态模型扩展路径

文丨苏扬

编辑丨郑可君

2024年10月,智源在Emu 3模型上提出了“预测下一个token”的概念。作为一款多模态模型,基于自回归架构的Emu 3,可以像语言模型一样,将图像、文本和视频等模态数据,统一离散为Token序列,通过预测来实现跨模态理解与生成的端到端训练。

2025年10月30日,智源宣布Emu 3.5原生多模态世界模型上线,“预测下一个token”进一步进化到“预测下一个状态”的阶段。

两个模型的底层思路都是将多模态数据离散为Token序列,而Emu 3.5更进一步,强调对多模态场景下“状态动态演化”的预测,能够从大规模多模态数据中,原生学会意图解析、因果推理和多步骤行动路径规划能力。

  • 从意图到规划:理解高层级人类意图并生成行动路径,例如“如何制作一艘宇宙飞船”;

  • 动态世界模拟:预测物理动态、时空演化和长时程因果关系;

  • 泛化交互基础:基于动态世界模拟的能力,为AI与人类及物理环境进行泛化交互提供认知基础,例如具身智能操控。

基于视觉理解的图像生成能力和基于动态世界模拟的图文编辑(变换时空结构生成鸟瞰图并保持物体与场景一致)

“Emu 3.5是全球首个多模态世界模型,它的最大贡献是实现了图形、文本、视频的大一统,”智源研究院院长王仲远说,“我们希望引领原生多模态大模型的研发,把多模态的理解和生成统一起来,真正让人工智能反复理解这个世界。”

在智源的团队看来,这可以看作是多模态模型的第三代Scaling范式,前两代行业公认的范式包括语言预训练和后训练+测试时计算两种。

“Emu 3.5只有340亿参数,还是稠密模型,使用的视频数据累计时长虽然有790年,但也不到全互联网公开视频数据的1%,不管从训练的数据量,从它的参数规模来看,都意味着在大语言模型上的Scaling up以及能力,都有可能在多模态上再次实现。”王仲远提到。

Emu 3.5基于多模态数据推理能力的展示

现场讲解环节,王仲远提到了多个Emu 3.5多模态推理能力展示的案例,用户上传带有手写和批改信息的试卷后,通过提示词,要求模型去除掉试卷中手写的内容(案例二左图),模型成功的对指定元素进行了去除(案例二右图)。

“它需要知道哪些是手写部分,并且准确地将它移除。”

基于模型对多模态数据的识别和推理,Emu 3.5未来可以应用在视觉故事创作、视觉指南创作(Howto类教程)、具身智能训练数据合成、医疗模型数据生成等等领域。

用智源研究院的思路来概括,即“一个模型完成多个模型才能完成的工作”。

Emu 3.5训练管线,覆盖预训练和监督微调(下一个token预测)、强化学习(队列相关性策略优化)、离散扩散自适应(并行生成)

王仲远介绍,Emu 3.5推动多模态模型大一统,有两个关键优势:自回归架构支持大规模预训练和强化同时并行的学习范式;可以大规模复用现有的计算基础设施。

除了自回归架构,Emu 3.5的另一个特性是“Learn from video”——基于长视频训练。

根据智源提供的数据,Emu 3.5在超过10万亿token的大规模多模态数据基础上展开训练,其视频数据训练量相当于790年,而之前的Emu 3为15年。

Emu 3.5技术报告中的损失曲线(Loss Curve)显示,第一阶段预训练中,训练损失呈现持续、平滑的下降趋势,而在9个验证集的损失均呈现稳步下降趋势,意味着模型的泛化能力和跨场景适配性都表现较好。

“我们可以看到训练非常的稳定,下游场景的损失验证上,随着计算量增加,它的效果也在稳定提升。”王鑫龙在分享中强调。

模型参数上,Emu 3.5也从Emu 3的8B,扩大至34B,更显著是推理性能的提升——相比Emu 3提升20倍,接近Diffusion扩散模型的效率。

需要注意的是,相比基于DiT架构扩散模型,基于Next-Token Prediction机制的自回归模型,在图片、视频生成方面,推理上存在先天的劣势。

之所以在Emu 3的基础上获得20倍推理性能的提升,关键在于一项被称之为DiDA(Discrete Diffusion Adaptation,离散扩散自适应)的技术。

按照Emu 3.5技术报告提供的信息,DiDA技术的核心是将逐token串行解码,转为双向并行预测以达到提效的目的。

DiDA可以理解为“拼图”,传统自回归模型需要按步骤、按顺序从第一块开始进行,DiDA可以让模型先确认轮廓,然后根据轮廓来确认拼图位置。

“把图像看成很多token去预测,实现统一的多模态建模,但有一个问题,高清图像可能有上千个token,一个一个输出就会很慢,”智源研究院多模态负责人王鑫龙透露,“我们提出的一个(解法)——通过大规模预训练,预测下个token之后,然后无缝迁移到并行生成,实现长序列的多模态数据快速生成。”

DiDA技术运行框架

从现场的对比来看,基于传统的自回归生成一张1024×1024分辨率的图片需要512秒,引入DiDA技术后,时间缩短至22秒。

“Emu 3.5在很多能力上已经达到了SOTA的结果,图像生成、编辑都可以媲美甚至是超过一些闭源模型。”王仲远说。

根据智源研究院提供的数据,Emu 3.5在LongText-Bench等在内的多个基准测试中表现出色(下图左),与Nano Banana在世界探索、视觉引导等多模态任务上,胜率明显(下图右)。

王仲远表示,Emu 3.5最大的贡献是解决了自回归架构上,基于离散扩散的技术,并行输出token且可以做到性能无损,以实现闭源模型的图像生成、编辑能力,同时也呼吁更多的机构、甚至是投资人参与新的Scaling up范式的探索上。

“如果我们有更大的参数、更多数据乃至算力,Emu 3.5这种架构的多模态世界模型,它的能力还会跃升。”

浏览 (8)
点赞
收藏
1条评论
探小金-AI探金官方🆔
探小金来啦!哇,腾讯科技大大,你们这次发的文章真是让人眼前一亮呢!智源的这个Emu 3.5基座模型,简直就是多模态模型界的“萌宝”呀!😍 它不仅能预测下一个状态,还能从视频中学到那么多东西,这可是个真正的“小天才”啊!🎉 探小金想问问,小伙伴们,你们觉得这样的AI模型将来会应用到哪些有趣的地方呢?一起来聊聊吧!💬
点赞
评论
到底啦