长达790年视频镜头,打造原生多模态世界模型!北京智源研究院用Emu3.5统一“世界”
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
北京智源研究院发布并开源了基于原生多模态训练的世界学习者(World Learners)。

Emu3.5的核心突破,在于它用同一种方式预测下一个词和下一帧图像。
人工智能的发展正从单一感官的专才,走向多重感官融合的通才。
语言模型在文本世界里所向披靡,但文字终究只是对现实世界的有限描述。
视觉,作为人类感知环境最主要的信息渠道,与语言的深度结合,才能真正开始捕捉这个世界的无穷复杂性。
由北京智源人工智能研究院团队开发的Emu3.5,正是一个大规模多模态世界模型,代表着这一领域的重要进展。
核心思想即原生多模态。

它不再将视觉和语言视为需要分别处理然后拼接的两种信息,而是将它们视为同一种数据流。
通过端到端的预训练,Emu3.5在超过13万亿token的视觉语言交错数据上学习,目标只有一个:预测下一个token。这个token可能是一个单词,也可能是一块图像的视觉编码。
这些训练数据主要来自互联网视频的连续帧和对应的转录本,这让Emu3.5天生就能理解并生成图文交错的长序列内容。
它不再局限于处理短片段,而是解决了如何在大规模数据上处理长视野多模态信息的关键问题,为 AI 模拟和理解真实世界打开了一扇新的大门。
一个统一的灵魂,看懂世界
Emu3.5与Qwen3这类顶尖语言模型一脉相承,但为适应多模态的特性进行了多项关键改造。
整个模型由64个transformer层堆叠而成。每一层的隐藏维度为5,120,中间层维度则扩展到25,600,提供了强大的表示能力。
注意力机制包含64个头,其中8个专用于键值对,并采用了GQA(分组查询注意力)技术,在保证效果的同时提升了计算效率。
为了保证训练过程的稳定,模型使用了带有预归一化的RMSNorm。
同时,在查询和键的投影中引入了QK-Norm,进一步增强了注意力计算的稳定性。激活函数选择了高效的SwiGLU,并通过RoPE(旋转位置嵌入)来理解序列中不同token的位置关系。
Emu3.5的总参数量达到341亿。
其中312亿参数分布在transformer层,负责核心的计算和推理;另外29亿参数则位于嵌入层,负责将输入的文本和视觉信息转换为模型能够理解的向量。
它的词汇表规模巨大,总计282,926个token。
这其中,151,854个是文本token,直接复用了QwenTokenizer,确保了强大的多语言文本处理能力。
另外131,072个是视觉token,是从海量多样化的图像数据中学习而来,每一个token都代表着一种视觉模式。
模型支持长达32,768个token的上下文窗口,这意味着它可以一次性处理非常长的图文序列。在训练中,0.1的丢弃率被用来防止过拟合,增强模型的泛化能力。
Emu3.5最核心的创新,是其统一的架构设计。

在训练阶段,无论是预训练、监督微调还是强化学习,模型都执行统一的NTP(下一token预测)任务。它就像一个学生,不断地看图文材料,然后预测接下来会出现什么内容,无论是文字还是图像的一部分。
到了推理生成阶段,一种名为DiDA(离散扩散适应)的方法被引入,实现了高效的混合生成。文
本内容依然是逐字顺序生成,以保证逻辑的连贯性;而视觉内容则可以并行生成,极大地提升了效率。这一改变,让每张图像的生成速度提升了近20倍,且几乎没有质量损失。
整个训练流程被精心设计为两个主要阶段。

第一阶段,模型在约13万亿token的庞大数据上进行预训练。这些数据主要来自互联网视频的连续帧和转录本,让模型学习世界的基本规律和图文对齐。
第二阶段,模型在约3万亿更高质量的数据上继续训练。这个阶段的数据在视觉分辨率、数据质量和注释丰富度上都得到了提升,为模型提供了更精确的多模态监督信号。
这种两阶段设计,使模型能够在一个统一的框架内,自然地处理图文交错的输入,并生成同样交错的输出。
预训练之后,Emu3.5通过1,500亿样本进行SFT(监督微调),构建起统一的多模态生成接口,使其能够理解并执行各种复杂的指令。随后,大规模强化学习进一步增强了模型的多模态推理和生成能力。
最后,仅用数十亿token,通过DiDA方法快速适应,实现了高效推理。
要让模型理解图像,首先需要将连续的像素世界离散化,变成一个个模型可以处理的视觉token,这个过程由分词器完成。
Emu3.5主要采用IBQ框架进行视觉token化,下采样因子为16,这意味着图像的每个16x16像素区域会被编码成一个或多个视觉token。代码本中的每个离散token维度为256。
为了容纳更丰富的视觉信息,团队将代码本的大小扩展到了惊人的131,072,并将分词器模型的参数量增加到4.55亿,使其能更好地表示复杂的图像结构。
受REPA方法的启发,团队还在训练时将SigLIP模型的特征蒸馏集成到分词器解码器的中间输出中。这改善了模型的表示学习能力,让离散的图像token携带了更丰富的语义信息。
在图像解码方面,Emu3.5的基础分词器仅用Emu3模型四分之一的token数量,就实现了更优的图像重建质量。
为了进一步提升视觉生成效果,团队还引入了一个基于扩散的解码器作为可选方案。
这个解码器同样接收量化token作为输入,但生成的图像分辨率是基础解码器的两倍。它在局部细节和精细纹理上表现更佳,尤其是在文字渲染和人脸重建方面。
团队还采用基于LoRA的蒸馏方法,将解码速度提升了约10倍,去噪步骤从50步减少到4步,性能却丝毫不减。
对于视频生成,Emu3.5通过一个基于扩散的视频解码器来扩展能力,该解码器以生成的关键帧token为条件,生成中间的连续视频帧。
视频解码器建立在主流的DiT架构之上,利用VQ量化器的量化嵌入来提供细粒度的视觉细节,同时可选的文本信息则提供高级语义指导。一个额外的4通道掩码被引入,用来指示哪些帧的token是已知的,这使得模型可以灵活地生成任意数量的中间帧。
万亿数据,喂养一个世界的雏形
一个强大模型的诞生,离不开海量、高质量的数据。
Emu3.5的预训练数据超过13万亿多模态token,无论在规模、多样性还是质量上,都远超前代。

这些数据主要由四个部分构成:交错视觉语言数据、视觉文本对数据、任意到图像数据,以及纯文本数据。
视频交错数据是Emu3.5的基石。传统方法大多依赖静态的图文对,每个样本都是孤立的。Emu3.5的语料库则着眼于捕捉长时程、交错的多模态上下文。
这些数据来源于大规模互联网视频的顺序帧和时间对齐的音频转录本。

视频天然地保留了时空的连续性、跨模态的对齐关系以及上下文的连贯性。这种长序列数据提供了比孤立图文对丰富得多的信息,促进了模型学习长时程生成、推理和世界建模的能力。
数据来源极其广泛,包括开源数据集、公开的在线视频以及通过第三方合作获取的视频。
整个语料库包含了约6,300万个视频,平均时长6.5分钟,总计长达约790年的连续镜头。
内容涵盖教育、科技、生活技巧、娱乐、体育、游戏、旅行和动画等多个领域,力求捕捉真实世界与想象世界的全面光谱。
原始视频数据包含视觉帧和音轨,需要精细的预处理。
团队使用PySceneDetect将每个视频分割成连贯的场景。
对于每个场景,如果时长较短,就选取中间一帧;如果较长,则每隔一段时间采样一帧。
实践证明,这种策略比均匀采样更能保留视频的核心视觉内容,同时有效去除冗余。
对于音轨,采用Whisper-large-v2模型进行ASR(自动语音识别),并用Faster-Whisper加速。
生成的字幕和时间戳再通过spaCy进行后处理,以产生语法连贯且时间对齐的文本。
为了保证数据质量,一个两阶段的过滤管道被设计出来。
基础过滤负责粗粒度的数据清理和平衡,包括过滤时长和分辨率不合规的视频、过滤掉过多的说话人头部特写镜头、以及平衡不同语言和静音片段的比例。
高级过滤则通过多模态质量评估和去重来优化数据集,包括评估帧图像的质量、去除冗余内容以及评估文本质量。
注释过程也分为两个阶段。
在第一阶段预训练中,只使用自动提取的关键帧和ASR转录本。
在第二阶段,则整合了一系列信息更丰富的注释,以提高收敛效率和下游任务的适应性,包括语义分割与摘要、详细的视觉描述以及多模态摘要。
视觉文本对数据子集包含了约5亿图文对和3,000万视频文本对。图像数据主要来自Emu3的训练库,但文本注释已经使用更强大的Qwen2.5-VL-7B模型重新生成和丰富,显著提升了注释的质量、描述的丰富度和图文对齐的准确性。
团队还利用最先进的开源T2I(文本到图像)模型生成的合成图文对来增强图像生成能力,并结合了如InfinityMM和LLaVA-OV等最新的开源视觉语言数据集,这些数据集提供了高质量的、带有视觉指代和多样化问答格式的注释,强化了模型进行结构化推理和上下文理解的能力。
对于视频文本对,团队通过基于运动分数的过滤来确保动态视觉内容的多样性,并通过增加采样间隔来平衡时间覆盖和计算成本。
当多个片段来自同一视频时,它们会按时间顺序打包成自然的交错序列进行训练,这让模型能更好地捕捉长期的时间依赖性。
任意到图像(X2I)数据集包含了约2,735万个样本,汇集了广泛的开源数据集,并补充了内部构建的私有数据。
开源数据虽然丰富,但常存在多样性不足、质量不佳等问题。
为了解决这些限制,团队从海量的视频和图像中策划了额外的大规模X2I数据,显著增强了训练数据的多样性、质量和规模。
纯文本数据是模型语言能力的基石。
团队整合了约3万亿token的大规模纯文本语料库。
在Emu3的基础上,结合了精心过滤的高质量开源语料库,确保了语言和领域的均衡覆盖。

这为模型的多模态学习提供了坚实的语言基础,使其能够在图文交错的上下文中,生成语义连贯、逻辑一致的内容。
在训练目标上,Emu3.5采用与Emu3相同的策略,将视觉和文本token整合到统一的序列中。
由于所有视觉信号都被完全token化,模型可以使用标准的交叉熵损失进行下一token预测。
为了平衡两种模态的优化,对应于视觉token的损失项被赋予了0.5的权重。
训练分为两个阶段。
第一阶段,模型在10万亿token上进行训练,序列长度最长为32,768。此阶段专注于学习基础的多模态对齐和预测能力。所有图像都被限制在最多1,024个视觉token,对应最大512×512的分辨率。
第二阶段,模型在约3万亿更高质量的token上继续训练。此阶段通过增加图像分辨率、改善数据质量、平衡数据分布并整合更多注释,来进一步增强模型的多模态生成能力。视觉token的数量动态变化,从1,024到4,096不等,对应的图像分辨率最高可达1024×1024。
整个训练和推理基础设施构建于FlagScale框架之上,支持各种并行策略和跨硬件部署。训练全程使用AdamW优化器。

训练过程的动态监测显示,训练损失和在9个不同验证集上的验证损失都平稳下降,这表明模型在大规模多模态优化下收敛稳定,并具备强大的泛化能力。
这些验证集覆盖了文本到图像、图像到文本、视频交错数据等多种类型,以及视觉叙事、视觉指导等下游任务,证实了大规模交错训练范式带来了鲁棒的优化动态和跨领域的泛化能力。
从理解到创造,后训练激发无限潜能
预训练赋予了Emu3.5强大的基础能力,而后训练则将其雕琢成能够完成特定任务的多面手。
SFT(监督微调)阶段,Emu3.5自然地支持了广泛的多模态任务,包括文本到图像生成、纯语言理解与生成,以及视觉语言问答。
X2I(任意到图像)生成是其核心能力之一,这里的X代表任意的、图文交错的输入指令。
无论是根据文本生成图像、对图像进行局部编辑、根据主题生成一系列图像,还是在给定的上下文中进行图像编辑和生成,都属于X2I的范畴。
这项任务对模型的多模态指令跟随能力、主题与背景的一致性、生成质量、世界知识乃至物理规律的理解都提出了极高的要求。掌握X2I是通向更通用的X2X(任意到任意)生成范式的第一步。
视觉叙事(Visual Narrative)是另一项关键的多模态任务。
它要求模型以图文交错的方式,生成具有连续故事情节的内容。这不仅需要模型能写出结构完整的故事脚本,还要生成在角色和风格上保持时间一致的、引人入胜的图像。
与以往的方法不同,Emu3.5的视觉叙事能力覆盖范围极广,从虚拟到现实(动漫、日常生活),从古代到当代(历史事件、电影),从叙事表达到想象创造(科学概念、童话),都游刃有余。
其生成的内容展现了丰富的通用知识和教育意图,是多模态学习向世界级理解迈进的桥梁。
视觉指导(Visual Guidance)则让模型能够理解并生成程序性的动作。
它要求模型在多步指令中将视觉线索与语言表达对齐,例如根据菜谱图片和文字,生成一步步的烹饪指导。
在这类任务中,视觉信号不再仅仅是辅助信息,而是动态的指引,约束着语言推理。
通过联合理解文本和视觉条件来执行多步指令,视觉指导将多模态学习从共现级的理解推向了动作级的理解和因果、过程导向的推理,为具身智能和世界建模奠定了基础。
世界探索(World Exploration)和具身操作(Embodied Manipulation)代表了Emu3.5作为世界模型的核心潜力。
世界探索使其能够在开放环境中自由导航和理解场景,而具身操作则使其能够与物理世界进行交互和操作。
这两项能力都要求模型对世界有深刻的理解,包括空间关系、物理规律和因果推理。
SFT阶段使用了约1,500亿样本,覆盖上述各种任务。
训练超参数经过精心调整,例如学习率设置为1×10^-5,采用余弦调度器,序列长度保持在32,768,并支持更高分辨率的生成。
在SFT之后,Emu3.5接受了大规模RL(强化学习)的洗礼,以进一步打磨其多模态推理和生成能力。

团队设计了一个多模态奖励系统,结合了多个奖励模型来评估生成内容的质量。
这些奖励模型分别评估图像的美学和技术质量、文本的流畅性和相关性、图文之间的一致性,以及在特定任务上的表现。
RL阶段使用了约10万个精心设计的提示,覆盖各种任务和场景。
团队采用了GRPO(分组相对策略优化)算法,这是一种通过相对比较而非绝对评分来优化策略的强化学习算法,提升了训练的稳定性和效率。
训练持续了约10万步,确保了充分收敛。
观察发现,随着训练计算量的增加,模型在复杂多模态任务上的性能持续提升,尤其是在视觉叙事和视觉指导上,证明了强化学习对于增强模型高级能力的有效性。
为了解决自回归模型生成图像速度慢的问题,团队提出了DiDA(离散扩散适应)方法。

它巧妙地将传统的逐token自回归生成过程与扩散模型相结合,实现了视觉token的并行生成,同时保持文本token的顺序生成。
DiDA的训练分为两步。
首先,使用SFT数据和自蒸馏数据训练一个扩散头,使其能够根据上下文一次性预测出所有的视觉token。
其次,通过最小化扩散预测和原始自回归预测之间的差异,来对齐扩散头和原始模型。这种对齐确保了DiDA在实现显著加速的同时,生成的结果与原始模型保持高度一致。
Emu3.5采用了基于有限状态机(FSM)调度的混合推理框架。

有限状态机(FSM)的调度器,在预分配资源的同时自适应地管理文本和图像阶段之间的转换,从而实现高效的并发处理。
结合异步请求处理、运行时状态重用和FP8量化,该框架大大降低了内核开销并提高了吞吐量,在4设备设置上实现了至少50%的加速。
实力展示,与世界顶尖模型同台竞技
Emu3.5在多项基准测试和实际应用中展示了其强大的能力

在图像生成和编辑任务的多个测试集上,Emu3.5全面超越开源、闭源SOTA模型。
TIIF Bench testmini测试集的定量评估结果:

OneIG中英文数据集的定量评估结果:

SOTA T2I模型LeX Bench、LongText Bench和CVTG-2K数据集上的比较:


图像编辑任务上的定量比较结果:

定性分析结果:



Emu3.5在文本渲染方面表现极为出色,能够准确地生成包含复杂文字的图像,这对于广告设计、信息图表等应用至关重要。
视觉叙事是Emu3.5的拿手好戏。
它能生成连贯故事,不仅视觉上前后一致,叙事也富有逻辑和吸引力。在自动化的偏好评估中,Emu3.5生成的视觉叙事显著领先于对手。


在视觉指导任务中,Emu3.5同样表现出色。
无论是演示如何从书中取出手机,还是如何根据草图完成一幅画,它生成的指导都清晰、连贯且具有可执行性。在这项任务的偏好评估中,Emu3.5仍然领先。


作为世界模型的雏形,Emu3.5也展示了其在世界探索和具身操作方面的潜力。
它能生成第一人称视角的探索场景,或是驾驶视角,视觉连贯,空间感真实。


它还能将一个机器人手臂折叠衣服的复杂任务,分解为7个详细的步骤,每个步骤都清晰描述了左右手的动作,展现了其对物理世界交互的理解能力。


这些能力的背后,是其高效的分词器和创新的推理加速技术。
实验表明,Emu3.5的分词器仅用四分之一的token数就实现了比前代方法更好的图像重建质量。
而DiDA技术,在不牺牲性能的前提下,将每张图像的推理速度提升了约20倍。
Emu3.5代表了大规模原生视觉语言生成模型的重要一步。
它展示了长视野多模态生成与推理的能力,能够产生时序一致、语义连贯的图文交错序列。
这些能力催生了视觉叙事、视觉指导等多样化的应用,并展现了可泛化的世界建模潜力,为可控交互、自由导航和动态场景模拟提供了可能。
同时,它也是一个顶尖的任意到图像(X2I)和文本到图像(T2I)生成模型,其强大的原生多模态能力使其在精确控制和自由时空操作方面表现优异,并在文本渲染方面超越了同类顶尖模型。
随着预训练规模的扩大,模型在未见过的多模态任务上的泛化能力持续增强。
统一的后训练过程,如强化学习,构建了一个共享的多模态接口,让不同任务的能力可以相互迁移和促进。
下一token预测模型可以被有效地转换为双向并行预测器,实现显著的加速而性能不减。
这些观察共同凸显了原生多模态范式的可扩展性、多功能性和灵活性。
团队已经开源了Emu3.5,它或许将为推进世界模型、提升多模态智能铺平道路。
参考资料:
https://arxiv.org/abs/2510.26583
https://zh.emu.world/pages/web/landingPage
https://github.com/baaivision/Emu3.5
https://huggingface.co/collections/BAAI/emu35