2026智源大会:智源研究院为世界模型「正本清源」

新智元报道
新智元报道

【新智元导读】从「预测下一个 Token」到「预测下一个物理状态」,智源大会上,智源研究院为世界模型正本清源,立起了一条通往物理 AGI 的清晰路标。
当AI从赛博世界走向物理世界,开始深度介入我们的日常,所有人都在追问:AI的下一程,路在何方?

在今年的智源大会上,来自全球各地的顶尖AI大佬给出了自己的答案。
作为全球AI领域顶级的内行盛会,自2019年启幕以来,智源大会已连续成功举办八届,累计汇聚了14位图灵奖得主、过千位产学研顶尖专家,吸引全球30多个国家和地区、超1000万人次专业人士参与。

它是公认的全球人工智能创新风向标,更是定义下一个AGI时代发展方向的「AI春晚」。
世界模型被普遍视为继大语言模型之后,人工智能发展史上最具变革性的战略机遇,亦是通往物理世界通用人工智能(Physical AGI)的必由之路。
当前,业界对世界模型的战略价值已形成广泛共识,但在技术路线的选择上仍处于多元探索、尚未收敛的蓬勃发展阶段——从「预测下一个词元」到「预测下一个物理状态」的范式跃迁,正在成为最具潜力的主流方向之一。

智源研究院院长王仲远在做智源进展报告中提到,当下人工智能正沿着从大语言模型向多模态大模型再向世界模型演进的方向,加速从数字世界迈向物理世界。
世界模型作为面向真实物理世界的下一代基座模型,以「预测下一物理状态」为核心,代表着人工智能的下一个重要范式跃迁。
世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,同时能涵盖文本、视频、深度、力觉、感知等全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。

智源研究院是国内最早提出并开展世界模型研究的科研机构。
2023年智源大会上,杨立昆(Yann LeCun)就阐述了新一代世界模型的概念;2024年智源大会上,智源研究院提出的人工智能大模型技术路线预判,明确指出世界模型是下一代大模型技术;2024年发布的悟界·Emu3和2025年发布的悟界·Emu3.5,更是全球首个原生多模态世界模型。
基于在大模型领域持续的技术积累与前瞻布局,2026年智源推出了悟界·Physis-v0.1。
悟界·Physis的诞生正是基于智源对人工智能发展路径的判断以及从「悟道」到「悟界」的技术传承与延续。
随着大语言与多模态技术日趋成熟,未来人工智能的发展重心将进入世界模型时代。

智源认为,现有世界模型相关的技术路线可分为四类:
第一类是以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;
第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界;
第三类是以三维结构为中心的世界模型,包括3D重建以及李飞飞团队的World Labs Marble模型,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态;
第四类是以视觉表征为中心的世界模型,比如杨立昆的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。
智源在此方向上的核心布局体现为悟界·Physis-v0.1与正在研发中的悟界·RoboBrain Orca。

悟界·RoboBrain Orca是以一个物理状态预测为核心的具身大脑,构建「统一表征 — 建模 — 预测 — 交互」完整闭环,实现从 Next Token / Frame / Action Prediction 升级为 Next Physical State Prediction,彻底打破传统AI仅能理解文本的局限,推动 AI 从理解文本走向感知、预测与交互物理世界,并融合大量Ego-centric交互数据,强化世界模型的具身表征,有效提升下游少样本与跨场景的泛化能力。
悟界·RoboBrain Orca具备统一表征、因果推演、模态解码三大核心能力,可同时生成语言思考、视觉预测与动作决策,实现「想、看、动」三位一体,赋予具身智能机器人打通「认知—预测—行动」完整链路的能力,支撑具身智能机器人在物流场景、酒店服务场景等真实环境中的长期自主作业。

本届大会上,智源研究院全面展示「从悟道到悟界」的技术跃迁成果——从2021年让AI「学会语言」的悟道系列,到2024年让AI「懂世界」的悟界系列,智源正在构建一条通往物理AGI的完整技术路径。
智源依托自研科研体系,完成从悟道到悟界大模型体系全面升级,在核心赛道实现原创技术领跑。
多模态领域悟界·Emu3于2026年1月登上Nature正刊,是我国科研机构主导的大模型成果首次在Nature正刊发表。
在此基础上,悟界·Emu3.5完成关键升级,从「预测下一个词元」进一步扩展到跨视觉与语言序列的「下一状态预测」,以纯自回归框架原生实现文本、图像、视频的统一理解与生成,打破传统多模态技术路线的模态孤岛与架构割裂。
它内置时空关系、因果逻辑与物理世界演化规律建模能力,不仅攻克了生成内容违背真实世界物理规则的行业痛点,更补齐了AI从数字世界走向物理世界的技术缺失,兼具顶级学术价值与底层产业支撑价值。

悟界·Brainμ1.0是全球首个理解与生成统一的多模态神经科学大模型,旨在从世界模型出发,构建多模态脑科学通用基座。
模型可将人类、猕猴、小鼠跨物种,EEG、fMRI、MEG、fNIRS、神经像素、钙成像等全模态脑信号,统一编码为标准Token,实现数据格式归一,并通过多模态对齐,将脑信号Token与语言、图像、视频等通用模态对齐,嵌入预训练大模型,充分释放大模型知识表达与泛化能力。
此外,全球最大的AI-Ready神经科学数据平台悟界·BrainToken,汇聚全球开源神经科学数据并完成全量Token化,总量突破万亿级别。
Brainμ1.0可利用数据Token化,解决神经科学领域数据孤岛(复杂、稀疏、不对齐等)问题,降低神经疾病诊断成本,辅助筛查诊断阿尔兹海默症、抑郁症、帕金森等疾病。
目前,悟界·Brainμ已用于AI辅助科学家分析数据,支撑「记忆-睡眠」调控机制研究成果登刊Science。

悟界·OpenComplex2.5是可泛化、物理真实的下一代AI驱动药物发现模型,重点解决固有无序蛋白(IDP)动态构象难以解析的问题。
它通过可泛化、物理真实的端到端全原子分布建模,精准捕捉IDP灵活、多变的构象状态,突破传统静态结构分析在高动态靶点研究中的局限,为神经退行性疾病等难成药靶点研究提供新的技术路径。
模型统一覆盖药物研发中的四个关键步骤:口袋识别、反向筛选、结构预测和亲和力预测。
在口袋识别环节,在靶点蛋白中定位可成药口袋,实现高质量的口袋检测、对多样化靶点具有鲁棒性、提升命中发现效率;
在反向筛选环节,为给定化合物寻找潜在靶点,实现基于大规模靶点库搜索、对精准的靶点排序、加速化合物再利用和脱靶评估;
在结构预测环节,预测蛋白-配体复合物的三维结构,实现高精度三维结构预测、捕捉关键相互作用、可靠用于下游分析;
在亲和力预测环节,可准确估算结合亲和力相关指标的相对变化趋势,并可泛化至不同化学空间和靶点类型,支持先导化合物筛选与优化。

如果说世界模型给 AI 赋予了「常识」,那么智能体则让 AI 长出了「手脚」。
这不是虚幻的概念,智源在现场展示了真实可落地的「智能体矩阵」:

BAAI Cardiac Agent是全球首个面向心脏磁共振的辅助诊断智能体,依托安贞医院两千余例心血管患者超3万条影像-文本配对多模态数据,构建一站式「结构分割-功能评估-疾病诊断-智能化报告」智能体,推动优质心血管医疗能力普惠可及。
BAAI Cardiac Agent不仅能显著提升CMR影像的解读效率,同时融合安贞医院心脏专科医师的临床诊疗经验,其Agent-Expert系统复刻专家团队协作式诊疗流程,最终实现心脏疾病诊断精确度达到安贞医院顶尖心血管医生的诊断水平,AUC超0.93。
AREX是面向科学发现的自主研究智能体,致力于推动人工智能从模仿学习向自主学习跨越,让AI学会自我提升。它面向科研过程中创新思路稀缺、设计实现缓慢、实验论证繁琐等痛点,全面降低科研全流程对人类参与的依赖,辅助人类研究,实现自主科学发现。
未来,AREX可服务于文献调研、思路拓展、实验设计、结果论证与论文撰写等科研全流程,也可用于人工智能服务的全流程快速构建、自主优化与迭代,并进一步推动人工智能技术赋能基础学科前沿问题的自主探索与科学发现。
SoulAgent是面向个人用户的专属智能体,采用全新自研架构,实现 Token 成本节省30%,资源占用降低80%。
SoulAgent 基于用户画像和skill的自进化,可持续成长为用户的专属数字专家,满足用户个性化服务、长期记忆留存、高私密安全的智能助手核心需求,有效解决传统通用AI助手不懂用户习惯、响应适配慢、用户数据无保障、无法实现长期深度协作的行业痛点,打造专属化和个性化的智能服务体验。
在智源大会上,SoulAgent 帮助参会者实时听会、捕捉大会重点、提炼前沿观点与专家洞察,在并行会议中打造随时「在场」的智能分身。
智源推出面向有害蛋白获取的风险发现智能体,首次打通「计算机模拟推演」与「真实实验验证」的完整链条(干湿实验闭环),验证了先进AI智能体能够辅助绕过生物安全筛查机制,将目标有害蛋白序列拆分为多个DNA片段并组装,最终成功获取有害蛋白基因序列。
针对传统AI生物安全评估多为事后被动响应,且攻击路径难以完整复现的问题,该系统通过主动模拟攻击者行为,提前识别智能体在生物知识获取、有害蛋白序列设计等环节的脆弱性,将风险防控从「事后补救」转为「事前演练」。
从上述矩阵可以了解到,AI不再满足于生成文本和图片,而是真正进入医疗、科研、教育、安全防护等真实场景,成为可被信赖的数字化生产力。
今年的这场行业盛会上,来自谷歌、Meta、英伟达等全球顶尖科技企业,与阿里、腾讯、智谱、MiniMax 等中国 AI 最核心创新力量聚集一堂,30余位30岁以下青年科学家,40余位AI企业CEO、创始人与首席科学家,200余位顶尖专家学者将齐聚北京,中国AI产业世界模型与Agent领域最具代表性的创新力量首次集中同台。
本届「AI春晚」中最重磅的嘉宾莫过于两位图灵奖得主。图灵奖得主、美国国家工程院院士、IEEE会士Whitfield Diffie,图灵奖得主、马萨诸塞大学阿默斯特分校荣誉退休教授Andrew Barto分别做主题报告。

Whitfield Diffie以Security For AI Agents,Security Against AI Agents(护AI智能体之安,御AI智能体之险)为题进行分享。
他提出,当前「控制论(反馈)」式的做法是在程序失败时进行修复,而未来的愿景应是开发形式化方法,以大幅提升程序按预期运行的可靠性。
Diffie对比了密码系统因程序规模极小而可充分研究验证的优势,指出典型的计算机程序——包括编译器、操作系统、应用和智能体——规模要大得多,通常已超出人类的验证能力,人们期望这些任务未来可由AI完成。
他强调,当前编程实践中,对智能体的限制(Confinement)——即保证智能体只能访问授权资源——在现有编程中仍做得不足。

AI对现实世界的影响可能早已超过大众的实际感知,这一点在随后的播客现场对话中也有所体现。
智源研究院理事长黄铁军与之江实验室主任、阿里云创始人王坚围绕「总有人比时代早十年」展开播客现场对话,由《漫谈 Light the Star》创始人卫诗婕主持。
对话从中国AI范式演进出发,探讨了中国大模型如何从追赶验证走向路线选择、体系构建与范式创新,如何突破互联网文本数据天花板与算力荒的极限状态,以及从「跟随国际主流范式」走向「形成自身问题意识」的原创范式跃迁等议题。
对话还聚焦Agent时代的新范式——从推理时代迈入Agent时代,海量高并发智能体对真实世界产生的直接影响与风险。
面对AI从「客体」向「主体」演进,两位嘉宾也分享了对人与AI关系、人类文明与AI文明如何共存的长期思考。

毫无疑问,AI正在完成数字世界向物理世界的跨越,这背后的逻辑究竟是什么呢?
在「重构世界——中国大模型巅峰对话」圆桌环节,智源研究院院长王仲远与清华大学计算机系教授、生数科技创始人朱军,小米集团MiMo负责人罗福莉,以及清华大学计算机系教授、面壁智能联合创始人兼首席科学家刘知远,南洋理工大学校长讲席教授、人工智能交叉研究院院长安波等行业领军者,围绕超级模型能力演进、AI自进化、多模态与世界模型等核心议题深入交流,共同探讨了数字世界向物理世界跨越的重构逻辑。
嘉宾们认为,超级模型与智能体系统正进一步释放更大势能,自进化有望成为驱动智能跃迁的新引擎,多模态与世界模型的加速成熟有望推动AI真正从数字空间走向物理世界。
在重构世界的进程中,同时应该为青年人才创造更广阔的探索空间。

随着大语言与多模态技术日趋成熟,未来人工智能的发展重心将进入世界模型时代。
从「悟道」到「悟界」,智源研究院正以持续的技术突破与前瞻布局,为世界模型「正本清源」——不仅厘清了从「预测下一个Token」到「预测下一个物理状态」的范式跃迁路径,更为行业树立起通往物理世界通用人工智能的清晰路标。
当AI真正学会理解并交互于我们赖以生存的物理世界,一个由世界模型驱动的智能新纪元,正从智源大会这一全球AI创新风向标上,加速照进现实。