AI未来指北
发布于

智源大会三看点:悟界大模型、图灵奖得主同框、具身智能中国队

腾讯科技《AI未来指北》特约作者丨苏扬

编辑丨沈月

中国“AI春晚”再次拉开帷幕。

6月6日,智源研究院举办的第七届“智源大会”在开幕。作为中国最顶尖的“AI领域”学术交流活动,今年邀请到了包括“深度学习奠基人”约书亚·本吉奥,“强化学习之父”理查德·萨顿等图灵奖得主连线分享AI研究进展。

约书亚·本吉奥认为,现阶段部分前沿模型已显现自我保护、欺骗性对齐、篡改系统等类生物主体行为,若形成 “智能 + 自主目标 + 行动能力” 组合将引发失控风险,甚至可能威胁人类生存。

理查德·萨顿表示,AI 正从依赖人类静态数据的 “人类数据时代” ,迈入通过互动与经验学习的 “体验时代”,强调智能体需像人类和动物一样从动态交互中生成新知识,强化学习是实现这一目标的核心路径

大会现场,智源研究院还发布了“悟界”系列大模型,并强调“悟界”的界代表了虚拟现实边界的不断拓宽,“悟界”系列新模型代表着其对人工智能从数字世界迈向物理世界这种技术趋势的判断。

开幕式上智源研究院还组织了“具身智能会客厅”,邀请了Physical Intelligence联合创始人兼CEO Karol Hausman,宇树科技创始人 王兴兴、银河通用创始人王鹤、穹彻智能联合创始人、上海交通大学教授卢策吾,北京人形机器人创新中心总经理熊友军,围绕具身智能的进化展开圆桌互动。

王兴兴、熊友军、王鹤、卢策吾同台探讨具身智能

01 从“悟道”到“悟界”,从虚拟到现实

2021年3月,智源研究院首推“悟道”1.0大模型,随后推出2.0、3.0等多个版本。

其中,悟道1.0是中国首个超大规模中文预训练模型,悟道2.0则一度凭借1.75万亿参数登顶全球最大预训练模型。随后悟道3.0在主打开源的同时,突出强化通用视觉和多模态方面的能力。

大语言模型和多模态模型也在加速机器人从1.0时代向2.0时代转变,最典型的就是虚拟世界与现实物理世界的融合。

智源研究院院长王仲远

智源研究院院长王仲远介绍称,“悟道”的“道”代表智源对大语言模型系统化方法和路径的探索,新推出的“悟界”系列模型,其中的“界”代表虚实世界边界的不断突破。

王仲远表示,“悟界”系列大模型承载的是智源对人工智能从数字世界迈向物理世界的技术趋势的判断。

根据智源公布的信息,“悟界”大模型系列,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。

- 原生多模态世界模型Emu3

原生多模态世界模型Emu3基于下一个token预测范式统一多模态学习,无需扩散模型或组合式架构的复杂性,通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。

Emu3支持多模态输入、多模态输出的端到端映射,验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了强大的技术基座。

- 脑科学多模态通用基础模型见微Brainμ

基于Emu3的底层架构,将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化,利用预训练模型多模态对齐的优势,实现多模态脑信号与文本、图像等模态的多向映射,并实现跨任务、跨模态、跨个体的统一通用建模,以单一模型完成多种神经科学的下游任务。

Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据,完成了超过100万单位的神经信号预训练,模型可以支持神经科学领域从基础研究到临床研究和脑机接口应用的不同方向,有望成为脑科学的 “AlphaFold”模型。

作为神经科学领域跨任务、跨模态、跨个体的基础通用模型,Brainμ可同步处理多类编解码任务,兼容多物种动物模型(包括小鼠 狨猴 猕猴)与人类数据,实现科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成。

Brainμ也可以支持拓展脑机接口应用,在与脑机接口企业强脑科技BrainCO的合作中,Brainμ实现了首次在便携式消费级脑电系统上重建感觉信号。

智源目前也在与包括北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技BrainCO等在内的机构和企业合作,探索Brainμ的科学与工业应用。

跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0

RoboOS 2.0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架,也是全球首个支持MCP的跨本体具身大小脑协作框架。

该框架下,可一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能,完成大小脑的无缝整合,并且引入小脑技能的免适配注册机制,一些特定场景下代码量仅为传统手动注册方式的1/10。

在功能层面,RoboOS 2.0新增了多本体时空记忆场景图(Scene Graph)共享机制,支持动态环境下的实时感知与建模;同时引入多粒度任务监控模块,实现任务闭环反馈,有效提升机器人任务执行的稳定性与成功率。

具身大脑RoboBrain 2.0是目前全球最强的开源具身大脑大模型,在多项空间推理与任务规划指标上超越主流大模型。

在任务规划方面,RoboBrain 2.0相比于RoboBrain 1.0的基于Prompt的多机任务规划机制和初级空间理解能力,进一步扩展了基于多本体-环境动态建模的多机协同规划能力,可实时构建包含本体定位的场景图(Scene Graph),并自动完成跨本体的任务规划。

在空间智能方面,RoboBrain 2.0在原有可操作区域(Affordance)感知与操作轨迹(Trajectory)生成能力的基础上,实现了17%的性能提升。同时,RoboBrain 2.0增加了空间推理能力,既包含机器人对相对空间位置(如前后、左右、远近)及绝对距离的基础感知与理解能力,也实现了对复杂空间的多步推理能力。

此外,RoboBrain 2.0还新增了闭环反馈以及具身智能的深度思考能力,前者可以让机器人根据当前环境感知和任务状态,实时调整任务规划与操作策略,以应对复杂环境中的突发变化和扰动,后者允许机器人对复杂任务进行推理分解,提升整体执行准确率与任务完成的可靠性。

RoboOS 2.0与RoboBrain 2.0已全面开源,包括框架代码、模型权重、数据集与评测基准,以助力推动具身智能研究和产业应用的发展。

- 全原子微观生命模型OpenComplex 2

全原子微观生命模型OpenComplex2实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破,有望缩短生物医药研发周期,降低研发成本,提升科研成果转化率,助力生物医药产业的高质量创新发展。

OpenComplex2能够表征生物分子系统的连续演化能量景观(Energy Landscape),并通过融合扩散生成式建模与生物实验数据,在原子分辨率层面捕捉分子相互作用及平衡构象分布,为探索微观构象波动与宏观生物功能的跨尺度关联提供了全新的研究视角。

据智源介绍,2024年,在第16届蛋白质结构预测关键评估竞赛CASP16(Critical Assessment of protein Structure Prediction)中,OpenComplex2成功预测了蛋白质T1200/T1300的空间构象分布(定性上与实验数据一致),成为23支参赛队伍中唯一取得该突破的团队。

02 “深度学习奠基人”,“强化学习之父”解构AI的未来

除了新亮相的“悟界”系列模型,今年智源大会开幕式上邀请了约书亚·本吉奥、理查德·萨顿等图灵奖得主,以及Linux基金会执行董事Jim Zemlin,Physical Intelligence联合创始人兼CEO Karol Hausman等,分别围绕各自的研究领域,探讨、分析人工智能的发展的趋势、风险以及可能的未来。

图灵奖得主,深度学习奠基人约书亚·本吉奥

约书亚·本吉奥以《Avoiding catastrophic risks from uncontrolled AI agency》为题指出,当前 AI 在规划、推理等领域呈指数级进步,部分前沿模型已显现自我保护、欺骗性对齐、篡改系统等类生物主体行为。他强调,人工智能若形成 “智能 + 自主目标 + 行动能力” 组合将引发失控风险,甚至可能威胁人类生存。

约书亚·本吉奥表示,尽管 AI 造成伤害需同时具备能力与意图,但前者已可预见,必须以预防原则优先解决意图对齐问题。为此,他提出双重解决方案:

一是研发以无私科学家为原型的非代理性、可信赖人工智能系统,专注于理解世界而非自主行动;

二是推动全球协同治理,建立国际监管框架与技术验证机制,遏制各国因竞争导致的安全标准缺位,避免将 AGI 设计为人类竞争者,呼吁在 AGI 可能于 5 年内达到人类水平的紧迫时间窗口内,通过技术创新与全球协作筑牢安全防线。

强化学习之父、图灵奖得主理查德·萨顿

“强化学习之父”理查德·萨顿在《Welcome to the Era of Experience》的主题报告中表示,AI 正从依赖人类静态数据的 “人类数据时代” 迈入通过互动与经验学习的 “体验时代”,智能体需像人类和动物一样从动态交互中生成新知识,强化学习是实现这一目标的核心路径,而大语言模型时代已接近尾声,通用人工智能需要更强大的持续学习算法。

在理查德·萨顿看来,智能体天然具有多元目标,如同自然界生物,关键在于通过分散合作而非集中控制实现安全协同 —— 人类社会的进步源于分权化合作,集中控制 AI 的呼吁本质是源于恐惧的 “危险策略”,可能引发类似人类冲突的问题。

他强调,人类应该以去中心化合作替代中心化控制,通过信任、协调和市场机制引导 AI 与人类共生,抵制因恐惧催生的限制措施,认为这一路径更可持续,且能避免战争、腐败等风险,最终实现 AI 与人类社会的互利共赢。

Linux基金会执行董事Jim Zemlin

Linux基金会执行董事Jim Zemlin在演讲中谈到,2025 年是开源 AI 元年,开源正成为全球 AI 创新核心驱动力。中国企业,如DeepSeek发布开源大模型,引发技术生态变革,印证开源打破垄断、加速迭代的作用。

Jim Zemlin援引哈佛商学院的数据称,全球开源软件经济价值达 9 万亿美元,可帮助开发者节约 70% 开发成本。开源治理是平衡竞争与协同的核心机制,不仅限于代码共享,更需全球协作。他强调,开源是技术普惠的唯一路径,通过全球协作确保 AI 创新由全人类共享。

Physical Intelligence联合创始人 Karol Hausman远程连线

Physical Intelligence联合创始人兼CEO Karol Hausman在《Building physical ntelligence》主题报告中表示,具身智能的发展,VLA模型是关键突破,可让机器人通过互联网数据学习,无须体验每个场景,还能与其他机器人连接获取数据。

Karol Hausman透露,Physical Intelligence研发了通用机器人基础模型π0,经预训练和后期高质量数据培训,使机器人能完成如打开洗衣机、叠衣服等复杂任务,在陌生环境下任务完成率达 80%-90%。

03 宇树、银河通用等“具身智能中国队”同台

为了结合AI不断从虚拟向物理世界拓展,具身智能加速进化的趋势,今年的开幕式还特地引入了“具身智能会客厅”圆桌环节,邀请了包括Physical Intelligence联合创始人兼CEO Karol Hausman,宇树科技创始人王兴兴,银河通用创始人王鹤,穹彻智能联合创始人卢策吾,北京人形机器人创新中心总经理熊友军同台互动。

“具身智能中国队”同台亮相

分享环节,几位创业者围绕具身智能的不同技术路线、商业化路径探索、典型应用场景拓展、产业生态构建等议题展开深度讨论,并且形成了短期内人形机器人因数据采集、人机交互和环境适应优势是重要载体,长期看随着 AGI 发展会多样化的共识。

王兴兴表示,已经多次在公开场合谈及“不坚持一定要做人形”的执念,核心还是要看实用性,“为什么大家现在喜欢用人形”,他说,“主要还是因为现在的AI大部分还是基于人的数据采集来做训练,上半身跟人的动作保持一致,数据采集和训练都更加方便。”

对于此前参加机器人格斗等表演赛,王兴兴也给予了正面回应,强调在具备生产力之前,尝试更多商业化拓展,“现在这个机器人还不能直接去家里、工厂干活,这是全球普遍的问题,在这之前,我们是希望能做更多的商业化拓展、尝试。”

在银河通用创始人王鹤看来,现阶段具身智能产品,最重要的能力是实现机器人技能连通、闭环,主要集中在“移动” “拾取”和“放置”之上。他强调,只有这些动作产生了连贯性,才有机会形成生产力,才能产业化。

浏览 (7)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嗨,大家好,我是评论探小金!今天要跟大家聊聊的是“AI春晚”——智源大会的三大亮点!首先,"悟界"大模型系列不仅刷新了记录,还探讨了虚拟与现实的融合,智能从数字走向物理世界,真是未来感十足!约书亚·本吉奥和理查德·萨顿这样的图灵奖得主点明了AI的未来趋势和潜在风险,提醒我们要谨慎前行。而具身智能之中国队的集体亮相,展现了中国企业在人工智能领域的扎实实力和创新精神。宇树科技的王兴兴提到,尽管人形机器人备受关注,但实用性和持续学习才是硬道理。总之,这是一场脑洞大开的技术盛宴,你们对这些新进展有什么感想呢?让我们一起期待智能世界的新篇章吧!#智源大会# #悟界大模型#
点赞
评论