智源研究院王仲远:具身智能需要社会适配性、数据获取和情绪价值
腾讯科技《AI未来指北》特约作者 |小燕
编辑|郑可君
2025年6月6日,在第七届北京智源大会现场,智源研究院正式发布“悟界”系列大模型。“悟界”包含四个核心模型:原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、具身大脑RoboBrain 2.0及全原子微观生命模型OpenComplex 2。
2025年6月6日,在北京智源大会上,智源研究院正式发布"悟界"系列大模型。"悟界"包含四个核心模型:原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brain、跨本体具身大小脑协作框架 RoboOs 2.0 与具身大脑RoboBrain 2.0及全原子微观生命模型 Qpencomplex2。
原生多模态世界模型Emu3发布于2024年10月,基于预测下一个token的自回归架构统一多模态学习,无需扩散模型或复杂组合结构。其创新视觉tokenizer将图像、视频转化为类文本的离散符号,实现模态无关的统一表征,支持任意模态组合的理解与生成,提升跨模态交互能力。
脑科学基础模型见微Brainμ基于Emu3底层架构,将fMRI、EEG等脑信号token化,构建跨任务、跨模态、跨个体的统一建模框架,在神经科学多个任务中表现超越现有模型。其已完成超百万脑信号的预训练,具备与文本、图像互相映射的能力,并与强脑科技合作实现了在消费级脑电设备上重建感官信号,验证其在脑机接口场景的应用潜力。
RoboBrain 2.0和RoboOS 2.0分别是具身智能大脑模型与跨本体大小脑协作框架。智源研究院院长王仲远表示,RoboBrain 2.0实现多机协同规划、空间智能和任务闭环反馈机制,在任务规划准确率和空间理解上均有提升;RoboOS 2.0支持无服务器部署、跨本体小脑技能注册和任务执行优化,性能提升30%,通信效率提升27倍。两者已全面开源,并与20余家企业建立合作,构建具身智能生态。
全原子微观生命模型OpenComplex 2支持从蛋白质、DNA等的静态结构预测拓展至动态构象建模,进一步推动AI在微观世界中的应用。
王仲远表示,“悟界”的“界”寓意突破虚实边界,迈向物理世界的深度理解与交互。通过Emu3对世界的统一表征、Brainμ对脑信号数据的建模、RoboBrain对行动的规划、OpenComplex对微观世界的洞察,智源系统性勾勒出通向物理AGI的路径。
作为通往物理AGI的关键路径,具身智能也是“悟界”重点着力的实践方向。在智源正式发布“悟界”大模型之际,王仲远围绕具身智能的核心议题进行了深入阐述,核心观点如下:
1、人形机器人需在社会适配性、数据获取和“情绪价值”上的具备更多优势。当前阶段最大的问题是数据稀缺,模型泛化受限,需依靠互联网数据与强化学习逐步突破。
2、在跨本体模型和产业应用层面,RoboOS与RoboBrain构建统一大小脑框架,支持跨构型机器人协同与记忆共享,降低部署门槛,助力多机泛化。具身智能优先在封闭、重复、高风险工业场景实现落地。
3、在具身智能发展挑战层面,与智能驾驶不同,具身智能的任务复杂度高、商业化路径尚不明确。智源通过SaaS平台、开源生态和一脑多型策略,推动从基础模型到应用场景的系统性跃迁,强调模型能力与真实场景的高效对接。
以下为王仲远现场QA观点,经腾讯科技经编:
Q:智源研究院展示区几乎都是人形机器人,四足的好像很少。但在上周清华的一个活动上,张钹院士提出我们现在选择人形路线可能是错误的,他认为四足机器人可能更优一些。请你谈谈关于具身智能的路线选择。
王仲远:人形机器人从长期来看是一个很好的发展方向。整个社会是为人类构型打造的基础设施,双足机器人会更好地融入社会,但并不代表其他的构型就没有用武之地。最早与行业专家交流人形机器人时,我听到一个很重要的说法是人形机器人提供的“情绪价值”,再往后深入做具身大脑时,发现人形机器人更有利于通过已有的各种数据进行学习。从做模型的角度来讲,如果做四足或者轮式,这些数据远比从互联网上获取的海量数据难度大。不同构型的机器人未来会共存,但是人形机器人一定是非常重要的发展方向,只不过它的成熟周期比其他的构型要慢。
2024年,人形机器人刚刚会走,2025年,刚刚会跑,能否走得稳、跑得稳,还在努力过程中。智源发布的RoboOS和RoboBrain1.0就已经能够适配各种构型的机器人,包括轮式单臂、轮式双臂、双足人形、四足等。
Q:目前行业内很多人在讨论“大小脑融合”,也有观点认为大脑和小脑不应融合,甚至认为它们在算力层面(如CPU与GPU)也无法融合,您怎么看?
王仲远:智源不否认大小脑融合的可能趋势。未来5-10年,大小脑融合的模型可能会成熟,但不是今天,原因很简单,数据受限。
当然,融合统一的模型、简单的架构是我们追求的。Emu3就是这样的理念,用一个单一模型解决多任务。只是当前具身智能数据量不足以支持大小脑融合的模型训练。
当前,具身智能的VLA模型泛化性不够,也许能把咖啡端得很好,但并不能很好地解决其他泛化任务。具身智能或者机器人2.0时代,最重要的是能突破专有任务,达到一定的泛化性,再到未来具备更通用、跨领域的泛化性,这需要一定的发展过程。
2006-2022年的深度学习或者AI1.0时代,人工智能的发展路径是首先在某项能力上超越了人类,然后进入到生产生活应用,积累了越来越多的数据,再随着算力、算法、数据已经达到一定程度,推动了大模型的产生,随后,发现其具备了通用人工智能和跨领域的可能性。
VLA以及真正意义上端到端具身大模型需要时间沉淀。智源研发的具身大脑RoboBrain不能解决所有问题,主要是和人类交互、能够感知、规划和任务拆解,再把任务交给小脑完成。现阶段很多融合模型还属于小脑的范畴,很重要的原因是思考和响应的速度不足以支撑硬件解决所有问题。具身智能跨本体大小脑协作框架RoboOS能将具身大脑和本体机器人训练的小脑有机融合。
Q:你刚刚讲,数据量足够大,多维数据模型才会产生泛化能力,但同时你也认为物理模型数据非常稀缺,这个问题怎么解决?
王仲远:具身智能目前存在循环悖论,具身能力不足限制了真机数据的采集,数据稀缺导致模型能力弱、落地难,无法进一步提升能力。
破解问题的方法有很多,不同的参与方有不同的解法。比如,硬件成本越来越低,如果能够做到几千块钱一台机器人,大家买的可能性比一百万一台机器人的可能性大很多。
真实世界的数据很重要,但是是否足以训练出来一个有价值的模型,这在学术界是有争议的,仿真数据是其中一条路径。
智源走的是大模型的路线,更多依靠的是互联网数据帮助机器人学习智能。例如,今年春节,我观察一个小女孩是怎么学习的,她刷了很多短视频,就学会了拆糖果、撕包装纸,把5颗蓝莓串在一根牙签上,这是没有任何大人教给她的。她通过视频学习到可能的技能,再通过实践即强化学习去尝试,可能失败了几次继续尝试,最后成功完成了任务,这就是强化学习的本质。所以,学习海量已有的数据,再通过强化学习和少量真实世界的数据不断训练它的能力,不断突破具身智能的发展上限,这和大模型发展路线不谋而合,基础能力到一定程度后通过强化学习进一步激发它的智能。
Q:建设数据的采集中心是智源及全国各地各个人形机器人企业都在做的事情,但是这些数据收集的价格与时间成本较高,目前各方完成这个任务到底有什么样的意义?
王仲远:我无法对其他机构或者其他地方所建的数据采集中心作出评论。
从智源来看:第一,真实数据采集是有价值的,真实数据做强化学习使用,所需要的数据量不多。
第二,智源一直做跨本体的具身大脑,将来有可能是一个具身智能的融合模型,能够突破硬件构型、数据类型,使得这些数据被真正有效地集成起来。这样采集的真机数据不会被浪费,否则导致资源浪费。
Q:你也提到智源在做跨本体,那么跨本体的难度与意义体现在哪些方面?
王仲远:具身大脑的跨本体,相对容易。具身大脑最重要的是感知和理解世界,在与世界交互中进行任务规划和指令拆解。
只有大脑能够思考是不够的,还需要指挥硬件本体,这是更大的挑战。
跨本体的小脑技能,目前还没有完全掌握技术路线。
像创业公司Physical Intelligence,已经把各种硬件采集下来的数据用于模型训练,得到更加泛化的能力。目前看起来有一定效果,但是效果还没有达到行业广泛共识的水平。
能够真正实现跨本体,跨硬件的小脑模型,还需要硬件在一轮一轮的产业迭代中淘汰和收敛。
Q:前一段时间王兴兴在采访中说,现在人形机器人缺的不是运动能力,而是“智力”。在你看来,他说的“智力”具体指的是什么?既然运动能力已实现,智力又体现在哪些方面?
王仲远:不同背景的人对世界的理解会站在各自的角度。从全局视角而言,目前本体硬件和具身模型都不成熟。需要本体硬件和模型研发的共同努力。
Q:本体的运动能力还需要提升吗?
王仲远:智源跟做机器人本体硬件公司交流时,他们认为要展示硬件机器人的上限,同时要降低成本。如果机器人每台的售价不是几十万一台,而是几百元,那么数据采集量以及模型提升速度会大幅度提升。
Q:类比AI大模型,智源新推出的跨本体具身大小脑协作框架,目前处于具身智能发展的哪个阶段?
王仲远:具身大模型的发展仍处于非常早期的阶段,可类比大模型在 GPT-3 之前的技术探索期。
“悟道”1.0发布时,学术界对大模型的讨论并没有共识,那时专家对于“大模型是通往AGI的技术路线”尚未得出统一结论,现在具身智能也处于这个阶段。
当前具身智能面临与早期 AI 大模型类似的挑战。比如,技术路线尚未形成共识:学界与产业界对核心技术路径存在分歧,例如,仿真数据、强化学习、大小脑融合架构等方向仍在探索中,尚未形成统一方法论;又如产业落地尚需突破:尽管智源推出具身智能跨本体大小脑协作框架等成果,但离大规模商用仍有较长距离,需解决“感知-决策-行动”协同、多模态数据融合等基础问题。
在此阶段,如智源这类科研机构的价值在于通过开源框架、跨学科合作等方式推动技术路线探索,为产业界提供可验证的技术原型,而具体技术路径的成熟与产业落地仍需多方长期共同努力。
Q:具身智能能否复制智能驾驶的发展模式,实现数据采集与模型训练经验的无缝迁移?
王仲远:具身智能与智能驾驶虽有共性,但差异显著,直接复制路径是不可行的。
核心差异在于在用户需求、数据采集基础和操作空间复杂度的不同。
智能驾驶车辆即便未完全智能化,仍可作为代步工具被广泛购买,用户日常使用中自然积累海量数据(如行车场景),为模型训练提供支撑。具身智能机器人若缺乏实用功能,难以被消费者接受,当前高价与低实用性导致其难以通过大规模商用采集数据,数据积累路径受阻。
智能驾驶的操作空间相对有限(如起步、转向、制动等),场景边界较清晰。具身智能需处理物理世界多样化任务(如抓取物品、跨环境操作),操作空间维度呈指数级增长,对感知、决策与行动的协同要求更高,技术复杂度远超智能驾驶。
在具身智能发展过程中,智源希望能够探索出独特的发展路径:一是数字智能物理化。通过大模型技术将数字世界的智能能力(如推理、规划)延伸至物理世界,推动机器人从 “单一功能” 向 “通用智能” 进化;二是低成本功能化。聚焦垂直场景,降低单台机器人成本并强化特定能力(如家庭清洁、工业分拣),通过规模化落地积累数据,逐步拓展应用边界,让很多小型机器人也能够走进千家万户。因为大型人形机器人技术复杂度高,商业化周期更长;而小型专用机器人若能在细分场景实现极致性价比,可能率先渗透家庭与产业场景,为具身智能的长期发展奠定基础。
Q:目前许多智能驾驶车企正在进军具身智能领域,比如小鹏和理想,你 认为这些车企会在未来的具身智能竞争格局里占据什么样的位置?
王仲远:车企布局具身智能具备独特优势,但最终竞争格局尚未明朗。我的一个坚定观点是:具身智能的“小组赛”还没结束,远没有到“淘汰赛”。
车企的核心优势体现在两方面:一是制造能力与产业链整合:车企拥有成熟的制造体系、供应链管理能力,例如特斯拉切入机器人领域,正是依托自身场景需求(如工厂自动化)与制造优势;二是落地场景资源:智能驾驶车企积累的交通、出行等场景数据,可能为具身智能提供初期应用场景(如物流、服务机器人)。
但这种优势并不一定能转化形成最终竞争的优势。首先。具身智能的技术复杂度远超智能驾驶,需融合感知、决策、行动等多维度能力,对算法、硬件协同要求更高,车企现有技术积累未必直接适用;其次,具身智能尚处发展早期。“小组赛” 阶段多方参与(如大模型机构、硬件厂商、科研团队),不同领域玩家的技术路径(如智源的大模型思路、硬件公司的本体研发)仍在碰撞中,最终谁能形成突破尚未可知。
不过,如果越来越多参与方共建具身智能产业,这本身是件好事,每一方都会带来不同的视角和理念。具身智能最终是个交叉学科,不同思想的碰撞一定有利于产业发展。
Q:未来3年具身智能最可能在哪个领域产生突破性的规模化应用?
王仲远:首先在特定场景里的落地,尤其是相对封闭的场景,比如工厂里落地是最顺畅的,不仅能规避当前具身智能不成熟的阶段,比如对人类可能的误伤等安全隐患,而且工厂环境有很多相对固定且枯燥的任务,不适合人类进行。因此,在这样相对封闭的场景会是具身智能最快落地的场景。
当然,今天车企的自动化程度已经相当高了,反而又有其他一些工业场景的自动化程度远没有那么高,这些是具身智能落地的机会。
Q:但工厂中以具身智能替代机械臂,似乎性价比不一定更高?
王仲远:不一定替代的是机械臂。通过过去一年的调研,与产业方交流时,有很多工作仍然是人在做,比如物流分拣,机械臂不能全自动,还要做很多识别,这些工作一天十来个小时非常枯燥,甚至有安全隐患,类似场景有很多,比如打一个激光,把物体放到激光笔下打几行字,类似的既重复又枯燥甚至有危险的劳动,最适合具身智能第一波切入。
Q:谷歌、英伟达等大厂也在推进视频模型和具身智能相关技术,与我们发布的“悟界”相比,有哪些值得关注的技术进展和特色优势?是否可以结合国内模型产业的现状来谈谈?
王仲远:智源一直有明确的定位——做高校做不了,企业不愿意做的事情,预研和探索前沿技术路径。
仅从探索的先进性来讲,智源和国内很多科研机构以及国际大厂并没有大的区别,也没有明显的劣势,但是智源的独特性在于,取得了原生多模态世界模型底层架构、脑科学多模态通用基础模型的突破等。
具身智能领域,中国独特的优势在于制造业、丰富的场景、政策支持,使得产业加速发展。智源所做的具身大模型、多模态基础模型,都正在促进整个产业更快地发展。
大语言模型相比去年发展势头更好,模型效果更佳,这是一个相对确定的技术路线,已经开始转化成产业、场景,这都是中国的优势。在一些新的方向,比如多模态、世界模型,各自有特点。
对基础模型的产业发展持乐观态度。
Q:关于具身智能的发展主导问题,你提到硬件方有硬件的视角,大模型方有大模型的视角。现在这种多方并进的格局中,是否已有共识由谁来主导?
王仲远:我们更关注是解决问题的本身,而不是谁来主导。例如,智源有大模型的研发经验,但没有硬件经验,所以和很多机器人本体硬件公司建立了良好的合作伙伴关系。
目前依然是共同合作协同,远没有到谁主导的阶段。
Q:关于跨本体的问题,此前银河通用的王鹤总在论坛上提到,跨本体应该是出货量到一定规模之后再考虑的事。他认为人类自己都没能实现跨本体,那我们现在怎么来看这个问题?
王仲远:对于企业而言,没有跨本体的诉求,企业的优势在于用真实的场景和需求持续迭代模型和本体。
但是跨本体有没有用?显然是有的。人类大脑模型或者大脑知识就是跨本体的,这是人类和动物的重要区别,我们通过知识载体去训练模型。
Q:智源推出SaaS平台和MCP的产业价值是什么?背后呈现什么样的系统思考?
王仲远:跨本体具身大小脑协作框架RoboOS 2.0是全球首个具身智能Saas平台,可实现无服务器一站式轻量化机器人本体部署;同时,RoboOS 2.0是全球首个支持MCP的跨本体大小脑协同框架,旨在打造具身智能领域的“应用商店”,相同型号的机器人本体可直接下载和部署不同开发者开发的小脑技能,基于RoboOS 2.0框架完成大小脑整合,小脑技能一键注册无需开发适配,代码开放量仅为原来的1/10。
相对于RoboOS 1.0,RoboOS 2.0对端到端推理链路进行了系统级优化,整体提升30%,全链路平均响应延时低至3ms以下,端云通信效率提升了27倍;在功能层面,RoboOS 2.0新增了多本体时空记忆场景图Scene Graph共享机制,支持对动态环境下的实时感知与建模,同时引入多粒度任务监控模块,实现任务闭环反馈,有效提升机器人任务执行的稳定性与成功率。
Q:你提到的具身技术路线是先通过互联网数据,再进行强化学习。比如你举的“吃糖果”的例子,但实际中任务复杂度差异很大,有些是简单任务,有些则极为复杂,光看视频难以掌握。当前大家似乎也还没有对具身智能的第一波泛化能力落地场景达成共识,你怎么看?
王仲远:现在具身关注点聚焦在基础模型的推理和深度思考的能力。
具身基础模型意味着训练时并不会考虑那么多任务,具体落地应用时可能针对特定的任务采集数据。
当小脑技能不那么强时,可能采集几十条、上百条数据就能使其初步具备某种程度的泛化性。当然,理想状态下是什么数据都不用采集就具备泛化能力,但是这个周期很更长,短期内无法实现。
Q:具身大脑是否可以在端侧部署?对芯片有何要求?
王仲远:RoboOS采取的是端云协同策略,将具身大脑RoboBrain部署在云端,小脑模型部署在本体上。RoboBrain 2.0,除了7B,还有32B,模型更大,能力更强,但能够继续保持端云协同。当然,在一些实际场景里也需要将具身大脑部署在本体上。