星动纪元陈建宇:人形智能机器人,如何从科幻走到现实?

在2025年世界机器人大会上,星动纪元创始人陈建宇围绕“构建通用人形智能机器人”带来主题演讲,深入剖析了具身模型的发展阶段和演进。
陈建宇指出,未来的机器人不仅能够模仿人类的思维,还将突破传统硬件束缚,创造出具备真正通用智能的机器人。他强调,构建具备人类认知和物理交互能力的机器人,不再是科幻,而是即将到来的现实,预示着AI与人类生活、生产力和社会结构的深刻变革。
以下为陈建宇的分享全文:
大家好,今天我的报告主题是关于“构建通用人形智能机器人”。
最近我们发布了两款全尺寸人形机器人,一款是双足机器人,另一款是轮式机器人。我们的人形机器人不仅能够完成如高爆发的360度跳跃等运动控制动作,还能跳舞,并能够执行一些实用任务,比如物流分拣、叠衣服、搬运物品、扫码识别和使用螺钉枪打螺钉等。
那么为什么要做这件事?我们认为通用机器人是AI发展的下一步趋势。AI已经逐渐渗透到我们的电脑和手机等终端设备中,而现在,它正在从思考走向行动,智能汽车就是其中的一个例子。

接下来,我们相信,机器人凭借更强大、更通用的移动和操作能力,必将带来生产力和社会福利的革新。而要构建这样的通用人形机器人,我们认为单靠传统机器人的软硬件系统是无法实现的。
尽管目前机器人种类繁多,但相比刚才展示的几大终端产品,它们的数量依然有限。这是因为每个场景都需要建立一套独立的系统。我们认为,这种硬件堆砌无法带来真正的智能进化,而专业化系统则可能使我们陷入商业陷阱,难以实现机器人规模化生产。这也是为什么,尽管机器人领域已经发展了半个多世纪,仍未出现真正的行业巨头。
那么,如何构建通用机器人呢?我们认为最直接的路径就是向人类学习。人类是现实世界中唯一具备通用智能的实体,而语言模型之所以成功,就是通过学习人类语言来实现的。而机器人需要构建与人类类似的通用“大脑”,这个大脑不仅具备语言功能,还能控制双手、双腿等身体部位,实现与物理世界的交互。

接下来,我将讲解通用机器人的“大脑”。我们发布了一款名为ERA- 42的通用大脑模型,它是一个端到端的具身模型,集视觉感知、理解、规划到行为执行为一体。我们采用这种端到端模型的原因,也是因为我们从语言模型中学到了这一点。
语言模型在推出后,短短几个月时间内几乎颠覆了整个NLP领域。通过简洁的“预测下一个标记”模型架构,语言模型在多个方面表现出了极强的性能,因此我们认为机器人也应该沿着类似的路径发展,以实现通用模型。
然而,如何将这样的模型应用于控制人形机器人,并与机器人本体配合,是我们面临的挑战。目前,我们已经实现了控制更高自由度的机器人,并且在相对较少的训练数据下,达到了较好的效果。
在具身模型的研究范式上,我们认为最大的瓶颈在于模型范式的更新。我们将具身模型的发展进程分为几个阶段:
第一个阶段,利用语言模型和视觉语言模型来引入具身智能,但这时行为动作和认知模型还是分离的。这一阶段出现在2023年,ChatGPT兴起,大家开始了相关探索。
当前的主流模型,像飞克汉尼克斯等快慢系统,结合了语言模型的深度思考能力和行为动作的实时执行能力,形成了一个端到端的训练模型。我们也在去年开展了相应的探索。
下一阶段是以Sora为代表的生成式模型,因为机器人与物理世界的交互较为直接,而语言模型更多的是处理抽象空间的问题,像sora这类生成式模型能捕捉更细致的物理交互动态。
我们还解决了数据稀缺的问题,通过无标注的互联网视频数据自监督学习,解决了世界模型的构建瓶颈。最终,我们希望通过强化学习,进一步提升机器人在物理世界的执行能力。
我们的训练方式分为两个阶段:前期预训练阶段,通过大量无标注数据进行自监督学习,积累常识。然后进入后期微调阶段,通过少量真实数据进行微调,显著提高任务准确度。这一过程帮助我们在数据量稀缺的情况下,依然能提升机器人的学习能力。

我们构建了一个基于数据的金字塔模型。金字塔的顶部是登记的高质量数据,但其数量非常少。下层包括人类行为数据,尤其是通过VR和AR技术捕获的第一人称行为数据,这些数据的采集成本低且高效。更低层次是互联网数据,这些数据包括人类、动物等各种自然行为,帮助我们构建世界模型。
通过这个数据金字塔,我们能够降低对真实数据的依赖,同时加强机器人的跨任务和跨本体学习能力。去年,我们从单臂机器人实验起步,逐步扩展到双臂人形机器人,甚至更复杂的形态。
关于通用本体模块,我们采用了硬件通用化和模块化的方式。机器人硬件层次分为多个层次,最上层是整机本体层,下面是灵巧手和关节模块等。我们自主研发了这些硬件和软件,确保硬件能够很好地适配我们的软件系统。
总结来说,机器人的通用大脑与通用本体的结合,使我们能够构建通用人形机器人,并通过场景和数据的闭环飞轮不断优化模型。

另外,我们最近发布的新品——心动Q5机器人,也来到了现场。这款机器人专为服务行业设计,具有非常拟人的外形,并且其功能也非常强大。我们可以看到,Q5机器人不仅具有7个自由度的双臂,还配备了五指灵巧手,可以执行优美流畅的舞蹈动作。
随着技术的不断突破,我们的飞轮效应已经显现,产品已经获得了世界头部科技公司的青睐。这些初步的成果标志着我们的技术创新正在迅速进入市场,并受到广泛的关注。通过这种持续创新的方式,我们正一步步推进具身智能的商业化落地。随着技术不断发展,通用人形机器人将成为推动行业变革的重要力量。