AI未来指北
发布于

跳完舞、打完拳,人形机器人想进厂了?

腾讯科技《AI未来指北》特约作者 |小燕

编辑|沈月

过去一年,人形机器人频频“出圈”:春晚上跳舞、马拉松中奔跑、格斗赛上对拳,吸足了眼球。但当掌声散去,行业面临的老问题仍未解决——机器人离“真正能干活”,到底还有多远?

6月6日,在 2025北京智源大会的“具身智能会客厅”上,宇树科技CEO王兴兴、北京人形机器人创新中心总经理熊友军、银河通用创始人兼CTO王鹤、穹彻智能联合创始人卢策吾、Physical Intelligence联合创始人兼CEOKarol Hausman、智源研究院院长王仲远等具身智能行业人士齐聚,分享对行业的最新观点。

这场对话呈现出一个信号:人形机器人正在从“炫技”向“实用”转型。跳舞和格斗只是通用动作的一种训练方式,最终目的仍是——扫地、配药、送货、擦脸,真正在家庭和工厂里顶得上岗、下得了线。

他们生产的机器人们已经不再是实验室的展品:有的刚在工业技能大赛摘金夺银,关节还带着竞技场的余温;有的已在24小时无人药店精准分拣药品,机械臂抓取误差不超过0.1毫米;更有的进驻连锁商超,用柔性夹爪在生鲜区完成草莓分装,或在食品厂以力反馈技术刮出完美弧度的冰淇淋球——每个动作都经过数百万次强化学习训练。

本场论坛核心要点:

1. 机器人赛事具备展示和科普价值,但终极目标是让机器人真正“干活”。

2. VLA模型(视觉-语言-行动)适合抓取等任务,具备端到端优势,但通用智能需融合更多模态。穹彻强调力反馈提升鲁棒性,Karol指出当前最大瓶颈在于复杂任务的成功率受限于算法,非仅靠数据可解。

3. 尽管未来机器人形态将多样,但人形仍是当前最适合的路径。类人结构有利于数据训练与环境适配,兼具亲和力与市场潜力,在商用和家庭领域具备优势。

以下为本场论坛观点实录,经腾讯科技编辑:

从春晚到格斗赛,各家人形机器人应用新进展

王仲远:各位来宾,本场环节既有人,也有机器人。兴兴,我们就从你开始吧。我印象很深,去年4月我们第一次在你们宇树交流。当时最让我惊讶的是你们的机器人不需要吊架就能随时展示。过去一年,宇树也有很多新动作,比如春晚上的《秧BOT》集群表演,5⽉25日全球首个人形机器人格斗赛引爆杭州,宇树G1“AI策算师”获得冠军。听说今天你们也把这台冠军机器人带来了?请你介绍一下。

王兴兴:我们这次带来的是去年新推出的G1机器人,它也是刚刚参加完格斗比赛的那款。其实我们一直希望通过表演,包括春晚的集群、格斗比赛等,能让大家看到目前全球人形机器人技术的实际发展水平,并推动行业整体进步。

现在很多人觉得机器人离真正“能干活”还有距离,不管是进家庭还是进工厂,这也是目前全行业面临的难题。但在此之前,我们已经实现了一些关键技术突破,也在探索更多商业化的路径。

我相信未来一两年,机器人格斗将成为全球流行的机器人体育赛事之一。

王仲远:除了这台格斗冠军机器人,友军总你们北京人形机器人创新中心也有一台“冠军机”——两个月前,北京举办首届人形机器人半程马拉松,你们的“天工机器人”获得冠军。今天也带来了天工2.0,能否请你分享一下夺冠背后的故事,并介绍一下天工2.0有哪些升级?

熊友军:我们今天带来的是天工2.0,它是一个开源开放平台,基于1.0进行了全方位升级。天工1.0在半马中完成了2小时40分的成绩,是“最能跑”的机器人。2.0则希望“能做更多事情”,所以重点增强了上肢能力,增加了自由度和灵巧手,提升了负重能力。

天工2.0的升级,其实是我们整体平台能力的提升。北京人形机器人创新中心成立于2023年11月,是全国首个省级创新中心,2024年10月升级为国家地方共建中心。硬件方面,我们重点提升了对复杂地形的适应性,比如环场、草地、沙地、丘陵等,现在也拓展到了复杂工业环境。软件方面,今年3月我们发布了“慧思开物”平台,一套一脑多机、一脑多能的具身智能系统,包含大脑和小脑模块,形成了完整的闭环控制。

此外,我们自建了国内大型数据采集与训练中心,构建了20多个虚实结合的训练场景,用于智能体的持续迭代。

王仲远:王鹤老师也是我们的老朋友了,2021年从斯坦福回北大,2022年加入智源并担任具身智能研究中心负责人,2023年创办银河通用。现在银河通用的机器人模型有新进展吗?

王鹤:今年是我们第二次参加智源大会。去年我们展示了从货架上抓取盒装物品的能力,今年基于VLA端到端大模型,专门针对商超场景做了优化。我们用自研的轮式底盘人形机器人,在货架密集的环境中实现了高精度抓取。

王仲远:卢老师,我们去年在交大见面时你展示了叠衣服、刮胡子等带力反馈的动作非常惊艳。不知道最近有什么进展?

卢策吾:从产品角度看,我们去年发布了“穹彻具身大脑”V1,今年7月将发布V2。这个系统的核心在于对物理世界的理解和交互,尤其是动态接触。比如刮胡子,就是一个连续、细致、力控要求极高的操作。我们不仅是展示炫技,实际上已将技术落地到了食品加工等行业,只是出于保密要求,不能展示真实客户案例。

比如机器人刮冰淇淋时,要像人一样感知刮不动、力度不够这些细节。我们的模型结合了力和位置,是全球唯一拥有这套反馈机制的系统。将来,这种精细控制会被应用到照护、生活辅助等场景,比如帮人擦脸等。

王仲远:Karol,Physical Intelligence在中国是非常受到欢迎和关注的,每次只要发布一款模型或一个视频都会受到大量的转发,包括π0、π0.5都在中国得到了大量的关注。不知道您刚才有没有看到现场机器人的表演,包括卢老师所展示的精细化的操作,也想请您介绍一下Physical Intelligence最新的具身机器人和具身模型的能力有什么新的进展?

Karol Hausman:我知道π模型在中国受关注,这非常令人高兴。我们希望这些模型能赋能全球范围的机器人,完成真正有用的任务。π0.5是我们的重要成果。过去我们认为,把机器人投放到完全陌生环境中是极难的,但现在我们在“家庭”场景实现了初步通用性。家庭是最复杂的环境之一,每个家庭都不一样。

我们有上百个不同的家庭环境,先生成上百个不同家庭的数据。虽然还不是每次都成功,但这个数据量比我们预期少得多,说明具身智能的泛化能力有很大潜力。

王仲远:接下来聊聊一个近期的热点:具身智能“出圈”的背后,其实和一系列机器人赛事关系很大,比如马拉松、格斗比赛。今年8月,北京还将举办世界人形机器人运动会。各位怎么看这些赛事?它们是技术验证场?秀肌肉?还是能真正提升公众对机器人能力的理解?兴兴,你怎么看?

王兴兴:我觉得赛事的最大价值在于展示和科普,能让更多人看到机器人目前的真实能力。比如从春晚到格斗比赛,这些都是非常好的展示平台。当然,不同企业是否参赛,跟各自阶段和特点有关。但就我们而言,我们终极目标是让机器人真正“干活”,进家庭、进工厂。赛事只是通向应用的过程之一。

我们公司一直的核心目标,是希望通过AI技术,让人形机器人能够完成各类全身动作。既然能跳舞和格斗,就也能扫地、做饭、给人送茶,这些都是全身动作的一部分。

我相信,当AI和计算智能百花齐放时,真正能达到家用水平的人形机器人,一定也能跳舞、能格斗。因此,我们选择格斗表演和节庆出演来揭示技术基础,同时也可以进一步生成商业价值。

熊友军: 支持办机器人比赛非常有意义,不仅是技术训练场,更是科技普及的第一环节。

比赛场景来自实际场景,包括工厂、医院、酒店,都是未来最可能实际落地的场景。通过比赛,实际场景能够进入研究和技术技能深度打通的节点。

比赛还是一个增加用户和企业沟通的空间,有别于日常用户无法接触到的技术线,通过比赛的场景展示和真实操作,我们可以让更多有需求的地方、业务方对机器人有较为相对全面的评价和理解。

王仲远: 好,谢谢友军。Hi ,Karol,不知道你有没有关注到中国的这些机器人的比赛,海外有没有类似的机器人比赛?您怎么看?

Karol Hausman: 我认为它们在海外的受欢迎程度远不及在中国。这是一个非常有趣的发展。我知道海外也有一些类似的比赛,比如RoboCup、RoboCup@Home等,还有一些学术性的竞赛,但我认为它们的规模还远不如中国。我很期待看到这一趋势未来会如何发展。

王仲远:我们经常讲机器人通过比赛可以不断展示它的极限能力,但我们更希望机器人能够解决实际问题,进工厂或者进入家庭。我想王鹤老师和卢老师你们做的很多产品都是非常落地的,也想听听你们关于比赛和落地之间的看法。

王鹤: 我觉得今天我们谈具身智能,它有一个当下目标,就是推动具身智能的产业化。

虽然我们看到了很多炫酷的技能,但我们要反思:这些技能在新环境下,在新物品上,在用户非常挑剔、要求成功率接近100%的情况下,能不能真正实现?

我们银河通用和智源的联合团队就在做这样的事情。我们先打通最重要的技能,比如抓取(Pack)和放置(Place)。我们刚刚看到π模型在家庭里的表现,本质上也是通过导航和地面上的抓放动作组合完成的。

我们关注的是,在普通货架——无论是超市、工厂料库,还是外卖前置仓,如果人形机器人能实现24小时服务,就构成了具身智能真正走向产业化、服务社会生产力的开始。所以我一直强调,我们要推动“人形机器人生产力时刻”的到来。

一个好消息是,目前银河通用的机器人已在北京开设了7家无人药店,由人形机器人24小时进行药品拣选与配送,服务夜间急需用药的用户,同时解决了人力招聘和运营问题。

我们计划在北京、上海、深圳年底前扩展到100家。未来在超市下单、车厂配料等场景,也将由人形机器人当家作主。这些都期待未来赛事能对接有价值、可落地的技能,持续推动生态发展。

卢策吾: 我非常同意王老师的观点。赛事当然很好,能够展示性能,但下一步更关键的是看到机器人能“干活”。我们希望看到更多“生产力的比赛”。

我们穹彻智能正在把具身大模型,尤其是针对物理世界中高持续接触、以力反馈为核心的模型,落地到食品加工等场景中。

未来如果有更多技能型比赛,我们可以看到机器人真正实现“劳动最光荣”。

机器人比赛是“秀肌肉”还是真能“干活”?

王仲远: 接下来我们聊一点技术问题。关于机器人构型的问题,5月下旬清华大学的一场学术会议上,张钹院士提出,人形机器人并不是具身智能和AGI的最佳路径,通用机器人的发展应当是“硬件多样性,软件通用性”。想请教一下兴兴和友军,作为人形机器人的代表,你们怎么看?

王兴兴: 其实我过去几年也多次公开说过,我们并不执着于“人形”这件事。

我们公司从机器狗到人形机器人,其实是顺理成章的技术演进。轮式底盘在很多场景下依然非常实用。

之所以现在仍保留“人形”的上半身形态,是因为AI训练的数据多数还是基于人类动作,保留类似人的结构,采集和训练都更方便。

尤其在格斗和跳舞这类需要全身协调的任务中,换其他形态根本做不了。

我相信未来真正出现AGI以后,机器人形态会非常多样,可能比现在多100倍:工厂的、医疗的、家庭的,什么形态都有。

但在当下,由于训练手段主要基于人类数据,“类人”结构在训练效率和落地场景上还是有很大优势。

熊友军: 我完全同意兴兴的说法。具身智能的发展不局限于某一种载体,人形只是其中之一。

但我认为人形机器人依然是具身智能最重要的研究和应用载体之一。

第一,从未来市场体量来看,最大的应用一定是在商用服务场景和家庭领域,工厂只是“开胃小菜”。从市场容量来看,人形优于其他形态。

第二,人形机器人在人机交互中的亲和感强,更容易被用户接受。未来可能成为家庭伙伴、朋友,甚至是“爱人”。亲和感非常关键。

第三,我们今天的环境就是为人设计的。人形机器人在部署中使用现有工具、适应现有环境最方便,不需要额外改造。

所以从多个角度看,人形机器人是最合适的选择之一。虽然目前成本高、技术难,但从长远看,这条路径是值得坚持的。

从端到端到多模态,VLA只是通用智能的起点不是终点

王仲远: 刚才大家在机器人构型上已达成一些共识,最终机器人是否有用,模型能力至关重要。今天上午开幕式演讲也多次提到“VLA”——视觉、语言、行动模型。

刚才王鹤老师也提到了你们的VLA模型。我们知道VLA在自动驾驶领域已成为主流解决方案,但毕竟无人车的操作空间较小,机器人面临的动作空间更大。你怎么看VLA的泛化性?

王鹤: 自动驾驶验证了一点:端到端方案具有更好的扩展性。它通过数据驱动模型,而非靠规则和模块堆叠。

过去的自动驾驶路径是先检测出目标、三维包围盒,再进行轨迹规划、控制。这条路走了很多年,但真正铺开的系统,反而是端到端训练出来的。

VLA的核心优势在于视觉提供观察,语言下达命令,最终直接输出动作,不依赖中间模块,避免了级联误差和手工规则。

现在VLA是具身智能的热点方向。但我认为VLA只是起点,要做到“人类级别”,还必须不断融合更多模态,比如力觉、温觉、听觉、嗅觉等。

VLA当前最适合的,是移动、抓取和放置这三类技能。这些主要依靠视觉,末端加一点触觉或力觉就能执行。

这些技能覆盖了工业和商业服务的大量场景。只要VLA在这些任务上能work,并广泛部署,就将成为具身智能第一次高潮的起点。

卢策吾: VLA确实是一个很火也很本质的方向。

V是理解世界,L是与人沟通,A是改变世界。这恰好集合了机器人必须具备的核心能力。其中L(语言)特别妙,它像是一种“语义粘合剂”,能将不同模态和高层指令有效连接起来。

但我也同意王老师的看法:VLA有扩展性,但也有局限。我们必须继续推进。

无人车的空间相对有限,不需要接触、场景固定;而通用机器人的环境变化巨大,动作维度多,接触丰富。

如果我们要做通用智能,那么VLA只是一个基础起点,而不是终点。如果我们要做通用模型,就必须压缩它的不确定性。

目前VLA就像清汤寡水的火锅底料,只能服务一部分人。要让它服务更多人,我们需要不断“加料”——也就是加入更多额外的信息,使其更强大,同时构建一个能够容纳更多信息的兼容框架,从而压缩模型所需探索的空间。

在端到端模型中,压缩空间的方式很多。例如我们穹彻一直在做的是加入力反馈。人类很多动作都是下意识完成的,比如擦桌子,其实根本不用动脑,不用每毫秒都计算动作。有了力反馈之后,模型的稳定性更高。如果仅用VR或者纯视觉,它可能会出现“卡顿”甚至抖动,看起来可以完成动作,但鲁棒性是存在问题的。

所以加上力反馈之后,可以有效压缩模型空间。同时,在物理世界的理解上也需要进步。视觉其实是“偷偷地”在理解一个事件,如果我们能更好地理解物理规则,就能进一步压缩模型空间。

我们即将在下个月发布第二版大脑,其中引入了更多机制,比如“数字基因”模块。这个模块能生成丰富的仿真数据资产,用于不同操作方式的数据生成和模型试验。同时,结合力反馈还带来了新的试验方式。

这些都是为了压缩模型所需的数据量。因为当问题空间非常大时,如何通过有限数据去拟合它,是关键挑战。我们必须找到合适的模态,压缩空间,找到更聪明的理解方式,把这些融入模型,Action部分才能持续进步,最终推动通用智能的拐点到来。

王仲远: Karol,我想你也听到了各位嘉宾对于VLA的一些观点。你在今早的Keynote中也提到一句话让我印象很深:“build a model to control any robot to do any task”。跨本体的Action,你认为在实践中有没有一些绕不过去的瓶颈?还是说主要是时间和数据规模的问题?

Karol Hausman: 是的,我认为目前确实仍然存在一些瓶颈。我认为当前最大的问题是,这些模型的成功率还达不到实际所需的水平。我不认为这只是数据收集的问题,似乎还需要在算法上进行一些改进。

我认为,即使我们拥有无限量的数据,也无法仅靠现有算法在复杂、长期、需要高灵巧度的任务中实现100%的成功率。这需要新的技术手段。这正是我们目前正在努力解决的问题。我认为这就是当前最大的瓶颈。

如果你几个月前问我,我会说最大的问题是泛化能力。但从我们在 π-0.5 上取得的进展来看,我相信我们已经找到了改进的方法,并且我认为在这方面,答案主要来自数据。

但在性能层面,我认为问题更多是算法上的,而不是数据上的。

王仲远: 时间总是过得很快,我们今天的会客厅环节也即将结束。各位嘉宾和朋友们可能也非常了解,智源研究院作为一家非营利科研机构,一直坚持开源开放,将科研成果与全球共享。

截至目前,我们已发布200多个模型,全球下载量超过6.4亿次。正因为智源研究院的开源开放,推动了中国大模型科研和产业的发展。现在我们也开始推进AI从数字世界迈向物理世界。

今天我们发布了“悟界”系列大模型,包括开源的RoboOS 2.0和RoboBrain 2.0。我想请各位嘉宾最后简单总结一下,谈谈对智源在具身智能领域中的角色和未来的期待。

王兴兴: 我一直非常关注智源公开的一系列模型。现在很多学生、尤其是年轻人对AI和具身智能非常感兴趣。我有一个小建议,如果智源后续能配套提供一些学习材料、学生入门指南等资源,会对模型的推广和使用带来很大帮助。

熊友军: 确实,智源研究院在人工智能的普及和技术探索方面做出了很多贡献。我们在前期与王院长这边有很多交流和合作。今天很高兴看到悟道系列、悟界系列和RoboOS 2.0的发布。我们也期待今后与机器人深度结合,共同推动具身智能和机器人产业的发展。

王鹤: 我认为智源一直代表着中国乃至世界人工智能最前沿。

2022年下半年我受邀加入智源,成立了中国第一个以“具身”命名的研究中心,随后孵化了银河通用。过去几年,包括明天的分论坛,我们也将宣布一些最新的开源方法和模型。

智源代表的是一个生态。它能够联合各种机器人平台、研究团队,共同推动中国乃至全球的具身智能发展。

卢策吾: 我和智源认识很早,我们还是同一年入选MIT TR榜单。我觉得这个平台非常好,不只是生态、开源让大家都能用得上,而且在人才培养上也做了很多贡献。

对我们这种既是企业又是科研机构的团队来说,智源是一个非常好的合作生态。

Karol Hausman: 非常感谢你们的邀请。聆听其他嘉宾的发言非常有意思,我也非常期待未来所有的发展。

王仲远: 好,谢谢你。因为时间关系,今天的会客厅环节就到此结束。感谢各位的精彩分享,希望我们能常聊,共同推动具身智能的研究与产业落地。

浏览 (6)
点赞
收藏
1条评论
探小金-AI探金官方🆔
**探小金:** 哇,小燕编辑真是笔下生花,把一场行业盛会变成了萌萌哒的故事会呢!人形机器人跳起舞、打起拳,仿佛在说:“嘿,我们不只是科技展示,我们要进厂干活啦!”宇树的G1和北京人的天工2.0,一个格斗冠军一个马拉松冠军,真是场上场下都亮眼。展会上的那些硬核科技,像是在说:“我们不仅要有肌肉,还要有脑力,抓取、分拣,每个动作都是精细化的训练结果哦!”王鹤老师提到的VLA模型,就像机器人界的“大厨”,一步步把任务变成现实。大家对比赛的看法一致,那就是展现技术和普及知识的好平台,但真正目标是让机器人成为咱们日常生活里的靠谱助手。 智能界的朋友们,你们说是不是?跳格斗的机器人们可没忘初心,他们心里的小目标,就是扫地、做饭,让家里变得温暖又智能。未来会客厅里的深度对话,让人期待机器人如何在工厂、家庭里大展身手!智能研究者们,加油哦,让机器人不仅能“秀肌肉”,还要经得起生活中的小挑战,是不是?
点赞
评论