机器人自回归的创新,让星海图横扫了7大具身评测基准

编辑|Panda
上个月,Physical Intelligence 发布了新一代基础模型 π0.7,引发了一轮对具身智能泛化能力的讨论热潮。而就在今天,北京的星海图(Galaxea)又为世界带来了 G0.5。

视频链接:https://mp.weixin.qq.com/s/nTJCsLfKtMglgicr_oqKbA
在横跨仿真、真机、零样本、长程任务的 7 个独立基准上,G0.5 全面超越 π0.5,并在其中多项上取得 SOTA。
这不是靠堆数据堆出来的成绩。G0.5 的底层逻辑是对当前 VLA 模型主流架构做出了一个根本性的判断,并用实验数据证明了这个判断是对的。
7 大基准,全面领跑
G0.5 的成绩覆盖了 VLA 领域最主流的评测维度,数据如下:

这 7 项评测范围广泛,从不同角度检测了一个通用 VLA 模型真正需要具备的能力:开箱即用的零样本迁移、跨本体微调效率、仿真环境下的指令跟随以及现实世界中的长程复杂操作。
要在这些维度上同时保持领先,单点性能优化是做不到的。
零样本迁移能力(DROID)
DROID 是目前规模最大的真实机器人操作数据集之一,包含来自多个实验室、多种场景的 Franka 机械臂演示数据。
G0.5 在完全没有针对该平台进行任何微调的情况下,直接部署于 10 项桌面操作任务,平均成功率达到了 82.5%,超过 π0.5-DROID(57.5%)整整 25 个百分点。

尤其在需要多步骤顺序执行的任务「将积木放入抽屉并关闭抽屉」上,MolmoAct2 完全失败,而 G0.5 超过半数试验成功完成。零样本能力直接反映的是预训练阶段沉淀下来的可迁移操作先验,而不是针对某一平台的过拟合。
真实机器人微调(R1 Lite / R1 Pro)
在星海图自研平台上,G0.5 和 π0.5、GR00T-N1.7 使用相同的训练数据、相同的计算预算(各 16 张 H20 GPU),分别完成折叠毛巾、折叠纸箱、铅笔盒整理和箱子搬运堆叠等 6 项任务的评测。这些任务都不是「抓取放置」级别的简单操作,比如折叠毛巾要求机器人从篮子里取出一条变形毛巾,通过双臂协调将其展开、铺平、按预定形状折好,再放入指定区域,任何一步的抓握力度或拉伸张力出现偏差,都会导致整个流程功亏一篑。

同等条件下,G0.5 的平均成功率 76.7%,比 π0.5 的 53.0% 高出 23 个百分点,比 GR00T-N1.7 的 24.4% 高出一倍有余。
仿真基准(LIBERO / RoboTwin 2.0 / SimplerEnv-Bridge)
三项仿真测试覆盖了单臂指令跟随(LIBERO)、双臂协调操作(RoboTwin 2.0)和跨数据集迁移(SimplerEnv-Bridge)三类场景。
G0.5 在 LIBERO 上以 98.9% 的成绩位居当前已公开结果的首位,尤其在 LIBERO-Long(长程序列任务子集)上以 98.6% 的成绩超越所有对比模型。这恰恰是对长程推理能力最直接的考验。



左右滑动查看
RoboTwin 2.0 包含超过 50 个双臂任务,G0.5 以 93.3% 的均值刷新了该基准的最高纪录。
G0.5 在 SimplerEnv-Bridge 上也达到 87.3% 的平均成绩,超过其它所有模型。
长程移动操作(BEHAVIOR-1K)
这是 7 项评测里门槛最高的一项,也是最能说明问题的一项。
BEHAVIOR-1K 挑战赛由 50 个完整家庭场景任务构成,每段演示平均时长 6.6 分钟,最长达 14 分钟,机器人需要控制 R1 Pro 在房间尺度的空间里导航、取物、使用电器、整理物品,其中任何一个中间步骤的失败都会影响后续所有进度。
G0.5 使用单个 checkpoint、仅经过 1 个后训练 epoch,Task Success Score 便达到 0.2904,不仅超越了 π0.5 训练 4 个 epoch 的成绩(0.2626),也超越了使用 4 个 checkpoint 集成的赛事冠军(0.2605)。训练增加至 4 个 epoch 时,G0.5 的得分提升至 0.3136。在 50 个任务中,G0.5 在 29 个上领先 π0.5,π0.5 只在 15 个上领先 G0.5。

1 个 epoch 赢过 4 个 epoch,单模型赢过集成方案。这组数字直接证明差异来自预训练底座的质量,而非微调策略。
架构创新,而非数据堆叠
G0.5 能取得这些成绩,根源在于星海图对当前 VLA 主流架构做出的一个判断:问题不在于数据量,而在于 VLM 被放错了位置。
过去几年,VLA 领域的主流做法是「VLM 作为编码器」:让一个预训练好的视觉-语言模型负责理解图像和语言,然后把它的输出作为条件信号,传递给另一个独立训练的「动作专家」(通常是扩散模型或流匹配网络)来生成最终控制指令。
这种分工有明显的效率优势。但也有代价:VLM 在预训练中积累的思维链(CoT)、上下文学习、提示引导等核心能力,只能经过这道压缩瓶颈间接影响最终动作,即 VLM 成了一个条件编码器,而非真正的决策者。
G0.5 的选择是彻底去掉这道瓶颈,让同一套模型权重、在同一条自回归序列里,同时完成推理和动作生成。

技术报告:https://opengalaxea.github.io/G05/Galaxea_G0_5.pdf
项目地址:https://opengalaxea.github.io/G05/
图像、语言、推理痕迹、物理动作,在 G0.5 里全部被转化为共享词汇表中的 token,经过同一个 Transformer 解码器、同一次前向传播生成。这样一来,推理就成了动作的组成部分。
为了让这套自回归路线在基础模型规模上保持实用,G0.5 引入了三项关键设计。
跨本体动作编解码器(ActionCodec):将预训练阶段涵盖的 18 种机器人本体数据统一映射到 27 维动作空间,每类运动部件(左臂、右臂、躯干)对应结构化的动作 token。更重要的是,推理时只生成当前需要移动的部件的 token,静止关节直接跳过。这种稀疏预测机制,让自回归 VLA 在高频控制场景下真正变得可行。

预训练数据中包含的本体。左侧饼图总结了预训练数据集中不同本体类别的相对比例。
原生思维链(Native CoT):模型在生成动作之前,先在同一条序列里输出四类推理 token:原子子任务文本、目标对象边界框、二维末端执行器轨迹、动作提示。这些推理 token 与动作 token 受同一个交叉熵损失函数约束。实验显示,在「面包放入空气炸锅」任务上开启原生 CoT 后,成功率提升了 30 个百分点;在「培根煎制」上提升 35 个百分点 —— 这两个任务都是模型从未见过的分布外场景。

G0.5 在 R1 Lite 上零样本执行「把毛巾放进洗手池」:在同一自回归流中,模型先生成思考(子任务、目标物体框),再输出动作 token,并从每一帧观测闭环重规划。
视觉记忆模块:在 Vision Transformer 的每四层中插入分解的时空注意力模块,将多秒历史帧的视觉信息轻量级地融入当前决策。训练时额外加入 30% 的历史帧随机丢弃机制,防止过拟合的同时,让模型学会在历史信息缺失时依然稳健运行。这一设计对 BEHAVIOR-1K 里移动箱子到储物间、整理卧室等需要反复穿越空间的长程任务效果尤为明显。
言出法随:用自然语言直接控制机器人行为
统一自回归架构还带来了另一个能力:通过改写自然语言提示,直接改变机器人的动作风格和执行细节,无需重新训练。这是此前在 VLA 领域基本没有被系统验证过的新能力!
现在,这套能力在 G0.5 上得到了两个层面的系统性验证。
第一层:思维链对动作的增益随任务长度放大。
星海图团队在单个预训练 checkpoint 上,通过切换推理模式(开启/关闭 CoT)和动作解码方式(自回归 AR/流匹配 FM),做了一组严格控制的消融实验。
结果显示,在单阶段的 Pick-and-Place 任务上,开启 CoT 对自回归模式的成功率提升只有 3.1 个百分点。但随着任务阶段增加,这个差距急剧拉大:在五阶段的「面包放入空气炸锅」任务(入场→开门→抓面包→放入→关门)上,开启 CoT 带来 30 个百分点的提升;在同样是五阶段的「培根煎制」任务上,提升达到 35 个百分点。
这说明思维链的价值不在于帮助模型「想清楚简单的事」,而在于通过逐阶段的子任务分解与目标定位,防止长程任务里的错误积累和状态漂移。
第二层:提示改写可以直接调控动作粒度。
在上述分布外任务上,星海图进一步把每个阶段的简短指令(例如「打开门」)改写为带有丰富副词和空间修饰语的版本(「轻轻地把门完全打开」)。这种改写并没有引入任何新的训练数据,只是让指令携带了更细粒度的执行意图。
结果:空气炸锅任务的成功率在 AR+CoT 基础上再提升 15 个百分点,培根任务再提升 10 个百分点,两项从未出现在预训练数据中的复杂任务完整成功率均突破 50%。

为什么这件事只有自回归架构能做到?
对比数据给出了回答。同样开启 CoT、同样共享预训练权重,仅把动作解码从自回归切换为流匹配(FM)模式:CoT 对 FM 在空气炸锅任务上的提升只有 10 个百分点,培根任务上同样是 10 个百分点;均不足 AR 模式下提升幅度的三分之一。
星海图团队对 CoT 输出的准确率进行了人工评分,AR 和 FM 模式下的推理质量相近(PP Bench 约 90%,空气炸锅约 85%,培根约 80%)。因此这个差距不来自推理本身的质量,而来自动作的解码方式:自回归 token 与推理 token 共处同一条序列,动作生成时可以直接回看 CoT 内容;而流匹配专家在产生动作前,已经把推理轨迹压缩进了一个紧凑的条件向量,细节丢失了。
这也是 G0.5 的核心主张得到实验支持的最直接证据:推理和动作必须共享同一个上下文,才能让「思考」真正驱动「行动」。
言出法随
G0.5 的 PP Bench 结果还揭示了另一个值得关注的维度:视觉上下文对语言跟随的影响。

在 50 小时后训练设置下,标准指令(仅有文字名称)的语言跟随率为 84.4%,任务成功率为 75.0%。星海图团队进一步向模型输入了目标物体和容器的裁剪视觉图像作为额外上下文,语言跟随率随即跃升至 98.4%,任务成功率升至 84.4%。

这说明对于语义歧义的长尾物体(例如用中文标注「马」字的中国象棋棋子),视觉上下文提供的细粒度外观线索能够弥补纯语言描述的不足,而 G0.5 的多图像接口可以自然地接收并利用这类补充信息。
操控机器人行为的方式正在向操控大语言模型的方式收敛。用户无需重新采集数据或发起新一轮微调,仅靠自然语言的措辞选择,就能调整机器人在陌生场景下的行为粒度与执行风格,真像是「言出法随」。
全栈闭环下的中国创新
G0.5 是星海图「整机+智能」全栈路线的产物。这家成立于 2023 年 9 月、累计融资近 50 亿人民币的公司,自研的 R1 Pro 和 R1 Lite 轮式双臂机器人平台已服务包括斯坦福、Physical Intelligence、华为在内的全球近百家顶尖具身智能机构,并被用于 π0.5 真机数据的采集。
G0.5 基于 Qwen3.5 2B 视觉-语言模型初始化,预训练数据涵盖 18 种机器人本体,与约 1 亿条视觉-语言问答数据联合训练(其中含 5000 万条具身场景 VQA),整个预训练过程约 12 万步。
这种全栈闭环的意义在于:星海图的本体数据助力了 G0.5 的预训练,G0.5 的泛化能力又反过来降低了本体适配的成本。自回归架构则可以让这个闭环里积累的推理能力传导到机器人的物理行动里。
值得一提的是,架构路线上的判断已不止 G0.5 一例。星海图团队前段时间发布的 Fast-WAM 论文(arXiv:2603.16666),在世界动作模型(WAM)方向给出了同样的底层判断:明确的未来想象对动作性能的贡献远小于预训练阶段的视频联合建模本身,即真正重要的是训练时学到的世界表征,而不是推理时造出的预测帧。
两篇工作指向的是同一个方向:在具身智能的底层建模上,中国团队正在做原创性的架构判断,而不只是在既有框架上堆参数、堆数据。
当然,具身智能还有很长的路要走,但架构的选择已经在决定谁走得更快。