VLA爆发!从美国RT-2到中国FiS-VLA,机器人「即知即行」的终极进化

新智元报道
新智元报道
【新智元导读】2025年,全球具身智能赛道爆火,VLA模型成为了绝对的C位。从美国RT-2的开创性突破,到中国最新FiS-VLA「快慢双系统」,VLA正以光速硬核进化。
2025年,具身智能可真是太火了。
而提到具身智能,不得不提——视觉语言动作模型(Vision-Language-Action,VLA)。
作为具身智能的核心驱动力,VLA正席卷全球,成为研究人员们的「新宠」。
从产业界到学术界,全球的主流公司与研究机构,都在加速向这一方向靠拢,达成了罕见的共识。
在硅谷,诸如谷歌DeepMind、Figure AI、Skild AI、Physical Intelligence等行业领军者,早已开始发力押注VLA的未来。
几周前,谷歌曾发布了首个离线VLA模型,让机器人不用联网,即可精准操控完成任务。

与此同时,中国在这一赛道上的表现也毫不逊色。
近日,国内具身智能代表性创企——智平方,联合头部高校发布了一款全新的VLA模型——Fast-in-Slow(FiS-VLA)。
这款模型最大的亮点,是将双系统模块中的「快系统」嵌入「慢系统」,打破了机器人「操控效率」与「推理能力」不可兼得的困局。

论文链接: https://arxiv.org/pdf/2506.01953
项目主页: https://fast-in-slow.github.io/
代码链接: https://github.com/CHEN-H01/Fast-in-Slow
从放置水果到叠毛巾,FiS-VLA加持的机器人不仅秒懂指令,还能以惊人速度流畅执行。

更令人振奋的是,自今年以来,与VLA相关的学术论文呈爆发式增长。
根据谷歌学术统计,VLA相关结果共有2820条;而今年,就有1390条结果,几乎占全部结果的1/2。

放眼全球,VLA的热潮不止于此。
VLA技术加速机器人从实验室走向物理世界,并催生出了各具特色的技术分支。
这不仅印证了VLA的巨大潜力,也预示着,它正在重塑智能机器人与人类交互的未来。
或许你一定好奇,VLA为何成为了具身智能的「新范式」?
若想破除这一疑问,前提是必须理解VLA模型的重要性。
机器人要像人类一样,既能理解复杂指令,又能灵活应对环境,快速行动——
目前,端到端VLA大模型是最符合第一性原理的解题思路。

作为AI领域的一颗新星,VLA模型将视觉、语言、动作三种模态融在一体,让具身AI不仅能「看懂」世界、「听懂」指令,还能执行任务。
想象一下,一个机器人能理解「将物品放置在冰箱」,并与同伴「共脑」合作,精准完成抓取放置任务——
这就是VLA的魅力!

与传统对话式AI不同,VLA通过统一的模型架构,将多模态信息整合处理,实现了从感知到动作的「端到端闭环控制」。
正是它的出现,让机器人从过去的预编程、简单遥控的「机械执行者」,进化为真正的通用具身智能。
那么,VLA究竟何时出现的?又是如何炼成的?

2022年,谷歌Robotics团队的RT-1横空出世,这是接近VLA的机器人基础模型的代表工作之一。

论文链接:https://arxiv.org/abs/2212.06817
这是机器人领域,首个大规模训练的Transformer模型。
RT-1通过模仿学习,在多样化的机器人演示数据上训练,具备了跨任务的泛化能力,比如它能完成「把可乐放入冰箱」多步骤任务。

它首次将「预训练+微调」的范式引入了机器人控制领域,为后续VLA模型的提出奠定了基础。
RT-1的出现,开创了多任务的「视觉-动作」模型。
既然「预训练+微调」范式行得通,为什么要重新训练大模型?
与纯文本任务不同,机器人系统必须具备对现实世界物理规律、环境上下文的深入理解,并能执行具体动作。
这些问题远远超出了语言模型最初的设计范畴:它不仅要「理解文字」,更要「执行意图」。
随后,研究者尝试将语言融入机器人系统。但这些方法通常存在功能有限、适用范围狭窄或为开环系统,难以实现实时互动与基于反馈的动态调整。
2023年,微软提出了ChatGPT for Robotics,首次将对话大模型应用于机器人,实现了零样本任务规划。

论文链接:https://arxiv.org/abs/2306.17582
这时,只需动动嘴皮子——我想用积木块拼出微软logo,模型瞬间领会完成拼图。

这项研究,将LLM用于机器人控制的设想变成现实,并在机器人领域,引领了一种全新研究风潮——「LLM+机器人」。
不过,它也暴露了语言模型在低级动作控制上的局限,如何让语言与动作的深度融合,成为下一个突破的难题。
几乎同时,谷歌带来了PaLM-E,首次将视觉感知能力融入超大语言模型PaLM中。
PaLM-E最大参数达5620亿,实现了视觉问答、图像描述、机器人操作规划的统一。
在开放领域视觉问答上,PaLM-E刷新了SOTA,还将互联网规模的语义知识迁移到机器人控制中,为后续多模态模型提供了关键的设计范式。

经过四个多月迭代后,23年7月,谷歌DeepMind的RT-2正式上线,明确提出了VLA概念。

RT-2首创性地将机器人动作离散化为文本token,与视觉语言数据联合训练。
得益于此,它展现出了强大的泛化能力,在从未见过的物体上完成指令响应、理解数字符号和多步推理。

RT-2在未见任务上实现了超50%的成功率
这一刻,标志着VLA范式的正式确立,开启了「大模型驱动机器人控制」的新方向。
自此之后,国内外具身智能玩家竞相加速,掀起了一场激烈的VLA技术追逐战。
2024年6月,中国队提出创新方法,破解VLA领域的长期痛点,迅速崭露头角。
众所周知,机器人操作基本目标之一是理解视觉场景并执行动作。尽管RT-2这类VLA可以处理一些基本任务,但还有两个痛点:
(1)面对复杂任务,推理能力不足;
(2)在微调和推断上,算力成本太高。
而状态空间序列模型Mamba,只有线性复杂度,但也实现了情境感知推理。
那为什么不把Mamba引入VLA,解决之前的痛点?
在这一关键时刻,智平方作为国内具身智能领域的领先者,展现了其技术创新的深厚实力。
他们与北大等顶尖机构一起,率先将Mamba引入VLA架构模型,推出了革命性的轻量化结构RoboMamba。
这一突破,直接让VLA模型实现了效率与推理泛化能力的重大飞跃。

论文链接:https://arxiv.org/abs/2406.04339
具体而言,RoboMamba将视觉编码器与Mamba大模型融合,实现视觉常识理解与机器人专项推理能力。
相比之前的VLA模型,RoboMamba不仅复杂度降低了,还显著提升了长序列推理能力。
而且RoboMamba仅微调0.1%参数,即可实现SE(3)位姿的预测与操控能力。
在模拟和真实环境下,推理速度是主流模型的3倍,成为VLA实时性挑战的突破口。
RoboMamba证明了,状态空间建模范式在VLA中的高效性,引领了Transformer替代方案的新探索。
这一突破性成功入选了人工智能顶级盛会 NeurIPS 2024,也创造了中国具身公司在VLA领域国际舞台的首次发声!

紧接着,同月,来自Physical Intelligence、斯坦福、谷歌等机构的团队,则针对RT系列模型所暴露出的问题,开源了一款全新的大规模VLA模型——OpenVLA。
此前的RT系列模型虽展示了VLA模型的通用泛化能力,但其对物理空间的表达能力,即视觉编码器(Vision Encoder)在精细化识别上,表现不佳。

举个栗子,让RT-2机器人分类同色积木块、将可乐放在霉霉身边的任务中,表现并不理想
OpenVLA有7亿参数,基于Llama 2骨干构建,融合了DINOv2和SigLIP视觉特征,并在97万个真实机器人示教数据集上完成了预训练。
令人意想不到的是,OpenVLA在29种操作任务中,碾压55亿参数的RT-2-X,成功率高出16.5%。

论文链接:https://arxiv.org/abs/2406.09246
OpenVLA仅以1/7的体积,就实现了性能超越,还能在消费级GPU上快速适配各种任务。
比如,让它把香蕉放在盘子里,OpenVLA就会直接将其放在盘子中间。

继RoboMamba、OpenVLA推动了模型开源和效率提升之后,Physical Intelligence提出的π系列模型重新思考一个问题:
如何用最简结构,实现VLA最强泛化?
2024年10月31日,π₀,一款通用机器人流匹配策略模型诞生。
在预训练视觉语言模型基础上,π₀叠加了流匹配架构,集成了互联网级语义知识,同时还支持单臂、双臂、移动操作臂等多种灵巧机器人的连续动作建模。

在洗衣折叠、桌面清洁、装配盒子等复杂任务中,π₀展现出零样本执行、自然语言指令遵循、快速微调新技能的能力。

π₀架构
得益于其「流匹配+预训练语义模型」的架构,为高自由度连续控制场景提供了全新路径。
与此同时,π₀还承接了RT-2对语义泛化的关注,进一步推动了AI社区对VLA模型研究。
时隔半年,π₀.₅作为初代增强版发布,更加聚焦开放世界泛化能力的提升,强化了在未见环境中的适应能力。
π₀.₅在未见家庭场景中,无需训练即可高质量完成清洁任务,处理从模糊指令到详细动作的多种输入。

它的诞生,真正实现了在不牺牲精度前提下,提升了「任务泛化」和「环境泛化」的性能,标志着VLA已具备了向现实世界大规模推广的能力。
π系列仅是VLA模型技术分支的一种:采用扩散架构。
除此之外,随着不同玩家的布局,在VLA全新范式下,已经分化出不同的技术路径。
有的采用自回归架构,有的基于扩散模型的动作解码器,还有的两种架构兼用。
HybridVLA,就是混合架构的代表作之一。
这背后,依旧由中国团队主导,他们通过原创突破攻克了复杂环境下鲁棒性与泛化能力平衡的难题,开启了混合动作生成的新方向。
通过自回归和Diffusion+Action Chunk架构,HybridVLA统一了视觉-语言-动作的协作生成。

论文地址:https://arxiv.org/abs/2503.10631
如下图所示,过去基于扩散的VLA方法仅在LLM后端附加独立扩散头(图1a)。
而新方法创新性地提出协同训练方案,将扩散去噪过程无缝融入单一LLM主干的自回归流程(图1b)。

不同VLA中LLM和Diffusion的融合方法对比
具体实现上,针对离散自回归token与连续扩散隐变量在表征层面的异构性,研究者设计了系统化的token序列组织形式,利用特定标记token实现多模态输入、扩散token与自回归token的有机衔接。
从结果上看,HybridVLA在多个仿真和真实世界任务中超越了现有的SOTA VLA方法,这也是PI0.5-KI唯一对比过的中国VLA模型。
值得注意的是,该Paper的一作刘家铭博士目前也是「北大—智平方具身智能联合实验室」的研究员。

最终,机器人实现了全身控制,包括从桌面单臂到全域触达&全身动作,因而适用范围也得到了指数级拓展。
尽管业界在VLA模型的探索成果颇多,但传统方法仍未解决具身智能领域核心矛盾——
视觉-语言模型(VLM)具备很强的泛化能力,但处理速度较慢;