对话蚂蚁灵波首席科学家沈宇军:2万小时真机数据,用“慢功夫”做具身智能|甲子光年

在基座模型阶段,蚂蚁灵波选择那条“慢”但正确的路。
作者|周悦
编辑|王博
1956年的好莱坞电影《禁忌星球》里,有一个名叫Robby的机器人。
它力大无穷、逻辑严密,却被设定了一条不可违背的禁令——不能伤害人类。这是人类对机器人走入现实世界最早的想象之一。

Robby机器人(图左),图片来源:电影《禁忌星球》
七十年后,这个名字在蚂蚁集团(以下简称“蚂蚁”)内部被重新提起。从Robby到Robbyant,最终定格为旗下具身智能公司的名字“蚂蚁灵波”。
此前,外界对蚂蚁灵波的认知,大多停留在2025年外滩大会上那台会炒菜的R1机器人,一个生动直观,但更像技术层面展示的Demo。

Robbyant-R1,图片来源:蚂蚁灵波
但在2026年1月底,这种印象被迅速改写。
短短一周内,蚂蚁灵波密集发布了四个具身智能模型:LingBot-Depth、LingBot-VLA、LingBot-World、LingBot-VA,并同步开放了模型权重、代码。LingBot-Depth还将开源200万对高质量RGB-深度配对数据集,LingBot-VLA 开源了完整后训练工具链。
不同于行业常见的“半开源”,这几乎是一次将工程体系整体摊开的发布,在开源社区引发不小反响。
其中,LingBot-World引发的关注度最高。作为世界模型,它能够生成高保真高动态的物理交互场景,效果直观,肉眼可见,迅速登顶X平台科技板块热榜和Hugging Face热门论文榜。
但如果只看这一次“出圈”,反而容易忽略蚂蚁灵波真正的选择。
在具身智能领域,技术路线尚未收敛,选择并不少。蚂蚁灵波选择的,却是一条更慢但更扎实的路线。
在 VLA 模型的训练中,蚂蚁灵波团队联合星海图、松灵机器人等合作伙伴,积累了涵盖 9 种主流双臂机器人配置、总计约20,000 小时的真实世界操作数据,是当前开源社区中真机数据规模最大的VLA 模型。在 GM-100 的真机测评中,取得了标志性意义的高分,超越了Pi0.5。
同时,蚂蚁灵波团队还坚定布局具身世界模型,率先推出了业界首个自回归视觉—动作世界模型。这背后是蚂蚁灵波作为具身世界模型拓荒者,对下一代具身模型技术路线的判断。LingBot-VA 发布不到一周,英伟达也发布了 VA 模型。
蚂蚁灵波为什么偏要选择这条难走的路?
近期,在接受「甲子光年」专访时,蚂蚁灵波首席科学家沈宇军给出的判断是:具身智能仍处于“GPT-1时刻”。在他们看来,数据稀缺、范式未定,这是一场没有捷径可走的硬战。
这一判断并非凭空而来。
在学术训练之外,沈宇军经历过从算法研究到真实落地的反复试错。这让他对模型能力与工程现实之间的差距格外关注。正因此,他更倾向于将当前阶段视为具身智能的“GPT-1 时刻”,而不是押注短期可见的效果。
基于“GPT-1时刻”这一判断,蚂蚁灵波团队构建了一套打持久战的完整体系:
LingBot-Depth:解决感知层“看不清”的问题,为上层模型提供稳定、精准的视觉输入;
LingBot-World:负责世界模拟与数据生成,缓解真实数据不足的问题;
LingBot-VLA:基于海量真实数据,学会如何执行基础动作;
LingBot-VA:引入因果预测,探索更高层次的规划和控制能力。
沈宇军将这套体系形容为“四个模型‘一盘棋’”,它们是同一系统中的不同模块,而非彼此独立。
在团队内部,围绕取舍的争论并不少见,甚至会“拍桌子吵架”。但一旦方向定下,所有人又会拧成一股绳死磕到底。这也决定了这支团队的气质:一支愿意啃硬骨头的队伍。
从百灵大模型,到灵光、阿福等AI助手,再到今天把模型推向物理世界的灵波,蚂蚁在AI路径上补上了此前缺失的一段,一条“基础模型-通用应用-实体交互”的全栈路径,正在清晰浮现出来。
1.四个模型“一盘棋”

甲子光年:蚂蚁集团一直被看做金融科技企业,这次突然密集发布四个具身智能模型,确实让很多人意外。首先好奇一个问题,蚂蚁灵波这个名字有什么特殊的来历吗?
沈宇军:这挺有意思的。Robby 是好莱坞科幻电影(《禁忌星球》)里最早的机器人名字之一。而我们团队又来自蚂蚁,所以就叫 Robbyant。
而在中文里,Robby的音译正好是“灵波”,跟我们的百灵大模型(Ling)一脉相承。具身模型叫LingBot,既是Ling系列的延伸,同时读快一点也很像“灵波”,代表了我们对机器人灵动、敏捷的最初想象。
甲子光年:带着蚂蚁的光环,又正好撞上Google Project Genie的时间点上发布,你们觉得当前的反馈符合预期吗?
沈宇军:整体上还是符合预期。我们是2024年11月成立,过去一年几乎没有对外发声。
具身智能模型跟大语言模型不太一样,C端用户很难立刻感知。更多还是同行、专业人士的反馈。我们也更愿意把评价权交给社区——模型、代码、权重、数据集都开源了,好不好用,由社区来给出真实判断。
甲子光年:这次一口气开源了LingBot-Depth、LingBot-VLA、LingBot-World、LingBot-VA四个模型。这四个模型框架是一开始就规划好的吗,还是迭代出来的?
沈宇军:从一开始我们就比较笃定。机器人最终要部署在物理世界里,绕不开两个核心问题:一是输入端,也就是机器人能获取哪些信号;二是智能端,拿到这些信号之后,如何形成决策。
这次发布的一些模型,比如 LingBot-VLA、LingBot-VA,都是我们在这两个方向上的探索。但坦率讲,我们也清楚,这还远远不够。我们更希望,具身智能最终能形成一套属于自己(蚂蚁灵波)的范式。
对我们来说,内部始终只有“一盘棋”。这四个模型是同一张大拼图里的不同模块,只是随着进展逐步释放出来。所以这次大家看到的这些模型,其实只是这盘棋中的一些局部碎片。
甲子光年:这四个模型之间怎么串成一条完整的路径?
沈宇军:机器人最终部署在物理世界里,传感器误差和硬件误差是绕不开的现实问题。LingBot-Depth对应最底层感知能力,输入层数据质量,基本决定智能层上限,未来蚂蚁灵波的大多数模型都会用到它。
比如在LingBot-VLA里,我们展示过一个用法,把LingBot-Depth的特征蒸馏进去,解决空间盲视的问题。
这次发布的LingBot-World和LingBot-VA,则是探索性的尝试。
整个行业目前都面临同一个问题:数据依然紧缺。在数据有限的情况下,想真正通过Scaling Up把模型能力完全释放出来,为时尚早。
在无法完全释放Scaling Up潜力的情况下,我们阶段性地借助了数字世界中已经完成Scaling的模型能力,如多模态和视频生成模型,来作为过渡。
我们一直在尝试把这些数字世界中预训练好的能力,引入到具身智能里,这正是LingBot-VLA和LingBot-VA出现的背景。当然,在实践中我们也发现,它们本身同样存在局限。
而LingBot-World则是我们在验证技术路线时的“沿途下蛋”。
甲子光年:这也正是外界最好奇的点。LingBot-World在C端的关注度最高,很多人觉得它更像AIGC或视频生成,为什么你们反而说它是“沿途下蛋”?
沈宇军:确实有不少人会觉得,LingBot-World看起来和具身智能有点远,但其实不是这样。
在内部,LingBot-World和LingBot-VA并不是两条独立路线,而是耦合得非常深,甚至可以说是同一套技术体系的不同侧重,前者更多使用通用数据,后者更多使用具身数据。
底层的数据引擎、代码框架和优化方法,都高度共通。只是这次对外发布时,我们没有把这些细节全部展开。
之所以说它是“沿途下蛋”,是因为在最早做具身智能时,我们并不能确定视频生成这条路一定能走通,而世界模型这个方向可以更快给我们反馈,比如长时间推理能力和生成质量。
如果一项技术在世界模型里都跑不通,它在具身智能中大概率也走不远;反过来,视频生成能力越强,其实对机器人是有正向收益的。从这个角度看,这些模型最终指向的都是同一个目标:具身智能。
甲子光年:这套架构大概是什么时候定型的?中间有过自我怀疑的时刻吗?
沈宇军:大概在2025年11月左右,我们已经看到了比较有希望的结果,那时每一条路线大概都做到了80%。倒没有觉得“完全走不通”的时刻,但真正难的是后面那20%。那是一种持续的消耗感。我们没有哪一刻想过放弃,更多是觉得“煎熬”。因为从验证到真正达到工业级标准,这个过程比我们最初预想的要困难得多。
甲子光年:下一步的目标是什么?
沈宇军:这次发布之后,我们对这两套模型的边界有了比之前更清楚的认识——不敢说已经完全明晰,但至少看到了各自的短板。
往下看,我们大致会采取“两条腿走路”的方式:一方面持续积累具身智能数据;另一方面等数据量达到一定规模后,从零搭建真正面向具身智能的预训练模型,而不再依赖VLM或视频生成模型。这条路径有点类似自动驾驶的发展过程。
2.LingBot-VA是关键下注
甲子光年:这次发布的LingBot-VA技术路线备受关注。它的出发点是什么?想要解决主流VLA路线的什么痛点?
沈宇军:当前主流VLA路线的逻辑是“看图说话”:给一张图像,加上预训练好的语言或视觉语言模型,预测下一步动作,这条路是有效的。
但在机器人领域,它缺失了一个关键要素Dynamic Prior(动态先验)。机器人本身在学动作,而图片本身没有动作信息。
所以一个很自然的想法是,能不能引入视频层面的先验?因为视频本身记录了人和物体的动作。这也是LingBot-VA模型设计中最简单、也是最直接的一层哲学。
当模型已经见过各种各样的操作视频之后,即便在下游只用少量任务数据进行fine-tune或adaptation,它本身也已经具备了动作层面的经验。
甲子光年:这种引入“视频先验”的思路在实际任务中有什么具体优势?
沈宇军:最大的优势是记忆能力。举个例子,让机器人擦三次盘子。对VLA来说,第一次擦完和第二次擦完,看到的画面(Observation)几乎是一样的。
如果没有记忆,模型就会陷入“看到盘子——去擦”的死循环,一直擦下去。但LingBot-VA采用的是自回归结构,天然具备比较好的记忆能力。在这些 memory test(记忆测试)上,它的表现会显著优于VLA架构。
其次是少量样本下的泛化能力。现在机器人在部署到新的环境时,通常都需要重新采集一些数据。而VA的核心优势在于,它的视频先验已经编码了大量的动态信息。
模型中学到的动作先验越强,在面对没有见过的新场景时,模型进行 adaptation 所需要的新数据就越少。
甲子光年:在LingBot-VA模型里,最难的部分是偏模型结构本身,还是在推理系统和工程化部署上?
沈宇军:难点主要在工程部署这一块。模型结构本身的收敛,我们其实在比较早期就已经跑通了。后续更多的工作,主要集中在数据的scaling up,以及训练效率的优化上,但这些本质上都属于infra层面的事情。
真正给我们带来比较大挑战的,是模型在真实系统里的部署,这也是我认为目前VA相比VLA 的一个明显劣势。
在真机部署中,我们遇到的第一个问题就是延迟显著上升。测试结果显示,VLA 通常可以控制在 100 毫秒左右,而 VA 往往需要300–400毫秒,差距主要来自视频生成带来的额外开销。
因此,我们在工程上投入了大量精力去做异步推理框架以及系统侧的加速优化。
甲子光年:这似乎有个矛盾,VA好像去掉了中间的language(语言)层,这听起来更像人类的肌肉记忆或者下意识的动作,理论上应该推理速度更快,但实际验证推理反而更慢,这矛盾吗?
沈宇军:我觉得不矛盾。首先需要澄清,VA并不是没有language,模型仍然通过语言来接收人类指令,这一点和直觉理解可能不太一样。
第二是关于推理速度。速度更多取决于工程和infra(基础设施)层面的优化,而不是模型范式本身。更现实的问题是,现有的工程基础设施,能否支撑这种范式把速度提上来,这也是接下来需要解决的核心问题。
最终都是输入输出形式相同,差异在于中间的对齐顺序。传统VLM是先对齐vision和language,VLA则是在这个vision–language空间里,再把action往里对齐。
而VA强调的是另一条路径:先对齐 video(motion、dynamics)和 action,也就是先解决“怎么动”。最终都是输入输出形式相同,差异在于中间的对齐路径。
第二点是推理速度。VA在理念上确实更接近人类的肌肉记忆或下意识动作,这个理解没问题。
现在慢,并不是因为这种范式本身慢,而是因为实现方式还依赖像素级的视频生成,需要先把画面“画”出来。这一步在训练阶段很有价值,但对实时推理并非必要。
从长期看,随着具身数据规模扩大,更适合机器人实时执行的预训练模型会出现。到那时,基于动作和动态的“肌肉记忆”,反而可能比当前这种显式推理更快。
甲子光年:LingBot-VA真机部署时遇到哪些典型问题?
沈宇军:最大的问题还是幻觉。视频模型有时候会“无中生有”,比如桌上明明没有瓶子,模型生成画面里却多了一个瓶子,导致机械臂去抓空气。
目前的解法是提高刷新率,一帧一帧地生成和修正。只要刷新得够快,利用真实世界的观测不断校准,单帧的幻觉就不会累积错误。另一个方向是后训练奖励模型、引入强化学习去约束幻觉,这也是持续探索的方向。
甲子光年:再聊聊LingBot-World。它发布时正好撞上Google Project Genie更新,C端讨论很热烈。你们怎么看待 LingBot-World 和 Genie3、Sora这两个模型的异同?
沈宇军:我其实不太想用“差异”这个词来形容,更准确地说是定位不一样。
如果和Sora放在一起看,我觉得通义万相、Sora、Veo 3、可灵,这些本质上是一条赛道,它们的目标是做视频生成的基模。
而我们和 Genie3并不是在做一个基模,我们是基于已有模型,在后面做世界建模相关的事情。严格来说,我们更像是视频生成体系里的一个子方向,而不是最大的那条主赛道。

甲子光年:如果把LingBot-World和Genie 3做一个更直接的对比呢?
沈宇军:Genie 3发布更早、迭代更久,很多关键能力并没有开源,我们也很难做真正意义上的对比。
还有一个绕不开的因素是算力体系。Google 很大的优势在于TPU。举个例子,TPU架构对Ring Attention(环状注意力)这类技术非常友好。但在GPU体系下,卡间的通信带宽会受到限制,要在工程上实现同等性能,难度大得多。
我们的模型是真正开源出来的。如果开发者想改模型结构、想做二创,那在LingBot-World这条路线上,这是可以做的。
甲子光年:你们的世界模型最终会走向哪里?会独立成一个产品吗?
沈宇军:LingBot-World并不是一个独立存在的终点,它最终一定会回到机器人。
开发世界模型是为了验证视频生成路线在具身智能中到底行不行——这叫“沿途下蛋”。如果视频生成都做不好,那基于视频的机器人控制就更别想了。
可以期待下一版LingBot-World,会和机器人更贴近。到那个阶段,大家可能就不会再觉得LingBot-World和LingBot-VA像是两条分开的线。
LingBot-VA已经在这一步做了一些探索。
3.具身智能Scaling Law的“隐形陷阱”
甲子光年:在LingBot-VLA的论文标题里,你们用了一个词Pragmatic(务实的)。为什么要特意强调“实用性”?
沈宇军:这次更多是面向开源社区。过去半年里,“超越Pi0.5”的说法很多,但实际情况是,Pi0.5依然是被大量高校和研究者实际使用的好模型。既然大家还在用,它一定有价值。
我们强调pragmatic,不是为了宣称超越谁,而是希望把模型真实地交出来,让社区自己评测。所以这次发布里,我们没有刻意谈“超不超越”,而是把模型、后训练与加速优化的完整代码一并开源。
很多“开源”其实只是“半开源”,但这次我们把模型、代码,甚至部分数据集都放出来,尤其LingBot-VLA连后训练代码库也全部开放。只有真正被用起来,问题才会暴露,这正是我们开源的初衷。

LingBot-VLA模型概要,图片来源:蚂蚁灵波官网
甲子光年:验证ScalingLaw用了2万小时数据和9种机器人构型。这对外界来说可能只是一个数字,但在工程上究竟意味着什么?
沈宇军:外界容易轻视工程,觉得无非是把2000小时的数据难度乘以10倍。但我们发现复杂度是指数级上升的。很多“坑”只有数据量大到一定程度,才会发现并且掉进去。这背后有三个原因。
第一,国内真正训练过2万小时规模VLA、还把模型开源出来给社区用的公司很少。2万小时训练数据背后,前端采集量远不止2万小时,中间有数据漏斗:采集、清洗、筛选都会损耗。
第二,我们做 LingBot-VLA 不是为了证明能力,而是希望社区真的能用起来。所以除了模型本身,我们在代码库、训练流程和复用性上都下了很多功夫,目标不是demo,而是可落地。
第三,也是最重要的一点:这种规模的数据和模型,本质上是一个系统工程。包括数据如何组织、管线如何设计、如何稳定处理;这次我们做了大约300个任务的评测,同时跑五六个模型,本身就是非常复杂的工程协同。
这种复杂度,不是单一科研机构能解决的。我们先把这些坑踩一遍,再把结果开源给社区。

LingBot-VLA 9种机器人本体,图片来源:蚂蚁灵波官网
甲子光年:哪些“坑”让你们觉得很suffer?
沈宇军:很多所谓的“坑”,只有在数据量达到一定程度才会暴露出来。比如数据规模上来后,存储怎么设计?高并发访问、训练调度怎么做?多团队协作时流程如何对齐?
如果系统设计不到位,就会出现大量隐性问题:数据被重复处理、被删掉又重新拉回;某一轮质检没通过,但信息没同步,下游仍然当成合格数据;模型训练异常,最后追溯发现问题出在很早期的数据处理阶段。排查这些问题的成本,远远高于调模型或换结构。
其实模型架构本身,我们很早就定型了。但从架构定型到最终发布,中间消耗精力最多的,并不是算法设计,而是系统工程、流程设计和协同问题。
所以这次把模型、代码、后训练脚本尽量完整地开源,希望后来的研究者不用再从 0 到 1 把这些坑重新踩一遍,站在新的起点往前走。
4.“我们还在GPT-1时刻”
甲子光年:在具身智能数据路线上,你们坚定地选择了“真机数据”,而对“合成数据”持保留态度。为什么?
沈宇军:这两条路线这两年讨论很多,我们的选择相对明确:在具身智能的基座模型阶段,更倾向真实数据。
我们更坚定选择真实数据,是基于工业界的判断。真机采集降本的速度,会快于物理引擎质变的速度。
如果是“成本高”,随着设备升级和工具链成熟,行业总能把价格打下来;但如果是“物理保真度”不够,那需要基础科学和顶级人才的漫长攻关。
作为一家做基座模型的公司,我们必须让模型学习真实的物理规律。当然,仿真数据在后训练阶段依然有价值,但在基座模型阶段,我们选择那条“慢”但正确的路。
甲子光年:这次推进如此彻底的开源(包括代码和数据管线),背后的考量是什么?
沈宇军:原因很简单。不想做井底之蛙,也不想让大家重复造轮子。具身智能还处在技术路线未收敛的早期。只靠内部评测,很容易陷入思维盲区;只有让社区用起来,才能发现那些我们预料不到的bug和用法。
学界不缺想法,缺的是一个“能站上去的底座”。我们提供底座,让大家在此基础上往前走,而不是每个人都从0到1去复现一遍基础工作。
甲子光年:你们有没有考虑过做一款自己的机器人本体?
沈宇军:从个人直觉上判断,机器人很难出现一种构型通吃所有场景的情况。平整地面适合轮式,复杂地形需要足式。不同场景对负载、速度、成本的要求天差地别。
如果具身智能想在足够多的真实场景落地,它必须是跨本体的。除非未来真出现了通用本体,但在现阶段,我们更倾向于做一套适配不同身体的通用大脑。
甲子光年:类比语言模型,你觉得具身智能模型现在大概处在什么阶段?什么时候能被看作GPT-3时刻?
沈宇军:我个人觉得可能还在GPT-1阶段。
一个核心问题是,行业里还没有一个真正属于具身智能的原生预训练模型。我们在用多模态模型、视频模型,是在拼凑能力。
它们各有优势,也有明显短板,如果我们想改底层逻辑,会发现改不动,因为没有一个为物理世界量身定制的基座。
我认为GPT-3时刻是数据量足够大,从头训练出了那个原生的具身基座后,那时它不再是生成视频,而是天生理解物理交互、高效执行动作。
甲子光年:那什么时候算是ChatGPT时刻?
沈宇军:在我看来,ChatGPT时刻发生在有了基模之后,大家找到了一种方式,让它可以非常快速地适配不同机器人和不同任务。
比如one-shot、five-shot,人类示范几次,它就能学会一个新任务。如果做到这一步,机器人行业才真正具备大规模发展的可能性——任何团队只要采几条数据、微调一下就能跑通新任务——机器人行业才真正具备了大规模爆发的可能。
甲子光年:距离GPT-3时刻还有多远?
沈宇军:我个人的判断是,至少三年。这个时间其实可以拆成三步:
第一,解决数据怎么采(高效采集);
第二,解决数据怎么选(质量分布与Scaling);
第三,真正训出原生基础模型。
如果乐观一点看,也许可以一年解决一个关键问题。如果整个行业是在一起加速,我个人认为2026、2027、2028年,有可能分别跨过这些节点。
5.蚂蚁灵波的“MagicMoment”
甲子光年:蚂蚁切入具身,出乎很多人意外,做具身智能,你们真正的“独门武器”是什么?
沈宇军:如果一定要选一个最核心的优势,我会先说团队本身。
这支团队在想象力、工程能力和“啃硬骨头”的耐力上,都非常强。大家过去分散在不同技术方向,各自积累了不少能力,借着机器人这个新赛道,真正拧成了一股绳。
另一点也需要客观地说,蚂蚁集团在AI方向上的长期投入,为我们提供了非常扎实的基础设施底座。
无论是算力、存储,还是整体工程体系,这些能力本身并不是为灵波单独准备的,但在这次快速迭代过程中,起到了关键支撑作用。
甲子光年:听说你们内部在研发过程中也有不少争论?
沈宇军:是的。但我们最大的优势是彼此相信。大家的争执不是为了针对个人,而是为了技术路线。我们允许激烈的冲突,但一旦事情定下来,所有人都会沿着既定方向死磕。
这一点我其实挺自豪的。对于一个以Researcher(研究员)为主的团队,最怕的不是没人才,而是人才太多、方向不统一,最后变成一盘散沙。
甲子光年:在大厂做研究,会面临OKR的压力吗,你们如何平衡学术探索和商业落地?
沈宇军:这是一个OKR方式的问题。我不认为我们拥有绝对的“学术自由”,我们拥有的是“路径自由”。
首要原则是目标不能变,手段可以变。今年要攻克这个问题,此路不通就换条路,但一旦定下目标,这座山头必须拿下。
其次是不做空中楼阁。我们做的一切研究,哪怕短期落不了地,也必须是奔着“未来能落地”设计的。如果一个Idea纯粹为了新颖性,完全不考虑落地,我们坚决不做。
甲子光年:回看过去一年,对你个人或团队来说,有没有一个特别的Magic Moment?
沈宇军:我会选2025年11月底。那是LingBot-Depth模型第一次在真实测试中跑赢现有方案的时刻,这打响了第一枪,让我们相信这条路能走通。
我们第一次看到一个接近工业级标准、真正“走得通”的结果,也让我们开始认真思考能不能把这些模型串起来,作为一个整体来推进,甚至一起开源。
在那之前,大家其实都很辛苦,但一直没有看到一个明确的正反馈。那一刻算是第一次看到方向是对的。从那之后,团队整体的信心明显提升。
另一个对我个人比较有感触的节点,是2026年1月15日,四个模型全部封版。那意味着模型不再迭代,只为发布做准备。对我来说,更像是给自己、也给团队交了一份阶段性答卷。
甲子光年:封版那一刻,团队有没有什么仪式感的庆祝?比如吃顿大餐,或者给自己放个假?
沈宇军:那倒没有,封版后只是代码不再动了,但人还得接着熬。过去这一年,我们取消了原本的团建,大家都很拼,一直到模型正式发布,才稍微喘了一口气。
甲子光年:不过我们看近期国内外开发者对这些模型的评价还不错。
沈宇军:反馈到底算不算好,其实我们自己不敢下判断,我不喜欢夸大成果。这次的技术报告,我们坚持只陈述客观事实。既然选择了开源——模型给了,代码给了,权重也给了——那评价权就在社区开发者手里。喜欢也好,不喜欢也好,我们更希望听到真实的声音。
甲子光年:2026年,你们有什么计划?
沈宇军:我认为有三个重点。
第一,数据的scale up,这是最核心的基础。
第二,我们已经比较清楚地看到了多模态和视频生成各自的短板,接下来会更有针对性地补这些问题,把它们的优势真正发挥出来。
第三,是移动能力。这次发布主要集中在操作(manipulation),移动相关还没有展开。今年在移动和探索能力上,我们会有一些新的进展。
机器人迟早会遇到一个问题:被放进一个完全陌生的环境时,怎么办?没有高精地图、没有GPS,只告诉它“我要去某个地方”,它能不能自己探索、找到路径。我觉得这是机器人真正落地时,非常基础、也非常关键的能力。
甲子光年:如果把灵波当成一个人来看,你们觉得他现在大概几岁?
沈宇军:那就是一岁吧。灵波去年成立,到现在正好一岁。
(封面图来源:电影《禁忌星球》)




