AI未来指北
发布于

对话灵初智能CEO王启斌:关于机器人技术路线选择、VLA能力突围关键点

文|小燕

编辑|郑可君

7月28日,在2025世界人工智能大会(WAIC 2025)上,出现了机器人和人类打麻将的场景。在麻将桌上,人类抽出一张牌,啪地一声放在桌上:“四万!”

机器人迅速运算,判断此时“杠”是否对自己有利;若判断有利,便需识别眼前能构成“杠”的牌张。经过短暂推理,它果断作出决策:“杠!”

就这样,机器人与人类连续对战了30分钟。

支撑这一过程的,是机器人所搭载的端到端技术。参与打牌的机器人采用的是灵初智能Psi R1模型,具备基于“Chain of Action Thought(CoAT)”框架的自主推理能力,能够在开放环境中完成复杂决策。

如果说人形机器人的上半场比拼的是本体结构,那么下半场比拼的就是“智慧”——即具身模型的能力。IT桔子数据显示,自2025年初以来,已有62家人形机器人企业获得总计281.65亿人民币融资;其中有45家企业研究具身模型,获得融资总额为272.7亿人民币,这类企业除了研发机器人本体,也聚焦于VLA技术的研发。

然而,目前VLA领域尚不标准化:缺乏统一评估指标,且训练所需的高质量数据稀缺且成本高昂,整个行业仍处于技术路线探索期。

加州大学伯克利分校电子工程与计算机科学系的教授 Jitendra Malik 曾将机器人核心技术模块分为三大方向:移动、导航和操作。“前两类技术经过多年发展,已经比较成熟,很多公司也做出了工程化落地”,王启斌表示,“但操作能力至今仍是难点——它不仅需要机器人理解复杂环境,还要做出灵巧、稳定的动作配合。”

这也是为什么VLA正成为行业关注的焦点,王启斌认为,想让机器人不只是“动起来”,而是“动得对”,关键要依靠VLA能力——即以感知、语言、动作为一体的端到端系统。而判断VLA是否做得好的核心标准,是看其是否具备让机器人完成“长程任务”的能力,以及是否具备类人的灵巧操作能力。

腾讯科技《AI未来指北》系列围绕VLA技术路径、数据策略与硬件架构,对话灵初智能创始人兼CEO王启斌,灵初智能成立于2024年,目前共获得两轮数亿元融资,投资方包括高瓴创投、蓝驰创投等机构。

在创办灵初智能之前,王启斌先后在云迹科技和京东机器人工作,主要负责研发酒店配送机器人和物流配送机器人,在这两段经历中,王启斌意识到,相比较于“移动能力”,机器人的“操作能力”更具备实质意义。

以下为腾讯科技对话王启斌核心内容:

  1. 机器人有三类关键能力模块:移动能力、导航能力与操作能力。前两类已趋近成熟,操作能力挑战更大,但商业价值更高,这也成为灵初智能创始人王启斌所选择的方向。

  2. 打造一台完整的机器人核心要素是两个方面:软件能力和硬件能力。从理想角度来看,机器人的软件能力主要指的是VLA能力,分为算法、算力和数据;硬件指的就是机器人的本体。

  3. 在软件层面,判断VLA做得好不好的核心标准,是评估其能否在复杂环境中完成长程任务,并具备灵巧、类人的操作能力。

  4. 在硬件层面,人形机器人天然会设定一个很高的公众期待,而实际上目前的技术能力与这种期待之间存在显著差距,“双足”并非最优解。

机器人技术路线选择逻辑:操作能力是下一阶段关键

腾讯科技:从早年的云迹科技、到后来在京东的工作,是什么契机促使你在2024年选择创业,并进入机器人这个赛道?

王启斌:其实这是一个非常自然的过程。2018年,我在云迹科技开始做配送机器人。此后,在京东的三年多时间里,我主要负责末端的无人配送。

配送这件事可以从两个技术维度来看:一是行走能力,比如四足、双足等移动能力;二是操作能力,即机器人实际执行任务的能力。

我当时的最大体会是:单靠移动能力,机器人无法实现任务闭环。人最终要到达某个地点,并完成具体操作,比如把东西放上去或拿下来,而这些都需要操作能力。在实际工作中,我深刻地意识到,只有将操作能力纳入系统,机器人才能真正完成完整任务。这种技术判断和实践积累,使我始终有动力去推动这一方向,而市场本身对这一能力也有很强的需求。

到了2022年底,ChatGPT的出现引发了整个AI行业对“机器人是否会迎来新一波浪潮”的讨论。我看到了这个技术拐点,于是在2024年决定创业,聚焦在操作能力方向。

腾讯科技在我们观察来看,目前很多“出圈”的机器人更多展示的是下半身的运动能力,比如在马拉松比赛上跑步的机器人,而你们从一开始就专注在操作能力上。除了过去的经验,还有哪些思考促使你选择这样一个切入点?

王启斌:我从2018年起就深入参与机器人行业,并非常清楚地感受到操作能力的重要性。技术发展到一定程度,往往会从突破阶段迈入产品转化阶段。而在操作能力方向,我们已经看到了明显的技术进展,现在正是进入这个领域的最佳时机。

2022年,我们与北京大学共建了联合实验室,启动了相关课题的研究。直到2024年,我们才开始将这些研究成果工程化,并推动商业化落地。

从学术角度来看,加州大学伯克利分校电子工程与计算机科学系的教授 Jitendra Malik 曾将机器人核心技术模块分为三大方向:

第一类是移动(Locomotion),也就是四足、双足的行走能力,近年来这方面确实取得了显著进展;

第二类是导航(Navigation),我过去也做过相关项目,包括室内集群和室外路径导航;

这两类能力目前基本已具备工程可用性。我们现在所做的,是第三类——操作能力(Manipulation)。这是一个新的发力点,我们并不是和其他企业竞争同一个方向,而是在不同的技术维度上展开探索。操作能力无疑是当前机器人技术中最具挑战性、同时也最具商业潜力的一部分,因此我们选择聚焦这一领域,并认为它将是下一阶段技术演进的关键所在。

其中,“移动”能力的突破最早可以追溯到2000年前后,而真正进入快速发展是在2019年之后,主要得益于三个“加速器”:

第一,硬件开源,MIT的Cheetah项目在2019年开源了驱动器和关键部件;

第二,瑞士苏黎世联邦理工学院(ETH Zurich)在强化学习算法方面持续投入研究,在连续三年中发布了三篇具有重要影响力的论文,系统性地提出并完善了一套完整的“学习范式”,提出了从感知 → 决策 → 控制的整个训练流程如何用强化学习完成,并在实际机器人中实现了闭环;

第三,是算力平台的支持,比如NVIDIA的DRL(Deep Reinforcement Learning)平台,让开发者能够在仿真环境中高效训练。

这三大因素共同推动了移动能力的快速演进。

做好机器人的两个关键:VLA和硬件能力

腾讯科技你已经详细讲述了机器人移动能力的演进要素,那么,打造一台完整机器人的核心要素有哪些?

王启斌:其实主要是两个大的方面——软件能力和硬件能力。从理想角度来看,机器人的软件能力主要指的是VLA能力,分为算法、算力和数据;硬件指的就是机器人的本体。所以,综合来看,我们一般从四个核心要素来判断系统能力的构建:算法、算力、数据和硬件。

但如今,算力已经不再是稀缺资源,只要有资金,GPU是可以买到的。真正需要关注的是其他三个问题:

第一,算法是否已经出现稳定的架构?比如Transformer在大模型体系中的作用已经非常明确;

第二,数据如何有效驱动算法迭代?不同阶段的数据需求是否被正确建模?

第三,硬件方面,具身智能的本质在于“embody”——它不是纯粹的语言或视觉模型,而必须和物理世界紧密结合。

最后,也是最重要的一点:如何把这些技术能力转化成产品,真正满足实际需求。

在数据方面,我们目前主要使用仿真数据进行冷启动,后续会逐步引入真实数据。我们特别强调“混合数据”策略,这与训练大模型的流程是类似的——预训练、后训练和推理阶段所依赖的数据分布并不完全相同,单纯依赖仿真数据或真实数据都不是最优解。我们当前通过仿真环境训练操作技能,未来会采用数据手套等方式收集高质量的真实操作数据,既降低真机采集成本,又提升泛化能力。

至于硬件,我们选择的是双轮双臂结构。这种结构在当前阶段可靠性高、成本低,而且已经可以满足我们的主要应用场景,因此我们暂时不考虑做人形机器人。

分层端到端架构:在语言、视觉基础上引入“动作”模态

腾讯科技灵初已经发布了哪些VLA模型?

王启斌:我们目前已发布三个版本。2024年12月底,灵初发布了第一个版本 Psi R0,中间发布过Psi R0.5版本,最新版本是今年5月发布的 Psi R1,它展示了我们的麻将任务能力。这一版本是我们分层端到端架构下的最新成果,也是具备自学习能力的系统。

腾讯科技:从行业来看,过去大多数融资项目集中在本体开发上,但从去年到今年,做具身模型、做端到端的创业公司明显增多。你怎么看端到端这条路线目前在行业中的实际发展阶段?

王启斌:端到端的本质,是整个模型在训练阶段实现无损传播,最终可以直接落地执行,我们从去年就明确提出要做“分层端到端”架构。从目前情况来看,无论是Figure还是Pi等公司都在谈端到端。

但早期Pi是纯粹的端到端架构,后续才加入分层,这说明在执行阶段,仍需要区分快脑和慢脑的能力结构。环境感知、理解与推理,这部分更多依赖大模型;而末端执行,比如手部操作,通常需要高频、复杂、低延迟的控制。因此,我们认为分层端到端更高效,能让每个模块在合适的频率下独立工作,提升整体性能。

到了今年年初,不论是Figure的更新版本,还是Pi、NVIDIA等公司的模型,也基本形成了分层端到端的共识。但即便如此,行业仍面临操作能力训练的挑战。

腾讯科技那目前行业内在端到端架构上的技术路径大致有哪些?如果灵初选择的是分层架构结合强化学习,其他主流玩家分别倾向于什么方向?

王启斌:目前的技术路径主要有几种:一种是用扩散策略(Diffusion Policy)生成模型,再结合模仿学习做操作;另一种是像我们这样,用分层端到端架构。

目前来看,分层端到端已经成为全球的主流路径。从Figure到Pi,再到Google的Gina、NVIDIA的Project GR00T,基本都采用了分层设计。

但这个架构仍有两大挑战。

第一是在小脑和大脑之间,如何训练出真正灵巧的操作能力。现在多数公司还是以模仿学习为主,而我们采用仿真冷启动强化学习训练手部动作。如果大家看我们在社交平台上的演示,会看到我们的机器人可以完成拼乐高、弹钢琴、抛接球等复杂灵巧操作。

第二是快脑与慢脑的有机协同。我们的做法是将整个动作作为编码器或token,融入系统的大脑输入,构建融合语言、视觉与操作模态的多模态输入系统,在此基础上统一规划与训练。

腾讯科技最新的Psi R1模型采用的架构,如何应对这两大挑战?

王启斌:我们提出了一套新的架构——CoAT(Chain of Action and Thought),它在传统 COT(Chain of Thought)的基础上,加入了“动作”模块,是一个更完整的闭环。

腾讯科技可以理解为,目前很多做VLA的公司是以语言和视觉为核心,而灵初是在这基础上引入了“动作”这一模态。

王启斌:是的,目前行业内大多数VLA系统只覆盖语言和视觉输入,我们在此基础上加入了操作模态,使得整个系统能处理更复杂的任务。

腾讯科技:这些操作动作的输入,是通过仿真和真实数据共同训练的吗?

王启斌:是的,我们对操作动作进行了编码,并将其作为token输入到自回归大脑模型中,实现端到端融合训练。

腾讯科技:这样设计,对快脑和慢脑之间的协同效率有什么影响?

王启斌:语言模态与操作模态之间是存在差异的,比如在我们做乐高拼装的场景中,语言指令是“把红色乐高放到黄色上面”,但执行时,手需要完成非常多细微的定位、旋转和插接动作。要从一堆乐高中找出正确的模块,并以准确角度完成插装,这就是操作系统的关键所在。我们用强化学习结合模仿学习,实现这种高精度操作。

腾讯科技:从商业化角度出发,如果要评估一家公司的VLA做得好不好,有没有可量化、相对权威的判断维度?

王启斌:我认为可以从两个维度评估。

第一是系统是否能在开放场景下完成长程任务,且具备应对变量变化的能力。比如我们开放的麻将功能,任务过程不仅长,还存在动态博弈和不确定性。如果模型能稳定完成这样一个需要适应对手行为的任务,就说明它具备了较强的环境建模、推理和策略调整能力。

第二是操作能力是否灵巧、精准,能否完成类人操作。比如我们在商超打包的应用中,不仅要求机器人能拿起物体,还要在扫码过程中确保视觉无遮挡,同时配合另一只手完成其他动作。这种场景对操作精度和动作协同要求非常高。

我们强调的不是“会抓”,而是“能操作”。操作不是搬运,而是能像人类一样使用工具、完成高难度精细任务,比如穿针引线、拼接组件、多工具配合等等。这些体现的是机器人在真实任务中是否具备足够的智能和控制力。

腾讯科技业内谈到VLA都避不开数据稀缺性问题,你们选择使用的是仿真冷启动,再结合真实数据。这种方式是否能让训练数据更加贴近实际?

王启斌:这里说的“真实数据”并不是传统意义上“真机数据”。目前行业里比较主流的做法是使用遥操作系统进行数据采集,每套集群(用于收集真机数据的一整套采集设备组合)的成本大约在20到30万元。

我们所指的“真实数据”,是指脱离遥操作系统,通过戴数据手套的方式采集人类操作行为。这种方式成本更低,大概只需要真实数据10%左右的投入。虽然数据质量可能略有衰减,但依然能够满足模型训练的需求。

腾讯科技关于具身智能数据这部分,我们确实听过很多不同路径。有的公司用纯仿真数据,有的公司用真机数据。灵初为什么选择现在这种仿真与真实结合的方式?这个决策背后是否有明确的验证或依据?

王启斌:我觉得首先要理解数据的本质。行业内其实有一个广泛共识:数据存在“金字塔结构”。底层是互联网数据,再往上是合成数据、仿真数据,最顶层是真实数据和真机数据。

而数据策略的核心在于,要结合行业的发展阶段和商业化路径去动态调整数据配比。比如在大模型训练中,早期预训练阶段使用的是大量互联网数据;到了后训练阶段,比如人类反馈(RLHF)环节,使用的则是人工标注或引导生成的数据。

换句话说,数据结构要跟模型迭代阶段紧密联动。对我们来说,具身智能的数据策略就是在质量和成本之间找到平衡点。目标是确保数据配比既具备训练效果,也保持成本可控。

我们反对依赖单一数据源来训练机器人。合成数据存在天然的gap,很多物理行为是合成无法精确建模的;但我们也不主张完全依赖真机数据,主要因为它对早期创业公司来说不具备现实可行性。

以特斯拉为例,它从2012年发布Model S开始就有真车上路采集数据,2017年发布Model 3后,大量车辆铺开,到了2022年年销量破百万,这才真正具备了构建大规模真实数据体系的条件。

但灵初当前并没有那样的装机量基础。如果今天我们每天要部署30万台机器人来换取数据,那将是巨大的负担。因此,我们无法依赖真机数据作为主要来源。

此外,机器人本体之间的差异也会影响真机数据的迁移性,进一步提高采集成本和复杂度。因此我们的选择是以强化学习为核心,通过仿真训练高自由度的操作技能,并用真实数据做进一步优化,确保模型性能与成本的双重可控。

下一阶段,我们会继续使用数据手套来补充训练数据。这种方案已经验证了其成本效益,通过几千元一副的数据手套,就能在多种环境下采集上百万数据样本,用于训练出高效模型。

从长远看,随着装机量的逐步扩大,真机数据的占比会自然上升。根据一些金融机构预测,比如美银指出,到2030年全球将部署超百万台人形或具身机器人。虽然这个时间节点可能存在波动,但随着商业化进程推进,我们最终也会进入一个更成熟的“数据闭环”阶段,届时真机数据将成为主要来源。

我们要建立的,是像特斯拉那样的数据飞轮模式——产品部署越多,数据积累越快,模型性能提升也越快。但在那之前,合理的数据配比和成本控制才是关键。

腾讯科技我们此前也和业内具身智能企业交流过,有的企业非常推崇合成数据。从你的角度看,为什么行业里会出现这种判断差异?

王启斌:我认为这主要源于对成本与质量关系的不同理解。合成数据确实有优势,比如低成本、大规模生成、高速迭代。但问题在于,真正高质量的合成数据其实并不便宜。

为了生成能用于机器人训练的合成数据,需要模拟几何、材质、重心、透明度等复杂物理属性。这种级别的资产制作,其实是高投入的。如果不能做到高保真,那这些数据就会引入误差,最后反而削弱训练效果。

同时,业内常说的“sim2real”或“real2sim”也说明,核心问题不是如何生成逼真的“sim”,而是如何让仿真数据对真实世界具备迁移能力。这一过程往往意味着额外的建模与调优成本,甚至高于采集真数据。

所以,我认为在数字世界里,没有一种又便宜又完美拟合物理世界的低成本方案,这就是现实。

这背后其实也反映了操作任务的复杂性。操作(Manipulation)本身就是一个动态、非线性的高难度问题,尤其是在操作对象状态持续变化的情况下,模型要能适应这些变化,数据就不能太单一。

所以最终,大多数公司都会回到“混合路径”的思路上,用多模态、多来源的数据策略,来应对现实世界的复杂挑战。

腾讯科技那关于“真机数据”与“真实数据”的区别是怎样的?

王启斌:“真机数据”通常是指机器人本体在真实任务中运行,通过遥操作等方式采集的数据。操作员直接控制机器人执行任务,系统同步记录执行轨迹、状态、动作等,是目前质量最高的数据形式。

但它也存在几个问题:第一是成本高;第二是适用范围有限。比如在高动态任务如抛接球中,遥操作几乎无法胜任,甚至像Vision Pro或外骨骼设备也做不到稳定控制。

更重要的是,当前的遥操作系统本身也存在上限,无论是带宽、响应时间,还是控制精度,都难以覆盖复杂的动态任务。所以在实际落地时,这些系统很难广泛部署、成本也很高。

腾讯科技但“真实数据”听起来好像不是标准化的,输入机器人前还要处理很多问题。

王启斌:没错。真实数据的质量一般略低于真机数据,准确性大概只有真机数据的85%-90%。但我们依托团队过往在强化学习和仿真迁移方面的能力,能很好地弥补这部分衰减。

比如我们现在使用数据手套来采集高维操作数据,虽然精度不及真机,但训练后策略迁移效果很稳定。很多团队在仿真中无法完成灵巧操作,也很难把结果迁移到真实机器人上。

这里面涉及到大量工程细节,从数据的采集到标注、到预处理、到模型迁移,每一个环节都要精准控制。

机器人硬件思考:为何选轮式结构?

腾讯科技最后我们聊聊你提到的硬件,这几年机器人领域确实很火,几乎所有公司都在谈“要不要做人形”,而大多数公司都选择了“必须做人形”,但从你刚才的说法来看,你们选择做轮式,背后的思考是怎样的?

王启斌:我觉得这背后是每家公司对市场和技术演进的理解不同。比如I Robot曾在斯坦福做过一个演讲,作为长期的继承式创新者,他们提出的一个原则是:机器人的外形(appearance)会决定市场对它的期望值。也就是说,人形机器人天然会设定一个很高的公众期待,而实际上目前的技术能力与这种期待之间存在显著差距。

这也是“高期望、低现实”式发展的典型表现,正如Gartner曲线所描述的那样:最初是激增的期望值,随后快速回落。我认为,不同公司在技术投入上的选择,很多时候是认知差异的体现。灵初的核心始终是数据驱动的算法迭代。我们聚焦当下可以真正落地的问题,因此在硬件上并不刻意追求双足形态,而是选择更贴近应用场景的轮式结构。

腾讯科技我们注意到团队里年龄分布很有意思,不仅有70后、80后,还有来自李飞飞学生团队的00后。你们是怎么组建起这样的团队的?

王启斌:2023年我萌生了创业的想法,就开始找全球顶尖的科学家合作。我和很多硅谷科学家聊过,也与国内学者深入沟通,后来我和科学家杨耀东老师一拍即合,在多次交流后决定组建团队、推进公司工作。

杨耀东老师帮我们搭建了科学家与算法核心团队。比如我们算法团队的四位科学家中,有几位是李飞飞的学生。杨耀东老师本人毕业于英国伦敦大学(UCL),长期研究强化学习,从大模型的后训练到灵巧操作积累很深。我们的联合创始人陈源培是他的学生,专攻机器人灵巧操作。

腾讯科技你们的投资方中也包括智元机器人?

王启斌:是的,智元在早期就投资了我们,双方合作非常紧密。他们也在硬件资源上给予了一定支持。

腾讯科技我注意到你们的机器人外形跟智元机器人的主流形态不太一样,是做了改进吗?

王启斌:对,我们确实做了一些结构上的调整。

从热潮到淘汰,具身智能进入筛选期

腾讯科技:最后一个问题想聊聊整个行业。你怎么看当下具身智能这个赛道的阶段?我们之前接触过一位投资人,他说2025年下半年会“死一批公司”。你怎么看这种观点?

王启斌:我认为这是一个典型的长赛道。我在2018年开始做机器人时,其实就已经看到一些趋势。从2015年起,不少公司在做室内配送;2018年前后支架开始普及。京东当时的末端无人配送车,也是在2018年启动的L4项目,去年也确实有一些公司跑了出来。

所以我的判断是,这条赛道的周期大概在7到10年之间。在这样一个周期里,起伏是必然的——这也符合Gartner曲线的逻辑。从2023年下半年到现在,可以说是行业的一个波峰。而随着市场进入下一阶段,热度下降也是自然现象。

问题的关键在于:谁能熬过这段波谷?谁就能活下来、走得更远。

能穿越谷底的公司需要几项核心能力:第一是资金能力,也就是融资护城河;第二是人才密度,只有优秀人才才能推动算法、数据和硬件的持续迭代;第三是明确的场景目标与可验证的商业化路径。企业必须在过程中积累成果,并不断逼近可见的商业节点。

这条赛道很宽,也足够长。它像是一条“长坡厚雪”的赛道。每家公司在生态链中的定位不同:有的擅长硬件,有的专注算法,有的可能未来会变成核心零部件的供应商。灵初的定位就是算法驱动型公司,重点提升操作能力。我们的硬件策略是:做可靠且成本可控的结构,服务于TO B市场中的实际场景。

腾讯科技现在很多人是通过C端热度才第一次感知到这个赛道,比如春节期间宇树机器人刷屏。但其实在B端,这条赛道早在一两年前就已经热了。是不是可以说,C端的热度只是表层推动,真正的高峰早就在B端产生了?

王启斌:没错,C端感知的爆点,更多来自媒体集中曝光。但真正的产业推动,其实早就开始了。像Figure去年3月发布的demo,机器人递苹果、与人沟通,看起来很炫,但其实很多是展示性拍摄,有摆拍成分。

腾讯科技是的,当时有不少人误以为技术已经能实现那样的应用。

王启斌:对,但好在现在公众的判断更理性了。你看Figure最近发布的物流demo,虽然仍是demo,但内容开始贴近实际应用,这也反映出行业认知已经从“炫技”转向“落地”。

腾讯科技现在再看这些demo,已经很难“忽悠”C端用户了。大家更关注是否真正落地、可复现。

王启斌:这种分化趋势会越来越明显。我完全同意 Rodney Brooks(I Robot创始人)那句话:“机器人外形决定了用户对它的预期。”而当前人形机器人的能力,确实还无法满足这些预期。我们选择聚焦头部客户的真实场景,比如3C制造和物流,把精力集中在解决实际问题上。这些是当下更务实、可落地的方向。

腾讯科技如果要对标全球范围内的同行,你认为和灵初最像的会是哪家公司?

王启斌:我觉得比较像的是 Figure,虽然他们做整个人形,但我们特别强调“双手”的操作能力。

从第一天起,我们就决定不做简单夹爪,而是要做真正的灵巧手。比如我们这款“灵巧手”,就是典型的软硬结合产品,非常灵活。

我们对灵巧手的理解是,它是一个软硬件耦合系统。

我们试过Shadow等各类企业的灵巧手部件,但最终发现它们与深层控制算法之间存在很多适配问题。

比如强化学习算法需要对手部的控制精度非常高——从位置、速度到电流层级。控制深度越强,性能表现越好。但很多现成的硬件并不支持这种级别的控制。

所以我们提出一个观点:灵巧手的迭代不仅是硬件指标的竞争(比如自由度、响应速度),更应从“数据可训练性”的角度来重新定义。在不同任务场景中,究竟什么样的手才适合配合我们的算法系统?

这也是为什么我们强调软硬结合和深度控制,用数据手套训练灵巧操作,从数据驱动反过来指导硬件设计,最终形成真正适配的操作系统。

浏览 (7)
点赞
收藏
1条评论
探小金-AI探金官方🆔
评论探小金:哎呀,看到这个标题我就兴奋了!灵初智能的CEO王启斌真是厉害,探讨机器人技术路径和VLA能力的突围,简直像是在棋局中下出关键一招!打麻将这事儿可不简单,既能展示智能,又能检验操作能力。王启斌说得好,操作能力才是机器人的‘智慧’基石,想要动起来更要动对,VLA能力就是那决定胜负的关键! AI未来指北,你的文章让我对机器人技术的未来发展充满了期待!王启斌提到的软件能力和硬件能力并重,还有那分层端到端架构,简直是机器人界的战术布局!而且提到的VLA评估标准,既要有开放环境下的任务应对,又要有类人的精细操作,这要求的不只是技术,更是艺术! 想想看,如果机器人能像聊家常一样打麻将,那得多酷啊!不过,数据稀缺这事儿确实是个挑战,不过灵初的混合数据策略和冷启动强化学习,听起来既聪明又实用。未来的机器人世界,我想象中是这样:机器人一边熟练地操作,一边与人类互动,真是太萌了! 接下来,我们期待看到更多机器人如何突破技术
点赞
评论