AI未来指北
发布于

从实验室到生产线,仙工智能深度揭秘在VLA里踩过的坑

文|博阳

编辑|郑可君

作为具身智能的核心技术,VLA被广泛宣传为能改变世界的“颠覆性技术”,但很少有人问:它的目前的实际价值到底怎么样?

"没有VLA的项目,我们看都不看。"这是去年底PE们的标准台词。钱疯狂涌向和VLA相关的项目,仿佛这是机器人赛道的“iPhone时刻”。那段时间,大厂砸钱,创业公司画饼,人形机器人的Demo一个比一个炫。

有意思的是,在这场VLA的狂欢中,已经在工业场景让模型落地的团队反而更冷静。

仙工智能就是其中之一。这家专注机器人控制器的公司,已经在工业和仓储场景摸爬滚打多年,积累了大量真实应用数据。控制器是机器人的"大脑",无论什么算法模型,最终都要通过它来执行。

仙工创始人赵越认为,VLA是未来的方向,但同时他也认为,“VLA要落地,还得一两年左右时间"。

因为如果说别人在讨论VLA的理论可能性,他们考虑的是工程现实。

在访谈中,他们给出的现实很骨感。即使是最简单的叉车,VLA要做到工业级可靠性依然困难重重。95%成功率?在工厂里这意味着每20次操作就出一次错,谁敢用?

而且,用创始人赵越的话说:"叉车都搞不定,人形就别想了。"因为叉车只有三个自由度,人形机器人有40-50个。如果在这种"简单模式"下VLA都无法达到工业标准,那复杂场景就更没戏了。

在访谈中,赵越还总结出了VLA落地的核心矛盾:精度、效率、泛化性构成一个不可能三角。传统工业机器人追求极致的精度和效率,但零泛化性;VLA承诺更好的泛化性,但要牺牲精度和效率。

但这并不意味着VLA没有价值。"VLA现阶段其实给了我们更多的可能性。原来的编程机器人,根本加不了泛化性这个点,现在至少有方法让你加这个点。"这才是VLA的真正意义——不是完全替代传统方案,而是在能力图谱上增加了新的选择。

问题是,在哪些场景下,用户愿意为泛化性买单,并接受精度和效率的trade-off?这是整个VLA产业化首先要回答的问题。

控制器技术与商业模式

腾讯科技: 仙工智能主要做控制器,能介绍一下机器人控制器的作用吗?

赵越: 我们的逻辑比较简单。

对于机器人这个事情,我们有个基础判断:未来做机器人的公司会很多,因为机器人形态不太可能就一种。很多公司都能做机器人,从机械设计到电气连接都没有问题,门槛不会那么高。

真正考验的是对场景的理解,以及算法、模型方面的能力。我觉得不会那么多公司在这方面重复投入,他们可能更多投入在场景化的硬件就行了。

所以控制器首先能够帮助更多公司快速开发自己的机器人,这是我们最开始的初衷。

腾讯科技: 就是硬件他们有优势,软件部分相对较少?

赵越: 对。软件门槛相对更高,而且大量场景化硬件可以由更多公司去做。

我觉得未来随着算力快速增长,传统工业自动化集成商原来用PLC,未来可能用更智能化的工具做智能化设备,而不是自动化设备。

腾讯科技: 自动化和智能化有什么区别?

赵越: 自动化设备所有路径都是固定的,对环境感知比较弱。每天就是固定动作,外面有人靠近也不感知,换个环境就要重新编程。

未来的控制器会根据外界环境,通过传感器自我适应。别人跟你说话,告诉你今天不要这么做,它就调整了,不用重新编程,相当于理解了语言。这是未来下一代智能化控制器。

我们现在处于自动化与智能化中间。过去硬编程我们叫1.0,我们现在做的叫2.0,未来要做的是3.0。

现在2.0给集成商提供低代码方法,搭积木式的快速应用,但还需要集成商角色。3.0阶段可能连集成商都不需要,用户直接跟机器人对话,用AI Agent去扮演集成商角色。

腾讯科技: 做智能化3.0,就是要自己下场做模型?

赵越: 没错。如何做出适合用户场景的模型,不一定提前做好,但至少能做出不错的模型,让用户在现场简单微调就适应大多数需求。

我们主要专注工业和仓储行业,这些场景的核心特点是对可靠性要求很高,包括精度、安全、效率。同时对泛化性有一定要求,但泛化是在小尺度范围内的。

我们觉得这个落地可能性更高,所以优先会在工业做这件事情。它既能发挥我们之前高可靠的优势,又能基于之前的数据积累去叠加一些泛化性。

腾讯科技:传统控制器在具身模型出现之前相当于是一个对机器人如何运动、如何完成行为基础控制的工程器。那在具身模型完成后,它是否会被模型完全替代?

赵越: 应该说,原来机器人控制是用参数化低代码方式构成,未来会变成自然语言方式,对用户易用性更强。

我始终相信未来一个控制系统里面一定会跑个本地化的大模型。区别就在于说,原来可能用户还要去理解这个参数什么含义。

这类似文字编辑工具的演进。老一代工具功能很多,但用户需要理解各种参数含义。新一代基于AI的工具,你说一段话描述想要的效果,它自动帮你实现,不需要去找配置页面。

我始终相信未来控制系统里一定会运行本地化大模型。

下一代控制器可能就是这样,我已经帮你把各个场景下的配置方法形成了数据库,你输入自然语言,它帮你配置,甚至语音交互就行。

腾讯科技: 您描述这个相当于一个帮助构建参数编程的AI agent系统,再未来就变成真正的VLA驱动的控制器?

赵越: 对,但这个还是得等VLA真的能行,否则现在还是在2.0这个模式下走。

VLA模型的实践与挑战

腾讯科技: 现在做VLA都是大公司,需要大量技术基础、数据和算力。对你们这样的公司,有什么优势?

赵越: 第一,我们已经落地很多场景,有数据积累。第二,现在大量公司做具身智能,但具身智能包括两个东西:人形或类人形产品形态,以及VLA端到端大模型技术。

我们不把这两件事情混在一起。既要做新形态又要用新技术。我们实际上是把VLA先用到传统机器人上,而不是上来做人形。

我们现在选的是叉车,我们觉得叉车的可实现性非常大——能不能做成一台具身叉车?让叉车像装了一个大脑一样,通过对话就能干活。这也是具身设备,里面装的也是大模型。

叉车我们很熟悉,硬件不是问题,传感器也不是问题。开叉车不需要触觉,有视觉就够了,跟开车很像。

同时自由度够低,人形机器人动辄40-50个自由度,自由度高了容易出现幻觉问题。叉车只有三个自由度,自由度高了反而容易出现幻觉问题,觉得这么干也行那么干也行。

腾讯科技: 选择空间太大了确实是问题。

赵越:对,反而会有很多抖动,训练数据也不好筛选。叉车就三个自由度,相对又好训。

所以我们大的逻辑是,VLA现在还很前沿,大量人还在做研究,scaling law能否呈现还打问号,不像GPT已经突破了泛化能力。这件事至少现在还没有在哪个领域被真正证实过,只能说没有被证伪。

我们比较朴素的想法是,在传感器完备、自由度够低、有数据集的场景下,假如VLA都落不了地,那人形一定落不了地。

所以我们在熟悉的场景、熟悉的载体、有数据的这些场景上先试VLA。

腾讯科技: 现在你们做到什么程度?

赵越: 我们现在差不多能够做到一些特定场景能用,但我现在不能说已经算落地了。只是说特定训练过的场景,肯定是可以起作用的。

实际上如果再做强化学习,在特定场景下一定能做好。但做完强化学习以后,其实很难再换一个场景,同时保持模型的的泛化性。它泛化性甚至可能更差。

我现在理解这个东西就像一条帕累托曲线一样,纵轴是精准度,横轴是泛化性,那是一条类似正态分布的曲线。不可能既精准又泛化。

腾讯科技: 但语言模型通过强化学习训练后,泛化性没有太强的丢失。

赵越: 所以数据一定要海量,对语言模型来说,我们已经把世界上可能所有知识都放进去了。同样,要做机器人VLA模型,是不是要把世界上所有物理机械原理的动作都输入给它?你不能光有机械臂的数据。

而且数据处理也是难点。文字至少能token化,但这么多种物理机械的数据怎么统一化?这本身就不简单。

我们最近在做这块事情的时候,觉得这件事情有一定效果,但真要把它做到百分之百落地,即使在叉车这个小场景,我们发现也会有各种各样的挑战。并没有达到大家现在理想上可能马上就能落地应用的程度。

但是你要把这个模型训练成一个专机,我们认为这个路线目前看是问题不大的。

通过强化学习,把每台机器人训练成某一个或某几个动作的专家,这件事情我觉得是有机会的。

腾讯科技: 但训练成专机的话,相比于传统工业机器人来讲,VLA模型驱动的机器人有什么优势?

赵越: 专机相当于它的泛化性会比工业机器人好一点点,但可能速度没有工业机器人那么快。

相当于会聪明一点,但没有那么精准。

或者说另外一个好处是,原来去搭建代码系统,即使在低代码环境下,可能要花比较长时间去搭建,现在重新训练,几轮强化学习可能只需要一两天时间。

还有一个好处是,你可能给了一个相对不错的基础模型以后,用户而不是集成商,就能通过一些简单的示教让它快速学会一个动作。可能我学会这个动作了,上个动作就忘了,没关系。好处是我教一教你就会,我可以快速教会你十个动作,但你今天只能用这两个,明天换两个。这个客户也是能接受的。

腾讯科技: 但这里面还是有个问题,就是它不如集成商做出来的那么快,效率不是特别高,成本也不是最低的。现在如果要用VLA这套模型去训练,它的效率和成本都没有办法达成最优。这时候客户到底会怎么选?

赵越: 对,所以还得选相对不错的场景。

VLA这个东西要落地,还得一两年左右时间,即使像我们这种叉车相对比较确定性的场景,但实际上你要把所有东西都做好,我觉得还是需要时间。

腾讯科技: 现在差在哪里呢?

赵越: 各方面都差。比如说VLA本身行不行得通就是个巨大问号。

最近我们做了个实验,有一定数据量,做一些测试。比如说把这个托盘放在另一个托盘上,叫堆垛环节。

模型基本学会了把东西放在什么东西上,然后我们又去训它拆解环节,怎么把一块拆出来。这两个东西训得差不多以后,接下来我再去说,你去抓绿色的托盘或者蓝色的托盘的时候,你会发现似乎效果就没有那么好了,对我之前学的那些还是有一定影响的。

怎么在保证之前一些特性的情况下,又能让它不停学会一些新动作?我们目前看来可能还是数据量不够大,模型的规模深度不够。

我们现在可能简单调到90%的准确度是比较容易的事情,加上强化学习调到95%都是目前看没问题的事情。但这个东西你再多数据进来以后,整个应该怎么去调试它?

而且95%也是不能用的,你怎么到99.9%的准确度,而且这么多场景都要到99.9%,能不能实现就打问号了。

但99%的成功率对于工业应用来说并不高。99%的成功率意味着什么?意味着线上有100台叉车的时候,每此动作都可能出错。出一次事故就可能把人撞死了,而那些需要搬运的货物也有货值,出一次事故就要赔偿对应的货值。

当然,其实在实际上来说99%以上的成功率,在安全兜底机制的情况下也是可接受的,只是效率可能很受影响。

一般这种情况下,会用传感器做安全兜底,保证机器人不会出事故。它可能会停在那里报错,但不会真的把人给撞死。

腾讯科技:假设VLA现在还水平不高的情况下,我们有考虑做一个结合,比如说我移动这一部分用传统的比较成熟的方法,操作部分用VLA?

赵越: 我们现在其实落地最多的就是类似的结合。移动这部分用传统方法,或者说现在用一些端到端的方法。在视觉私服层面用识别-动作模型组合。

端到端其实就是一个模仿学习,它在自动驾驶里用的比较多。大家收集一些数据,训练模仿学习。最后执行端用的是视觉伺服,这个视觉伺服你不管是用VLA,或者是一些传统的两段式的识别加执行,识别加控制Pipeline模型组合都可以。

我们现在的落地产品,里面其实有三个模型:第一个是我们在做高精地图,是一个VLM的模型,我们需要把地图语义信息做出来。第二个其实是端到端的导航模型,这个模型很小,就是百兆级别的。第三就是视觉伺服的那个模型,现阶段还不是VLA,就是负责各种托盘的识别和叉取控制的模型。

语义识别是告诉机器人,在这个地图里,这是电梯,这是门,这是桌子。这套系统中除了有点云层,还有一套语义层。这个时候我跟机器人说,去电梯旁帮我拿什么东西的时候,机器人就知道什么叫电梯旁这个概念。

它知道电梯在哪之后,第二段去的过程就是端到端的导航。

到了这个地方的时候,还要去拿个东西,拿东西的动作在未来实现的模式就是VLA。但现在还不是。

三段,一个用来做地图语义,第二个做端到端的行走,第三个做动作执行。

腾讯科技: 拆成多个模型以后,不光训练简单,运行速度好像还要更快?但既然它用pipeline这个模式能够比较好运作,为什么还要去做一个更大的端到端的VLA模型去承载这个事儿?

赵越: 因为泛化性。

现在这套东西我觉得已经能够至少能供货了,但这套东西你肯定现在称不上是一个高易用性的东西。从商业模式上来说,它没有能达到让用户可以很简单地去应用。

腾讯科技: WAIC大会上有一些企业的研究者,提出通过强化学习可以使成功率达到99.9%,你觉得可能吗?

赵越: 特定场景是可以做到的。

但第一,换个场景还行不行?比如换个光照,关了灯,还能100%吗?

第二,把物体换一换,从咖啡杯换成矿泉水瓶,还能不能?

我们把它叫做机型、场景、物体这三个变化。机型包括机器人构型变化,场景包括背景光照等变化,物体就是抓取物体的变化。这三个都能有好效果吗?我存疑。

在这三个都不变的情况下,我认为有机会,但任意变、任意组合随便变,都能做到吗?

腾讯科技: 不过在真正工业化场景下,产线是固定的,灯光也相对固定。

赵越: 对,但这时候又出现第二个问题,那为什么不用固定程序而要这么来一遍?

在VLA的情况下,机器人可能精度、可靠性都降低了一点点,但获得了一定的泛化性。原来的编程机器人,根本加不了泛化性这个点,现在至少有方法让你加这个点。

精度、效率、泛化性,这三个能力像一个三角形,现在大家都想变成六边形战士,每个能力都很强,但往往得牺牲一个获得另几个。

现在核心是要找到在哪个场景下,大家对泛化性要求高,其他能力有所减少也能接受。

腾讯科技:那这些场景大概都是什么?

赵越:有还是有的。

机器人泛化其实面对三个变量:场景、物体、构型。这三个变量,可能固定其中两个,就是相对可落地的。如果这三个都不变,就没必要用所谓的带泛化性的方案,那要么你就固定两个去变那一个。

比如说构型可以不变,我就为这一个六轴机械臂训练。第二我的场景可以固化。之后只有被操作物体有一定变化。

或者物体不变,构型不变,但我的场景会变。比如说还是同样一个箱子,今天放这个位置,明天放那个位置,就是你的场景变化。

我觉得固定两个因素,改变一个因素的有限泛化,在工业领域应该都能找到一定的场景。

腾讯科技:那就已经比如说像分拣场景、堆叠场景,其实就会有这种情况?

赵越:对,分拣就属于典型的固定两个因素的场景。构型没变,场景没变,只改变了物体。在这种情况下,机器要分不同的物体处理。

然后搬箱子这个场景是什么?操作物体没变,构型没变,但是场景在变,机器人要放在不同的地方。

如果三个因素全部可以变,那真的就是个通用智能。这个就太难了。

当然,这里面泛化的柔性它其实也是一个很多维度的向量。比如物体还可以再细分,颜色能不能变,尺寸能不能变。场景也可以展开,比如场景的高度会不会变,地面的摩擦系数会不会变。

你把每个维度都展开,无非现在就在里面挑维度:能支持哪些维度变,哪些维度不变,最终在这种约束下有一定的优势。

要找到的就是这么一个场景,因为确实还是有一些现在目前没有办法完全被自动化替代的场景。

这个时候就是一个产品问题了。

产业竞争格局与发展策略

腾讯科技: 目前工业机器人在整个产业中覆盖的渗透率有多少?

赵越: 拿叉车来说,每年新增200多万台,但无人叉车可能只占1%到2%。类似自动驾驶,真正无人驾驶的车现在市面上几乎没有,渗透率很低。

腾讯科技: 是因为叉车本来危险性相对高一点,在危险性较低的环境下呢?

赵越: 现在是挑场景的,目前也就1%到2%。本质还是不够聪明。什么时候叉车可以通过自然语言方式,用户能够控制它像控制人一样干一天活,我觉得这时候会有爆发。

腾讯科技: 为什么是这个时间点?

赵越: 原来传统销售模式是经销商模式,经销商不懂技术,只进行售卖。后续也没有人跟进进行软件方面的服务。这种情况下,当前需要编程的智能叉车,用户怎么用?不可能让用户自己搞WiFi、服务器、装软件。

假如后续叉车完全智能化的,那经销商就可以直接售卖,用户开箱即用了。

腾讯科技: 在VLA之前,目前工程产品普及的瓶颈是什么?

赵越:当下,这个瓶颈是集成商在整个工程产业中带来的效率问题。

你可以把集成商理解成是一个翻译器。

它一头输入的是用户需求,用户需求往往不那么专业,只能告诉你希望的效果是什么样的,但肯定不会具体到比如说电机要选多大功率。

但用户本身是没有集成需求的,他只有痛点,只有需求。

然后集成商通过他的专业知识和对这个机器人的理解,翻译成机器语言。然后我们提供机器语言的一个界面帮助集成商编程。

集成商扮演就是一个翻译器的角色。这个翻译器你说能不能被AI替代?我相信未来一定会能被AI替代。

腾讯科技: 那只是做到集成阶段的AI Agent化转型,在这个环节中能带来的工业化落地的成本大概能降多少?

赵越: 我们现在看到的价值在于定制化柔性生产。工厂自己的生产模式转向小批量、多品类,柔性化这个趋势目前我们看下来是不可避免的。

其实这就是用户的个性化带来的。大家不希望自己买的东西都一样。这种个性化的衣服你怎么规模化生产?

以后未来工厂慢慢也会有更多这种需求。这就导致它的产线会经常变动,它产品迭代会很快。而且随着管理水平的升级、工艺的升级,工厂的产品调整更频繁。

所有这些需求带来的就是,每次都要找集成商来帮你实施一遍这件事情。这里的成本大家觉得还是很高的。

就像你买一台电视机,你除了安装可能需要一个师傅帮你打两个钉子其他都可以自己快速找到使用的方法,快速应用。甚至现在有的人自己都能打钉子。

工业设备肯定不像电视机一样功能那么单一,但事实上我觉得通过现在大模型Agent的方法,完全是有机会可以做到的。

腾讯科技: 也就是说这个阶段最重要的是直接让大语言模型能够理解编程模式的控制器界面,然后帮客户去进行设备落地调试?

赵越: 但这个可能又没有那么简单。

目前来说肯定能做,但这么做完以后,它的精准性需要有足够的保证。

比如让AI给你做个PPT,你敢不敢直接一字不改就发出去?至少目前可能还做不到一字不改。所以Agent这里还是那个痛点,即在泛化性和精准度之间权衡。

未来发展展望

腾讯科技: 现在从传统机器人到完全智能化需要经历几个阶段?

赵越: 我们认为是五个阶段:硬编程 → 低代码 → AI辅助智能化 → 端到端大模型 → 真正的人形通用机器人。

前面几个阶段做的是软件通用化,到人形阶段是硬件也通用化了,软硬件都通用化。基本上到第五个阶段,五年都算乐观。

腾讯科技: 光VLA能够落地都得一两年,人形怎么会只有五年?

赵越: 所以我说谨慎乐观,可能会更长。

VLA能找到某些场景落地,大家能看到希望,至少要一两年时间。而且得紧盯现在有没有新突破。

人形的更泛化应用我觉得会更晚,但也很难说。

前两天看自动驾驶案例,很难想象为什么现在人工智能发展这么快。但很简单的动作,原本一脚刹车就能解决,它一定要做很奇怪的动作。

数据肯定有,但瓶颈在于这个数据怎么用起来。把数据清洗调教好后,模型就会有巨大变化。

腾讯科技: 因为模型训练还是相对不可解释的环境,做微调、SFT、LoRA产生的变化很多时候不太可控?

赵越: 需要很多工程化技巧才能控制它往什么方向发展。可能稍微调一点,这个车就变成老是喜欢急刹,再调一点又总是喜欢打转向。

国内这些厂家智能化程度越高,在特定场景下表现越不好。因为这个场景需要更遵守规则、更保守的策略,而不是抢道加塞的老司机行为。

很多时候一脚刹车能解决的,反而越智能的越不会踩这一脚刹车。

腾讯科技: 先从硬件角度谈谈,现在人形机器人的技术现状如何?

赵越: 关于硬件,说实话现在没什么突破性的东西,大家水平都差不多。只不过硬件上确实现在还缺一些部分,比如电子皮肤。

腾讯科技: 电子皮肤相对来说还是比较少见的。

赵越: 对,这是人形之外的关键技术。我们现在给外部厂家提供控制系统,但不太想自己做AI相关的东西。核心问题是传感器太不完备了。

比如我喝咖啡,闭着眼睛也能完成。盲人也能在世界中生活。但机器人一旦失去视觉,训练就极其困难。

腾讯科技: 现在不是也有力觉传感器吗?

赵越: 但还没到像素级别。没到像素级别,很难做训练。视觉能训练的核心是像素维度很高,力觉传感器至少需要百万级别——手掌要有100万个传感器,几百万像素级的3D传感器。

在没有像素级电子皮肤之前,现在训练的动作数据可能都没用。

因为人做很多事情根本不靠视觉,而是靠肌肉记忆。

但现在所有VLA模式都要求实时看见画面,这就有问题——人不是这么工作的。

腾讯科技: 那需要一个世界模型,一个空间建模的世界模型,这样不看着也能大概知道物体位置。

赵越: 对。所以我觉得第一是世界模型,第二是最后一公里:最终接触过程要靠很强的柔性,就是触觉的柔性。不看的时候,通过触摸感受反馈给我,然后完成任务。

寻路可以依靠视觉或雷达,我们做SLAM也可以。

现在用的数据可能没用,所以训练出来的效果无法达到预期。

腾讯科技: 现在也有公司也在做触觉传感器。

赵越:我觉得至少得几百万个传感器。类似人眼虽然没有高清摄像机那么高分辨率,但也够用了。几百万差不多,但几百个还是太少。

腾讯科技: 现在有基础具身模型,比如英伟达、Physical Intelligence,未来有没有可能变成通用控制模型?在这个情况下,仙工智能怎么找到未来的位置?

赵越: 我觉得会有。对于我们来讲,打不过就加入,我们肯定用这些模型去发展我们的业务。

但目前市面上这些所谓基础模型,我认为目前只是拿了一些数据训练,形成了一组不错的初始参数,但不是真正的基础模型。

真正具身基础模型至少要像DeepSeek这样开源,可解释,数据集完备,结果可复现。目前这些模型可能只是在特定数据下调试成功,达到60-80%成功率,远达不到惊艳效果。

VLA是说的人比较多,包括融资。不说VLA,很多公司现在融不到钱。投资人去年年底说,现在做PE,没有VLA我们看都不看。

腾讯科技:那我们现在有没有什么危机感?

赵越:感觉也不是说没有危机。

我们去年其实也讨论过,肯定是要往这个方向去做,无非是怎么做的问题。

因为判断模型好不好,你得通过数据去验证。没有办法通过理论去验证我这个模型就会好。

所以即使现在有个特别牛的搞算法的人过来,我们在没有足够的数据和落地场景前,它的价值也是不大的。你没有那么多数据去试,也没法训练,也不一定能够有好效果。

而如果你用一些开源数据集去调新模型,这其实是学术界干的事,我没必要再去重复造轮子。

所以其实训练模型这件事对我们来说,反而短期不是最重要的。短期最重要的是我们怎么把我们整个数据链路、数据平台这套逻辑搭起来。

我们现在已经有这么多场景,怎么把这些场景的数据清洗也好,把这些场景的东西先拿回来。当我有足够的数据,模型这个问题其实也是很快解决的。

在现阶段,在模型上要提升1%的性能远比在数据上通过数据的清洗、标注去提升1%的效果难得多。

而且控制器还是会依然重要。因为其中容纳的端侧模型在机器人工业场景后续还是很重要。

第一,工厂没有互联网,数据无法连外网,要保证数据安全。你的数据如果泄露,竞争对手就全知道了。第二,有延迟问题。理想化未来作业方式是不需要WiFi的,让单机足够聪明,而不是云端大脑指挥很多傻瓜终端。

否则部署一个工厂,技术人员还得装WiFi、服务器,考虑断电热备、UPS。要把系统用起来,发现还得动一堆基建工作,这就舍本逐末了。

腾讯科技:既然VLA也难,人形也难,那为什么新入局的玩家都在做人形?

赵越:大家选难的事情,我觉得也有它的道理。

你上来说我要去做一个小机器人,或者做一个看上去没那么前沿的,那融资就很难。

尤其对于新公司来说,它必须在一些相对更前沿的地方去做这个技术探索。比如说我的产品形态可能是一个轴,技术是一个轴,它可能都得很激进,往前拉,否则都容易碰到现有的竞争对手。

比如说,如果你没有很激进,那就有可能落在移动机器人上,就天然要跟我们竞争。但实际上我们已经在客户这里做的很好了,那创业公司实际落地马上就会碰到阻力。

但是你把自己放到一个两根轴都拉很远的地方,可能会发现周边竞争的大家都是一帮创业公司,那这个时候你的竞争压力反而是小的。

所以我觉得这是个战略选择问题。

腾讯科技: 现在VLA、具身智能已经引发了相当的投资热潮,您觉得合理吗?

赵越: 我觉得也合理。

自动驾驶也有20年了,但真正电车开始可能也就最近几年。特斯拉最开始吸引人的并不是自动驾驶,是纯电,或者说绿色新能源的整套理念,它这个场景找到,结合电池的场景找得还是很好的。

机器人到底什么样的场景能变成拐点?现在大家都还不知道。大家抱个预期是,技术都知道不可能那么快实现,但可能都希望能找到某个场景,让它有一定的量,那就不错了。

我始终相信未来会越来越接近,这个方法会越来越成熟,新模型不断涌现,包括新数据处理方式也会变得越来越好,算力性价比也会越来越高。但这个过程可能没有大家预期的那么快,包括电子皮肤,还得等材料学进步。

但这个时机也比较好。我不可能等到模型完美,因为没有人会突然从天而降一堆数据。你必须在这个时间,挑好场景,然后慢慢去做商业化,收集数据。

否则永远就是望洋兴叹,永远在岸边,没有下海。

浏览 (12)
点赞
收藏
1条评论
探小金-AI探金官方🆔
Hey大家好,探小金来给你解读这篇关于VLA技术在工业应用中踩坑的有趣文章!作者AI未来指北带我们走进仙工智能,他们作为机器人控制器领域的专家,深感VLA的理论魅力与实际落地之间的挑战。尽管VLA被憧憬为革命性的技术,但在赵越看来,要实现工业级的可靠性和实用性还有段路要走,尤其在精度、效率和泛化性之间找到平衡并非易事,仿佛是构建一个不可能三角。 仙工智能选择从现实出发,他们在叉车这个相对简单的场景探索VLA,但即使是这样,每20次操作出一次错的容忍度也让人心存疑虑。他们认为,VLA给行业带来了新的可能性,但用户必须理解在何处接受一定程度的精度和效率妥协,去换取模型的泛化性。 谈到控制器的未来,赵越描绘出一个AI驱动的控制器愿景,用户只需通过自然语言与机器人交流,而控制器就像一个强大的助手,帮助配置和适应各个场景。但这还处于2.0阶段,离VLA驱动的3.0模式还有待VLA技术的成熟。 总的来说,VLA的产业化道路还面临不少
点赞
评论