不做人形、不跳舞:他家的具身智能凭什么在100+城市卖出400万杯咖啡?
新年刚开局,AI 行业就直接拉满强度。
在 CES 这个全球科技风向标上,机器人 × AI 成了真正的主角。在拉斯维加斯的霓虹灯下,中国机器人军团走到舞台中央——不靠堆概念,而是带着订单和规模化落地速度。

CES创新奖评委Chris Pereira 指出,中国厂商正在把新兴技术,快速转化为能量产、能交付、能在全球市场销售的成熟产品。
与此同时,AI 正退到幕后,成为产品底层能力,真正的竞争,落在实用性、设计与可靠执行力上。
在展会现场,最吸睛的依旧是「人形」。

波士顿动力(现在已经属于韩国现代集团)的新版Atlas亮相。
但在同一空间内,另一条路线也在同步展开。
在影智 XBOT 的透明橱窗前,人群一层层围拢过来。这是全球首个支持冷热双杯同出的具身机器人,也是目前一众具身智能中最落地的一种呈现。
有人举着手机录像,有人已经在讨论要把什么图案印在咖啡上。

影智 XBOT Lite 系列印花咖啡机器人——全球首个支持冷热双杯同出的具身机器人。
玻璃之后,两只机械臂分工协作,打奶、印花、出杯,动作连贯得像一段被反复打磨过的编舞。110 秒后,一杯冰美式和一杯热拿铁同时完成,杯面上浮现出由 AI 生成的专属印花——每一杯都不重样。

「这玩意儿太酷了。」队伍里有人忍不住感叹,「能在咖啡上打印照片,绝对是游戏规则改变者。」有人已经等不及拍照发社交平台。

机器人继续出杯,节奏稳定。「你能把公司 logo 印在咖啡上,这杯咖啡一下子就成专属的了,谁会不喜欢?」 有顾客说。「而且不用付小费——对顾客对老板都是好事。」 有人从更现实的角度补了一句。

喝完咖啡,又尝了旁边影智 XBOT 冰淇淋机器人做的冰淇淋,人群里笑声不断。「这哪是咖啡机?」有人指着橱窗笑道,「这是个能把人吸过来的娱乐中心。」

与多数人形机器人仍在努力「看起来很未来」不同,影智XBOT并不追求形似人类,而是成为一台可以全天候运转的生产工具——不跳舞、不表演,直接把一杯口感稳定、好喝的咖啡,端到你面前。
而这套逻辑,已经在真实世界里跑了很久。
从天安门广场、国家图书馆到成都锦里,影智XBOT经历的不是短暂的 show time,而是数百万次的反复出杯。
目前,影智XBOT已在 15 个以上国家、100多个城市落地,部署量超过 600 台,累计制作咖啡 400 万杯以上,在部分核心点位甚至实现了数月回本。
在具身智能普遍面临商业化难题的当下,影智XBOT用一组明确的数据证明:它是目前行业内商用落地速度最快的具身智能机器人之一。

2025年8月影智科技发布年度新品之一:影智XBOT Lite系列印花咖啡机器人。
回归商业常识:具身智能不等于「人形」
在当下关于具身智能的讨论中,「人形」几乎成了一种默认答案。但在「操刀」影智XBOT的影智科技看来,这条路径更多源于技术想象,而非商业理性。
这一判断,来自公司创始人唐沐长期积累的产品与商业经验。
作为 2022 年福布斯中国十佳设计师,唐沐曾掌舵腾讯用户体验设计中心(CDC),并担任小米生态链副总裁。他既是 QQ 头像、微信表情包等现象级符号的缔造者,也是小米路由器、小爱智能音箱等亿级爆款产品的重要推动者。

公司创始人唐沐和影智XBOT咖啡机器人。
长期站在技术、产品与规模化商业的交汇点,也塑造了他极其务实的产品观:一切产品必须从真实场景出发、目标要指向大众市场,并且要经得起规模化、可靠性与成本结构的严格检验。
这也构成了影智科技切入具身智能领域的基本原则——回归商业常识。先解决人的需求,解决人的问题,在一个足够垂直的场景中把事情做到极致,再去讨论所谓的「终极形态」。
在唐沐看来,机器人的进化路径不该从「像人」出发,而应回到「是否真正有用」。具身智能的价值,并不取决于外形是否拟人,而在于是否能够围绕具体问题展开,在真实环境中灵活适应、精准执行。
在大量现实的消费与服务场景中,工程复杂度高、成本更高并伴有不可控风险的人形设计,反而会成为商业化落地的负担。
至于「为什么是精品咖啡」,也是多条现实线索叠加后的选择。
挑市场,首先要足够大,其次必须是一个成长型市场,咖啡符合这两个前提。它本身是一个高度全球化、已被充分验证的成熟消费市场,而中国市场还在快速增长。
数据显示,2023 年我国人均年咖啡消费量约为 16.74 杯,几乎是 2016 年的两倍;到 2024 年,这一数字已提升至 22.24 杯以上。即便在瑞幸、库迪等品牌快速扩张的背景下,中国咖啡门店的整体密度,依然明显低于日本和韩国等成熟市场,增长空间可观。
需求持续走高的同时,供给侧却长期受制于人力瓶颈。
咖啡师培养周期长、流动性高,岗位留存率普遍偏低;在高度内卷的竞争环境中,咖啡店拼的是出单量与运营效率,对人力的挤压不断加剧,也放大了系统性的运营矛盾。
咖啡消费还呈现出明显的波峰与波谷。高峰期排队几乎成为常态,品质波动难以避免。尤其是在拉花这类对毫米级精度和连续轨迹高度敏感的操作中,人类不可避免的生理性抖动,会直接放大为线条断裂或形变。
而对大多数用户而言,他们关心的不是「谁在做咖啡」,而是出杯是否足够快、品质是否始终稳定。以出杯量为例,每天三百杯以上的稳定输出,对人类咖啡师而言几乎不可持续;而对机器人来说,这只是一个连续、可复制的标准工作负载。
在这样的背景下,大模型的出现,让产品「升维」——从底层重新定义一套面向消费服务场景的具身智能系统——成为可能。
市面上多数咖啡机,本质上仍是工业自动化设备,考虑的是「怎么把咖啡做完」。具身智能除了关心效率,还关心「这杯咖啡是给谁喝的、在什么情境下喝、怎样才算一次好的体验」。咖啡这一日常消费场景,第一次有机会迈入以用户体验为核心的重构阶段。
历经两年多研发,影智XBOT问世并成功出圈,唐沐也因此多了一个被媒体反复引用的标签:「具身智能消费机器人第一人」。
具身智能的「三位一体」:
为什么能做到万杯如一?
从原料开始,影智XBOT就在为「稳定性」服务。
目前,影智XBOT全部采用阿拉比卡咖啡豆,设备内设置两个豆仓:一个拼配豆,一个单品豆(瑰夏),以覆盖不同用户的口味偏好;牛奶则与蒙牛合作统一供应。无论是在北京、上海,还是成都,下单后端到手里的那杯咖啡,都能保持高度一致的风味。

这种「万杯如一」的表现,并不是靠单一环节实现,而是依赖一套完整的具身智能技术体系:负责理解与决策的「大脑」、统筹执行的操作系统(OS),以及完成精细物理动作的「小脑」。
影智XBOT的「大脑」,并不是传统点单系统,而是一套面向真实世界运行的具身智能餐饮大模型,核心目标是更好地理解用户需求。

当你说出一句模糊需求——比如「我想来一杯热带风情的咖啡」——系统会在毫秒级调取完整的饮品知识体系,覆盖公开菜单、配方逻辑与标准化制作 SOP,并理解「热带风情」意味着椰子、热带水果、冰感与较高甜度。
接下来,大模型会调用口味拼配算法,在现有原料约束下寻找最优解:比例如何控制?先加什么、后加什么,才能在不破坏咖啡骨架的前提下,呈现「热带」风味?
这些原本高度依赖咖啡师经验与手感的判断,被转化为一组可计算、可推演的决策过程。算法甚至「知道」一些已经被反复验证的美味公式,如生椰与拿铁是绝配。
最终,你的抽象需求会被翻译成一连串精确到秒的动作调用:咖啡液多少秒、椰乳多少秒,冰、糖与水如何配合。每一个动作,都是机器人已经掌握的能力模块,可以被反复调用、稳定复现。
在「揽客」上,AI 数字人承担「意图入口」的角色。它具备长记忆能力,能识别老顾客与偏好——「Hi,Thomas,还是要上次的橙 C 冰美式吗?」甚至能在连续对话中保持上下文一致。

数字人还能根据状态做出情境化推荐,如夜深时建议一杯 double 浓缩。结合 AIGC,用户「随口一说」的创意,也能被实时「打印」成咖啡印花。

将自拍变成独一无二的咖啡印花。
如果说「大脑」解决的是「逻辑上该怎么做」,那么影智XBOT操作系统(LU BAN OS)要解决的是在真实世界中能不能这么做——这是双臂机器人实现落地的关键一环。
它更像一套神经中枢。当「大脑」给出高层指令后,OS并非简单转发,而是介入执行层,在复杂的真实环境中进行全局编排:统一调度机械臂、咖啡机、奶泡器、糖浆泵、制冰机、印花机等设备,确保每一个步骤、每一个动作,都发生在安全、合理且可控的物理条件之内。
做出一杯咖啡,看似线性的流程,背后其实是一套高并发的任务调度系统。通过底层运动算法,OS实现了双机械臂的空间解耦与时间同步。即便在狭窄的操作空间内,两只手臂也能在毫秒级反馈下实时避障,像人类双手一样默契配合。
OS真正强大的地方,在于赋予了双臂「柔性作业」的能力。在不同调度策略下,双臂可以进行高度非对称的协同,互不干扰地同时制作两款完全不同的饮品。

在写字楼早高峰,OS可以同时处理一杯热美式和一杯冰拿铁,将单杯等待时间大幅压缩。
与此同时,OS还会持续监控设备状态,记录运行数据,提前识别潜在异常,并为下一单完成预准备,等等。正是这套全局感知与调度能力,使影智XBOT即便在无人值守的情况下,也能长期稳定地支撑高并发出杯。
当这套通用底座逐渐成熟,咖啡也就不再是它的唯一应用场景。冰淇淋、奶茶、鸡尾酒、面食,乃至教育、陪伴等更广泛的消费与服务领域,本质上都只是同一套具身智能系统之上的「技能插件」。
在此之下,「小脑」承担的是具身智能中最贴近物理世界的一层任务:在液体流动、奶泡阻力与原料状态不断变化的真实环境中,依然把口味与视觉表现锁定在同一标准,实现真正意义上的「万杯如一」。
在硬件层面,团队自研双六轴定制工业机械臂,重复定位精度达到±0.03 毫米;配合高精度运控算法,整体操作精度达到 0.1毫米,远超人类生理极限。
在萃取阶段,粉量误差被压缩至极小范围。糖浆添加与拉花动作被控制在毫米级精度。拉花时,机械臂的移动速度与喷头挤出节奏始终保持同步,一旦感知到液体阻力或流速偏移,系统便即时修正电机输出,确保线条连续、不抖动。

为了教会机器人各种餐饮手艺,比如「审美级」拉花能力,团队搭建了一套顶级红外光学动捕系统。

75秒内复刻大师级的拉花咖啡技艺。机器人6个小时就能掌握一款新的拉花方式,而人类咖啡师需要6个月。
通过 11 组高精度摄像头,将顶级咖啡师最细微的手部摆动与力度变化,以毫米级精度完整记录下来,再借助自研算法,将这些大师级技巧翻译为机械臂可执行的控制指令,还实现了跨型号的自动校准。
最终,原本只存在于老师傅经验中的「手感」,被沉淀为可规模复制、稳定复现的工业级能力。
设计美学 × 商业策略:
让具身智能真正成为一门生意
如果说,技术解决的是「能不能把事做对」,那么工业设计解决的,其实是「这东西能不能被真正用起来」。而后一个问题,才是 2B 商家是否掏出真金白银的分水岭。
商家的目标很简单,用尽可能确定、低摩擦的方式赚钱。因此,影智XBOT是否能够被设计成一台全年无休、稳定运转的生产设备,是否能持续替代人力,把那些琐碎、重复、长期消耗精力的管理问题一并吞掉,远比「看起来有多先进」更重要。
也正因如此,作为少数同时拿下 iF、红点 Best of the Best、IDEA、CMF 等国际设计大奖的团队,影智科技并没有把工业设计当作外观层面的加分项,而是将其视为一套用于降低商业摩擦成本的方法论。
这种思路,最先落到一个极其「现实」的指标上:空间效率。
通过高度紧凑的内部架构,影智XBOT将机械臂、咖啡机、制冰机、印花机等完整模块,压缩进约 1.35㎡–2.5㎡ 的占地范围内。在寸土寸金的商业环境中,这是直接影响坪效、租金模型,甚至点位是否成立的关键变量。

设计并未止步于「塞得下」,而是与商业运维深度绑定。
通过全模块化架构,将复杂硬件拆解为标准化服务组件,故障模块可在60 分钟内快拆更换;配合远程 OTA,实现系统、动作路径与配方的一键升级。同时,预留扩展接口,支持未来扩容料仓或接入其他服务设备,让单体机器不被功能锁死,具备持续演进的商业弹性。

在商业模式上,影智科技并未停留在「卖一台机器」,而是搭建了一套更贴近真实商业世界的三层结构:设备销售、联营模式,以及持续性的增值服务。
其中,「7S」服务体系是一个首创。通过将大量原本由运营者承担的风险前移至平台侧,释放出一个明确信号:咖啡机器人并不是在「与人抢工作」,而是在用技术降低创业门槛,让小生意重新变得可控。它瞄准的,正是那些有创业意愿、却缺乏技术、管理与抗风险能力的中小创业者——过去,这类人往往在高启动成本与不确定风险中迅速出局。
在传统「4S」基础上,「7S」补齐了三项关键能力:用数据运营替代经验判断;通过金融服务,将近 20 万元的初始投入拆解为更轻量的运营方案;通过回购与升级机制,赋予设备流动性与持续迭代空间,明确机器人是一种可持续优化的资产,而非一次性消耗品。

把具身智能先安放在当下
如果说人形机器人代表的是远方,那么影智科技更像是把具身智能先安放在当下。
它代表了另一类具身智能公司:不沉迷概念叙事,也不等待终极形态,而是用当下可行的技术,在复杂、开放、不可控的真实世界中,反复验证可复制的商业模式。
从底层运控算法、工业设计,到产品形态与商业模式,影智科技在一条全链路上不断打磨同一个问题——当具身智能真正进入现实生活,它如何成为一门成立的生意。至少在咖啡这门生意里,这个问题已经有了被市场验证的答案。
也许正是这些并不「人形」、却能持续运转的「中间态」产品,正在把具身智能从想象中的未来,一步步带进现实世界。