发布于 13小时前

不做人形、不跳舞：他家的具身智能凭什么在100+城市卖出400万杯咖啡？

编辑｜吴昕

新年刚开局，AI 行业就直接拉满强度。

在 CES 这个全球科技风向标上，机器人 × AI 成了真正的主角。在拉斯维加斯的霓虹灯下，中国机器人军团走到舞台中央——不靠堆概念，而是带着订单和规模化落地速度。

CES创新奖评委Chris Pereira 指出，中国厂商正在把新兴技术，快速转化为能量产、能交付、能在全球市场销售的成熟产品。

与此同时，AI 正退到幕后，成为产品底层能力，真正的竞争，落在实用性、设计与可靠执行力上。

在展会现场，最吸睛的依旧是「人形」。

波士顿动力（现在已经属于韩国现代集团）的新版Atlas亮相。

但在同一空间内，另一条路线也在同步展开。

在影智 XBOT 的透明橱窗前，人群一层层围拢过来。这是全球首个支持冷热双杯同出的具身机器人，也是目前一众具身智能中最落地的一种呈现。

有人举着手机录像，有人已经在讨论要把什么图案印在咖啡上。

影智 XBOT Lite 系列印花咖啡机器人——全球首个支持冷热双杯同出的具身机器人。

玻璃之后，两只机械臂分工协作，打奶、印花、出杯，动作连贯得像一段被反复打磨过的编舞。110 秒后，一杯冰美式和一杯热拿铁同时完成，杯面上浮现出由 AI 生成的专属印花——每一杯都不重样。

「这玩意儿太酷了。」队伍里有人忍不住感叹，「能在咖啡上打印照片，绝对是游戏规则改变者。」有人已经等不及拍照发社交平台。

机器人继续出杯，节奏稳定。「你能把公司 logo 印在咖啡上，这杯咖啡一下子就成专属的了，谁会不喜欢？」有顾客说。「而且不用付小费——对顾客对老板都是好事。」有人从更现实的角度补了一句。

喝完咖啡，又尝了旁边影智 XBOT 冰淇淋机器人做的冰淇淋，人群里笑声不断。「这哪是咖啡机？」有人指着橱窗笑道，「这是个能把人吸过来的娱乐中心。」

与多数人形机器人仍在努力「看起来很未来」不同，影智XBOT并不追求形似人类，而是成为一台可以全天候运转的生产工具——不跳舞、不表演，直接把一杯口感稳定、好喝的咖啡，端到你面前。

而这套逻辑，已经在真实世界里跑了很久。

从天安门广场、国家图书馆到成都锦里，影智XBOT经历的不是短暂的 show time，而是数百万次的反复出杯。

目前，影智XBOT已在 15 个以上国家、100多个城市落地，部署量超过 600 台，累计制作咖啡 400 万杯以上，在部分核心点位甚至实现了数月回本。

在具身智能普遍面临商业化难题的当下，影智XBOT用一组明确的数据证明：它是目前行业内商用落地速度最快的具身智能机器人之一。

2025年8月影智科技发布年度新品之一：影智XBOT Lite系列印花咖啡机器人。

回归商业常识：具身智能不等于「人形」

在当下关于具身智能的讨论中，「人形」几乎成了一种默认答案。但在「操刀」影智XBOT的影智科技看来，这条路径更多源于技术想象，而非商业理性。

这一判断，来自公司创始人唐沐长期积累的产品与商业经验。

作为 2022 年福布斯中国十佳设计师，唐沐曾掌舵腾讯用户体验设计中心（CDC），并担任小米生态链副总裁。他既是 QQ 头像、微信表情包等现象级符号的缔造者，也是小米路由器、小爱智能音箱等亿级爆款产品的重要推动者。

公司创始人唐沐和影智XBOT咖啡机器人。

长期站在技术、产品与规模化商业的交汇点，也塑造了他极其务实的产品观：一切产品必须从真实场景出发、目标要指向大众市场，并且要经得起规模化、可靠性与成本结构的严格检验。

这也构成了影智科技切入具身智能领域的基本原则——回归商业常识。先解决人的需求，解决人的问题，在一个足够垂直的场景中把事情做到极致，再去讨论所谓的「终极形态」。

在唐沐看来，机器人的进化路径不该从「像人」出发，而应回到「是否真正有用」。具身智能的价值，并不取决于外形是否拟人，而在于是否能够围绕具体问题展开，在真实环境中灵活适应、精准执行。

在大量现实的消费与服务场景中，工程复杂度高、成本更高并伴有不可控风险的人形设计，反而会成为商业化落地的负担。

至于「为什么是精品咖啡」，也是多条现实线索叠加后的选择。

挑市场，首先要足够大，其次必须是一个成长型市场，咖啡符合这两个前提。它本身是一个高度全球化、已被充分验证的成熟消费市场，而中国市场还在快速增长。

数据显示，2023 年我国人均年咖啡消费量约为 16.74 杯，几乎是 2016 年的两倍；到 2024 年，这一数字已提升至 22.24 杯以上。即便在瑞幸、库迪等品牌快速扩张的背景下，中国咖啡门店的整体密度，依然明显低于日本和韩国等成熟市场，增长空间可观。

需求持续走高的同时，供给侧却长期受制于人力瓶颈。

咖啡师培养周期长、流动性高，岗位留存率普遍偏低；在高度内卷的竞争环境中，咖啡店拼的是出单量与运营效率，对人力的挤压不断加剧，也放大了系统性的运营矛盾。

咖啡消费还呈现出明显的波峰与波谷。高峰期排队几乎成为常态，品质波动难以避免。尤其是在拉花这类对毫米级精度和连续轨迹高度敏感的操作中，人类不可避免的生理性抖动，会直接放大为线条断裂或形变。

而对大多数用户而言，他们关心的不是「谁在做咖啡」，而是出杯是否足够快、品质是否始终稳定。以出杯量为例，每天三百杯以上的稳定输出，对人类咖啡师而言几乎不可持续；而对机器人来说，这只是一个连续、可复制的标准工作负载。

在这样的背景下，大模型的出现，让产品「升维」——从底层重新定义一套面向消费服务场景的具身智能系统——成为可能。

市面上多数咖啡机，本质上仍是工业自动化设备，考虑的是「怎么把咖啡做完」。具身智能除了关心效率，还关心「这杯咖啡是给谁喝的、在什么情境下喝、怎样才算一次好的体验」。咖啡这一日常消费场景，第一次有机会迈入以用户体验为核心的重构阶段。

历经两年多研发，影智XBOT问世并成功出圈，唐沐也因此多了一个被媒体反复引用的标签：「具身智能消费机器人第一人」。

具身智能的「三位一体」：

为什么能做到万杯如一？

从原料开始，影智XBOT就在为「稳定性」服务。

目前，影智XBOT全部采用阿拉比卡咖啡豆，设备内设置两个豆仓：一个拼配豆，一个单品豆（瑰夏），以覆盖不同用户的口味偏好；牛奶则与蒙牛合作统一供应。无论是在北京、上海，还是成都，下单后端到手里的那杯咖啡，都能保持高度一致的风味。

这种「万杯如一」的表现，并不是靠单一环节实现，而是依赖一套完整的具身智能技术体系：负责理解与决策的「大脑」、统筹执行的操作系统（OS），以及完成精细物理动作的「小脑」。

影智XBOT的「大脑」，并不是传统点单系统，而是一套面向真实世界运行的具身智能餐饮大模型，核心目标是更好地理解用户需求。

当你说出一句模糊需求——比如「我想来一杯热带风情的咖啡」——系统会在毫秒级调取完整的饮品知识体系，覆盖公开菜单、配方逻辑与标准化制作 SOP，并理解「热带风情」意味着椰子、热带水果、冰感与较高甜度。

接下来，大模型会调用口味拼配算法，在现有原料约束下寻找最优解：比例如何控制？先加什么、后加什么，才能在不破坏咖啡骨架的前提下，呈现「热带」风味？

这些原本高度依赖咖啡师经验与手感的判断，被转化为一组可计算、可推演的决策过程。算法甚至「知道」一些已经被反复验证的美味公式，如生椰与拿铁是绝配。

最终，你的抽象需求会被翻译成一连串精确到秒的动作调用：咖啡液多少秒、椰乳多少秒，冰、糖与水如何配合。每一个动作，都是机器人已经掌握的能力模块，可以被反复调用、稳定复现。

在「揽客」上，AI 数字人承担「意图入口」的角色。它具备长记忆能力，能识别老顾客与偏好——「Hi，Thomas，还是要上次的橙 C 冰美式吗？」甚至能在连续对话中保持上下文一致。

数字人还能根据状态做出情境化推荐，如夜深时建议一杯 double 浓缩。结合 AIGC，用户「随口一说」的创意，也能被实时「打印」成咖啡印花。

将自拍变成独一无二的咖啡印花。

如果说「大脑」解决的是「逻辑上该怎么做」，那么影智XBOT操作系统（LU BAN OS）要解决的是在真实世界中能不能这么做——这是双臂机器人实现落地的关键一环。

它更像一套神经中枢。当「大脑」给出高层指令后，OS并非简单转发，而是介入执行层，在复杂的真实环境中进行全局编排：统一调度机械臂、咖啡机、奶泡器、糖浆泵、制冰机、印花机等设备，确保每一个步骤、每一个动作，都发生在安全、合理且可控的物理条件之内。

做出一杯咖啡，看似线性的流程，背后其实是一套高并发的任务调度系统。通过底层运动算法，OS实现了双机械臂的空间解耦与时间同步。即便在狭窄的操作空间内，两只手臂也能在毫秒级反馈下实时避障，像人类双手一样默契配合。

OS真正强大的地方，在于赋予了双臂「柔性作业」的能力。在不同调度策略下，双臂可以进行高度非对称的协同，互不干扰地同时制作两款完全不同的饮品。

在写字楼早高峰，OS可以同时处理一杯热美式和一杯冰拿铁，将单杯等待时间大幅压缩。

与此同时，OS还会持续监控设备状态，记录运行数据，提前识别潜在异常，并为下一单完成预准备，等等。正是这套全局感知与调度能力，使影智XBOT即便在无人值守的情况下，也能长期稳定地支撑高并发出杯。

当这套通用底座逐渐成熟，咖啡也就不再是它的唯一应用场景。冰淇淋、奶茶、鸡尾酒、面食，乃至教育、陪伴等更广泛的消费与服务领域，本质上都只是同一套具身智能系统之上的「技能插件」。

在此之下，「小脑」承担的是具身智能中最贴近物理世界的一层任务：在液体流动、奶泡阻力与原料状态不断变化的真实环境中，依然把口味与视觉表现锁定在同一标准，实现真正意义上的「万杯如一」。

在硬件层面，团队自研双六轴定制工业机械臂，重复定位精度达到±0.03 毫米；配合高精度运控算法，整体操作精度达到 0.1毫米，远超人类生理极限。

在萃取阶段，粉量误差被压缩至极小范围。糖浆添加与拉花动作被控制在毫米级精度。拉花时，机械臂的移动速度与喷头挤出节奏始终保持同步，一旦感知到液体阻力或流速偏移，系统便即时修正电机输出，确保线条连续、不抖动。

为了教会机器人各种餐饮手艺，比如「审美级」拉花能力，团队搭建了一套顶级红外光学动捕系统。

75秒内复刻大师级的拉花咖啡技艺。机器人6个小时就能掌握一款新的拉花方式，而人类咖啡师需要6个月。

通过 11 组高精度摄像头，将顶级咖啡师最细微的手部摆动与力度变化，以毫米级精度完整记录下来，再借助自研算法，将这些大师级技巧翻译为机械臂可执行的控制指令，还实现了跨型号的自动校准。

最终，原本只存在于老师傅经验中的「手感」，被沉淀为可规模复制、稳定复现的工业级能力。

设计美学 × 商业策略：

让具身智能真正成为一门生意

如果说，技术解决的是「能不能把事做对」，那么工业设计解决的，其实是「这东西能不能被真正用起来」。而后一个问题，才是 2B 商家是否掏出真金白银的分水岭。

商家的目标很简单，用尽可能确定、低摩擦的方式赚钱。因此，影智XBOT是否能够被设计成一台全年无休、稳定运转的生产设备，是否能持续替代人力，把那些琐碎、重复、长期消耗精力的管理问题一并吞掉，远比「看起来有多先进」更重要。

也正因如此，作为少数同时拿下 iF、红点 Best of the Best、IDEA、CMF 等国际设计大奖的团队，影智科技并没有把工业设计当作外观层面的加分项，而是将其视为一套用于降低商业摩擦成本的方法论。

这种思路，最先落到一个极其「现实」的指标上：空间效率。

通过高度紧凑的内部架构，影智XBOT将机械臂、咖啡机、制冰机、印花机等完整模块，压缩进约 1.35㎡–2.5㎡的占地范围内。在寸土寸金的商业环境中，这是直接影响坪效、租金模型，甚至点位是否成立的关键变量。

设计并未止步于「塞得下」，而是与商业运维深度绑定。

通过全模块化架构，将复杂硬件拆解为标准化服务组件，故障模块可在60 分钟内快拆更换；配合远程 OTA，实现系统、动作路径与配方的一键升级。同时，预留扩展接口，支持未来扩容料仓或接入其他服务设备，让单体机器不被功能锁死，具备持续演进的商业弹性。

在商业模式上，影智科技并未停留在「卖一台机器」，而是搭建了一套更贴近真实商业世界的三层结构：设备销售、联营模式，以及持续性的增值服务。

其中，「7S」服务体系是一个首创。通过将大量原本由运营者承担的风险前移至平台侧，释放出一个明确信号：咖啡机器人并不是在「与人抢工作」，而是在用技术降低创业门槛，让小生意重新变得可控。它瞄准的，正是那些有创业意愿、却缺乏技术、管理与抗风险能力的中小创业者——过去，这类人往往在高启动成本与不确定风险中迅速出局。

在传统「4S」基础上，「7S」补齐了三项关键能力：用数据运营替代经验判断；通过金融服务，将近 20 万元的初始投入拆解为更轻量的运营方案；通过回购与升级机制，赋予设备流动性与持续迭代空间，明确机器人是一种可持续优化的资产，而非一次性消耗品。

把具身智能先安放在当下

如果说人形机器人代表的是远方，那么影智科技更像是把具身智能先安放在当下。

它代表了另一类具身智能公司：不沉迷概念叙事，也不等待终极形态，而是用当下可行的技术，在复杂、开放、不可控的真实世界中，反复验证可复制的商业模式。

从底层运控算法、工业设计，到产品形态与商业模式，影智科技在一条全链路上不断打磨同一个问题——当具身智能真正进入现实生活，它如何成为一门成立的生意。至少在咖啡这门生意里，这个问题已经有了被市场验证的答案。

也许正是这些并不「人形」、却能持续运转的「中间态」产品，正在把具身智能从想象中的未来，一步步带进现实世界。

AI资讯

浏览 (9)