阿里云如何全栈迎接ASI
在2025云栖大会上,阿里云明确将自己定位为“全栈人工智能服务商”,这已超越外界对阿里巴巴的既有印象,也可能重新定义整个阿里巴巴。
它不只是开源模型的领军者,让央视意外曝光的PPU也只是冰山一角。在过去几年互联网巨头普遍沉默的时期,外界有意无意地忽视了阿里巴巴从模型到算力到网络的AI全技术栈的深层演进。阿里巴巴重新阐述宏伟的未来愿景,比DeepSeek的横空出世,更能持续深远地揭示国内AI生态大气候转向。
三大展馆是阿里云战略意图的缩影。计算馆、人工智能+馆、前沿应用馆,分别对应AI的基础设施、大模型与应用。但这只是对当前格局的静态呈现。若以阿里巴巴集团 CEO 吴泳铭的愿景为参照,所谓“全栈人工智能服务商”,实则是向全球AI应用,提供覆盖AI超级云与AI操作系统的完整服务体系。
AI的重心已经从训练转向推理,需要创造价值,兑现价值。这意味着一方面要降低解决每个问题的token成本,另一方面要让同样的token能够承载更高价值。这正是“token经济学”的要义。而实现这两点的前提,就是对整个技术栈拥有足够的掌控力。
今年的云栖大会,云集了11万人,也惊动了硅谷。这一周,英伟达的黄仁勋与方舟投资的木头姐,都提到了谷歌已经建成这样的全栈技术。前者认为谷歌是独一无二的,尤其是在AI定制芯片领域;后者则称谷歌已经“太成熟了”,她寻找的是有潜力打破甚至挑战既定格局的对象。黄仁勋提到了阿里10年10倍的基建大计,木头姐四年来首次重新建仓阿里巴巴。
下一代操作系统
阿里巴巴在开源模型领域的领先地位正不断强化。今年以来,Qwen 家族几乎以“每周一更”的节奏迭代,成为中国乃至全球开发者和初创企业的默认起点。在云栖大会上,阿里一次性发布7款Qwen系列模型,并同步更新Wan系列。
如今,Qwen生态已涵盖300多款模型、17万个衍生版本,累计下载量突破6亿次,超过美国其他开源模型的总和。阿里正把AI应用生态牢牢锁定在自家轨道上,也为其打造“下一代计算机”奠定潜在用户基础。

降低token单位成本的路径有多种。微软近期一篇关于人工智能推理能耗的论文总结了三条:提升芯片效率、改进模型算法、优化工作负载。其中,模型算法改进的案例,几乎都来自中国开源社区,阿里巴巴受到重点关注。最新发布的Qwen3-Next架构,总参数80B,却只需激活3B,即可媲美旗舰版Qwen3-235B性能,效率大幅提升。
提升token价值需要产业纵深。沿着扩展定律持续推进大模型性能,仍是厂商们的核心战略。在此次发布的 Qwen3-Max 中,预训练数据量达到 36T tokens、总参数突破万亿,具备强大的编程能力与Agent工具调用能力,性能跻身全球前三。
阿里巴巴对Qwen系列的未来充满野心。它将全模态进全模态出,参数量扩展至10万亿级别,数据量扩展至百万亿级别,上下文扩展至千万乃至上亿长度。

越来越多的模型性能的提升,来自部署与使用过程中生成的数据。部署带来分布,分布生成数据,数据改善性能,良好的性能又反过来强化分布。这也是为什么OpenAI越来越希望拥有自己的应用程序,并同时转型为算力租赁的云服务商。只有掌握了应用与算力分发,它才能在反馈驱动的循环中占据优势。
与之相对,开源和开放降低了集成摩擦,把开发者转化为天然的分销渠道。开源既是一种技术哲学,也是一种市场策略。
但是,性能并非终点。让大模型成为“操作系统”,推动多智能体协作,完成长流程、高复杂度的现实任务更为重要。吴泳铭说:“几乎所有链接真实世界的工具接口都将与大模型进行链接,所有用户需求和行业应用将会通过大模型相关工具执行任务。”
阿里云拥有百炼平台,Qwen3-Coder等代码生成模型,以及最新的无影AgentBay,都在降低开发、部署与运营智能体的门槛。阿里还和支付宝打造了Alipay Toolkit,相当于谷歌的AP2智能体支付协议,让客户在自己的技术栈上兑现价值。
真正的价值兑现,更在于产业落地。阿里巴巴自身拥有规模效应的应用矩阵,同时也在服务更广泛的企业客户。只有将大模型能力深度嵌入企业实际生产流程,才能真正兑现token的单位价值。贝恩公司估计,到2030年,AI必须创造2万亿美元年收入才能实现财务平衡。阿里云瓴羊的企业级AI智能体服务平台 AgentOne,已经开始触及企业交付的“最后一公里”。
下一代计算机
阿里巴巴在大模型时代的“操作系统”,将跑在自己的“下一代计算机”上。谷歌与Meta正在尝试讲述这样宏大的叙事,OpenAI同样如此。在谈到OpenAI与英伟达的交易时,奥特曼(Sam Altman)就很直白地说,一切都从计算开始,计算基础设施将是未来经济的基础。
但是,AI的基础设施正在变得前所未有的昂贵。今年初“星际之门”计划公布后,亚马逊、微软、谷歌和 Meta 纷纷将年度 AI 基础设施投入上调至千亿美元规模,投资浪潮再度升级。英伟达宣布对 OpenAI 投入千亿美元,也把这场竞赛推高至10GW 级别的能源与算力门槛。
在最新一次访谈中,黄仁勋特意引用了阿里巴巴计划在未来十年让其全球数据中心容量增长十倍的消息。他最懂阿里巴巴想做什么,那就是未来的“AI工厂”。
唯有在“AI工厂”的生命周期内,压榨出更多token才能摊薄成本。但这已不再只是单卡算力的较量,而是一个全栈层面的协同优化。也因此,黄仁勋始终看空ASIC定制芯片。
打造一座“AI工厂”的真正的挑战,不是单单造出一颗“AI芯片”,而是前所未有的系统级协同设计。为此,英伟达重塑了CPU,革新了GPU、网络芯片,推出NVLink实现纵向扩展(scale up),又以Spectrum-X实现横向扩展(scale out)。
在黄仁勋看来,目前能在这一层级上有所建树的,只有谷歌。因为它们早在一切开始之前就已经行动,以创业公司的姿态发布了TPU v1,直至今天Ironwood架构的TPUv7。
全栈自研能够放大模型与芯片设计之间的协同效应。模型架构正从“稠密”走向“稀疏”,因此对超大带宽和超低时延的网络需求愈发刚性;从纯训练向训推一体演进,使得预填充(prefill)与解码(decode)阶段的软硬件解耦与针对性优化成为必要。
阿里巴巴并没有缺席,而且起步较早。它的芯片研发平台平头哥成立于2018年,研发了服务器CPU的倚天系列、SSD主控芯片的镇岳、AI推理的含光等等。AI芯片PPU“意外”曝光,多项性能参数已经超越了英伟达缩水版的H20。达摩院还是RISC-V软件生态(RISE)的唯一中国创始成员。
云栖大会上,阿里披露了更多自研硬件进展,包括云基础设施处理器的CIPU 2.0,服务器BMC的CMU610,安全模块AliPRoT,SSD模块AliFlash v5,以及首次规模量产的硅光芯片。阿里巴巴自研硅光芯片从2021年启动,支持DSP、LPO与TRO的800G/1.6Tbps的光模块。可以说,阿里云正从计算、网络、存储三个维度全面重构AI云基础设施。
阿里所描绘的“下一代计算机”,目前由四大组件构成:自主设计的磐久超节点服务器、负责横向扩展的高性能网络HPN 8.0、高吞吐并行文件存储 CPFS,以及支持10万卡稳定互联的灵骏集群。
下一步,则是纵向扩展网络能力。在云栖大会上,阿里云发布《UPN512 技术架构白皮书 v1.0》,与负责横向扩展的HPN网络相呼应,指向超大规模稀疏模型训练的新挑战。
稀疏模型的专家(Expert)规模正在快速膨胀。从最早的Mixtral(8个专家),到DeepSeek-V3(256 个),再到Kimi-K2(384 个),而最新的被视为阿里下一代模型架构探索之作的Qwen3-Next最为大胆,足足512个专家。
这使得基础设施必须具备更强的纵向互联能力,以满足不断扩大的 EP 并行需求。英伟达已将超节点升级至 NVL72,路线图已经规划至NVL576;华为的CM384超节点则可以塞下384颗昇腾910C。
HPN和 UPN 组成的高性能系统

UPN512-单层光互连解耦系统

目前,阿里巴巴的磐久服务器单柜最大支持2组纵向扩展,共128个GPU。它采用了无背板的正交互联,不仅降低了信号传输损耗,还可以更好地适配各种插卡。这方便了灵活配比CPU与GPU节点,精准适配不同AI任务;也能将更多国产芯片纳入到自己的算力生态来。在展厅里,阿里巴巴展示了它兼容海光K100、燧原S60等主流国产GPU以及飞腾S500c、海光C86-3G等主流国产CPU——只要它们乐意适配Alink。
阿里巴巴的UPN512对应512颗AI芯片的纵向扩展。从铜到全光互连,试图突破大规模扩展的带宽与距离的瓶颈;从高密封装式小型机到解耦盒式设备,降低部署和运维的复杂度;传输语义的升级与在网计算的引入,不仅提升了数据搬运效率,也重塑了其传输方式。阿里的UPN512正在尝试把AI超节点网络,从“传统”的“紧耦合方案”推向更为标准化、可扩展的云化架构。
数据中心的基础设施不仅限于算力、网络和存储,还包括电力与物理外壳,即所谓的PowerShell。这部分往往被忽视,却影响着AI服务商的生命周期成本。
二者生命周期存在显著差异:智算相关硬件通常为5年左右,智算的PowerShell则可达20年。这意味着后者在初始设计时就必须具备跨越至少三个硬件迭代周期的扩展能力。在云栖大会上,阿里巴巴也提出了相应的架构方案与运维体系。
阿里云将自己定位为“全栈人工智能服务商”,这是一种对既有身份的根本性重构。它的目标不仅是赢得中国市场的一席之地,更是要在一个日益平行的人工智能市场中,建立起完整、自主且具有全球竞争力的全栈技术体系。它既复制了硅谷的技术乐观主义,也严肃对待中国市场的现实约束。这让市场重燃想象。
--
参考:
阿里云《UPN512 技术架构白皮书 v1.0》发布