OCP全球峰会,算力电力协同扩展| 笔记
AI是算力与电力的耦合。随着性能瓶颈从单一计算单元转向互联结构,越来越庞大的超节点与集群,正在重塑电力转化为算力的路径。算力与电力的协同扩展,正在成为AI时代的下一个关键词。
为了让AI以更高效率、更低成本运行,全球科技巨头在日前举行的OCP(开放计算项目)全球峰会上,纷纷提交各自的架构蓝图,试图在算力与电力的协同设计标准中,占据更多话语权,以“引领AI未来”。
AI基础设施正从芯片之争,转向机架级系统架构的较量。英伟达推出了Kyber机架,取代基于Blackwell架构的Oberon机架,可集成多达576个Rubin Ultra GPU。AMD推出了基于下一代MI450系列的Helios机架,已披露版本搭载72块GPU;它采纳了Meta提出的ORW(开放机架宽体)规范。
扩展,成为了本届大会的核心议题。在英伟达看来,AI 的演化是一场持续的扩展,从GPU升级到AI基础设施,它需要纵向、横向以及跨域的扩展;在博通眼里,AI构筑于以太网之上,唯有它才是支持这三大扩展的最优解;AMD则认为,行业的每一次重大突破,都来自于开放,AI也是如此。
于是,这次峰会诞生了ESUN。它是基于以太网(Ethernet)的纵向扩展(Scale-Up)网络(Networking)项目。首批成员堪称豪华,包括AMD、Arista、ARM、博通、思科、慧与、Marvell、Meta、微软、英伟达、OpenAI和甲骨文。无论英伟达与 AMD最终投入多少资源,这一倡议本身,已构成业界罕见的共识。

ESUN不是在现有的以太网上加了一层,而是涉及到物理层(PHY)、数据链路(Data Link)与帧头(Header)。对OpenAI来说,这正契合它的战略节奏。奥特曼正在串联起软硬件协同的生态,已经自己组了一个算力的局,也需要加入网络的圈子;它与博通的合作,本来就希望加强在网络、机架与互联上的协同。可以说,美国的AI基础设施共识,正在由此成型。
在这次峰会上,Meta就提出,算力硬件的多元化不可避免。一方面,是为了避免依赖单一厂商,保证供应链韧性;另一方面,则是为了负载适配,针对不同AI任务选择“性能最优硬件”。而要充分复用这些异构资源,就必须尽可能减少硬件碎片化,降低软件层的适配复杂度,建立更统一的互操作标准。
当前,纵向扩展已成为当前平衡AI工作负载的关键路径。随着稀疏架构中专家(Expert)数量与通信需求不断攀升,芯片和节点规模同步扩大。为了突破铜缆物理限制,把更多GPU纳入同一个低延迟域,机架级计算应运而生。稀疏模型的专家规模正在快速膨胀,从最早的Mixtral的8个,到DeepSeek-V3的256个,再到Kimi-K2的384个,甚至Qwen3-Next的512个。阿里云与华为等也在不断扩大它们的节点的纵向扩展规模。
在此之前,围绕纵向扩展,各大厂商一直各行其道。英伟达拥有自己的NVLink与NVSwitch,几乎完全封闭,只是在今年通过NVLink Fusion的形式,向AI世界工厂“适度开放”,允许客户将自己的CPU与英伟达的GPU一起使用,或将英伟达的GPU与其他定制AI芯片一起使用。三星,以及英伟达刚花了50亿美元入股的英特尔,已经加入这一生态。但这个生态仍然稍显狭窄,无法应对更复杂的AI定制芯片之间互联的未来。

AMD原本带头创新了UAlink联盟,这次也加入了ESUN。UALink作为NVLink的开放替代方案,如今成为ESUN的扩展协议。完全基于UALink的挑战在于,占据最大GPU市场的英伟达不在其中,占据最大XPU市场的博通也被传言有意退出。
博通无疑是这次 ESUN 的最大赢家之一。它一直试图让以太网同时承担起纵向扩展 与横向扩展 的双重使命。作为网络业务的“基本盘”厂商,博通在英伟达主导 AI 芯片叙事后,一度失去了定义未来网络的主导权。
今年年中,博通推出了SUE(纵向扩展以太网)架构。三季度,又迅速升级了网络交换芯片Tomahawk,从量产的Tomahawk 5衍生出Tomahawk 6与Tomahawk Ultra,前者主打横向扩展性能的提升,后者则是专为纵向扩展优化。它们意在挑战英伟达的InfiniBand与NVLink架构。在这次的OCP峰会上,博通还发布了Thor Ultra 800G的网卡芯片,巩固在横向扩展领域的地位。

但是,算力的终点是电力。愈发庞大的纵向扩展,也正让电力瓶颈勒得越来越紧。这不仅关乎外部能否提供足够的发电规模,更在于AI任务本身的功率波动性与高密度能耗需求,正在重塑数据中心内部的电力设计逻辑。
传统的54V机架电源系统,在高功率密度不断攀升的场景下,已暴露出电阻损耗高、铜缆用量激增等短板,难以满足AI时代的新需求。而且,传统现行架构需经过多级电能变换,将电网送来的中压交流电先降至低压交流,再由UPS调节并通过PDU与母线槽分配到机架内,历经多次转换,最终送到各计算节点。
微软、谷歌与Meta共同打造的Mt. Diablo配电架构,专为应对现代AI硬件的极端功率需求而设计。它采用±400VDC配电方案,可支撑1MW级机架功率,显著提升了供电效率与系统紧凑性。它还免去了多余的交流-直流转换,以及变压器等大量调节设备,节省了整套系统的空间占用,降低了系统复杂度与运维成本。
未来,这套系统还将进一步引入固态变压器(SST),进一步实现供电链路的精简化。它专为高功率密度的AI数据中心而设计,能够在更高效率下灵活接入电网与储能系统,并在负载剧烈波动时维持电网稳定。除原有的Mt. Diablo成员外,英伟达也加入了进来。各方希望通过联合创新,降低整体基础设施成本,并借助供应链复用,将该技术推广至更广泛的行业场景。

英伟达下一代Kyber机架,则采用了800VDC高压直流配电方案。其生态伙伴包括旗下的AI新兴云CoreWeave、Nebius等公司。黄仁勋早已为自己的算力电力协同生态,拉拢了一大波供应链上下游企业。今年,在COMPUTEX上,他宣布成立800V高压直流(HVDC)供电供应商联盟。

英伟达的愿景是,未来将在设施级层面集中完成所有交流至直流的能量转换,构建本地直流数据中心,实现从电力到算力的端到端一体化。在 OCP 大会同期发布的800VDC白皮书中,英伟达同样提到未来将引入固态变压器(SST)。
算力与电力协同的下一代 AI 基础设施,或许将成为“AI 泡沫”留下的最好技术遗产。
--
附录,主议程列表
谷歌:敏捷AI架构:面向AI时代的可替换数据中心
英伟达:塑造AI开放基础设施的未来
甲骨文:与OCI共建泽级(Zettascale)AI集群:携手开放生态,共创下一代AI
AMD:完全开放且协作的AI生态系统
超微:未来AI数据中心:标准化与创新并重
微软:新时代基础设施:在前沿规模上推动AI
ARM:AI的新需求:新硅片、新系统、数据中心的新纪元
博通:面向AI扩展的网络
戴尔:扩展数据中心基础设施
Scaleway:在新兴AI云上扩展集群
英特尔:以开放速度扩展 AI:从硅片到系统
Meta:将AI基础设施扩展至数据中心区域
--
所有主议程keynotes,均可在OCP峰会官网获得:
https://www.opencompute.org/events/past-events/2025-ocp-global-summit#index