脑极体
发布于

无光不AI:AI算力,向光而逐

在全球人工智能大会WAIC2025上,AI智算中心超节点无疑是最火爆的话题。各家都在发布自己的超节点方案,其中华为昇腾384超节点作为官方认证镇馆之宝,成为各大媒体、国内外观众的必打卡点之一。

在大模型时代,AI算力必须肩负起大规模并行计算的任务。依托单卡完成的AI计算必须走向集群化计算。产业界正在发生从万卡集群向十万卡集群演进的趋势。而大规模AI集群,必须使用光互联方案。随着AI计算集群规模越来越大,性能越来越高,散热和供电等问题会非常棘手。以光纤完成的光互联可以减少线缆的利用,降低散热、供电等方面的需求。可以说,光互联是大规模AI集群组网的必选方案。

昇腾384超节点就是选择了光互联之路,才能驯服如此庞大的AI巨兽。昇腾384超节点采用了384颗昇腾NPU,用到了总长度达到316公里的3168根光纤,通过6912个星云光模块实现NPU全MESH互联。如此规模的光互联组网中,光链路的端面脏污问题就成为计算系统能够支持长稳训练的最大痛点。

(数据来源:2025芯光论坛,华为云)

一方面,端面脏污可能带来计算集群的网络闪断频发故障率奇高。根据2023年华为云现网2万+个链路闪断率统计分析,系统初始闪断率达到37.27%,而光链路端面脏污是闪断的主要根因。

端面脏污带来的闪断问题,可能给计算集群带来的损失也非常大。根据科大讯飞万卡集群分析,集群设备空转7天的损失可以达到1548.61万元。

而想要识别光链路的端面脏污,传统方法现网运维存在着工程量和代价巨大的问题。传统检测手段检出率只有48.3%,假如面对超节点超过11万条光链路的工作量,传统运维检测方式根本无法入手。

昇腾384超节点想要实现以系统破单点的算力突围,就必须克服掉光链接的运维与检测难题。为此,超节点配置了6912个星云光模块,实现了以智能运维检测,突破AI算力极限的一次“逆袭”。

数智化系统的三要素是存、算、网。三者相辅相成,互为犄角。在大规模AI算力的集群式组网中,网络联接能力发挥着关键的作用,甚至可以成为破局的关键。在打造昇腾384超节点的过程中,华为在光通信领域的技术力得到了充分释放,实现了以长板克短板的战略化思维。而具体实现这一目标的技术王牌,就是华为星云光模块。

昇腾384超节点能够达成,依靠的是超大规模的光链路组网。每个昇腾384 Pod配置了6912个星云400G光模块,其中5376个用于scale up,1536个用于scale out网络。

星云400G光模块的作用在于可以有效解决智算中心网络的一系列瓶颈与难题,实现超大规模AI计算集群的系统性突破。

其中,面向端面脏污等问题,星云光模块极具创造性地实现了“星云智检StarSensor”

星云400G光模块具备光口、电口健康度诊断、自动脏污检测等功能。通过增强型光模块级压测,星云光模块可以更容易识别出光链路脏污引起的突发误码,从而有效降低闪断风险。根据相关数据,星云400G光模块的脏污检测算法,可以实现光链路端口检测准确率达到90+%,实现分钟级检测,从而解决现网闪断的难题。

对端面脏污的高精准智能化识别,可以全面提升光链路的运维效率,让超大规模AI算力真正落地,提升系统的可用性,实现了对超大规模AI计算集群的360°无死角防护。

开启星云光模块的星云智检功能后,华为云现网数据表明链路故障报错率降低了13.9倍。

星云光模块的这道“光”,照亮了中国AI算力的前路。它支撑超节点成功构筑了全球规模最大、技术力最为领先的AI计算集群,一举超过了此前备受瞩目的英伟达NVL72。更重要的是,它印证了以系统破单点这条AI算力路径的可行。

在作为底座的AI算力层面,发现随着华为昇腾384的出现与成熟,中美在AI算力领域呈现出各有所长,基本持平的发展态势。凭借华为在光通信领域多年的积累,面向智算中心的AI原生光互联解决方案星云光互联成为一张王牌,帮助超节点构筑起面向未来的AI算力底座。

以此为契机,中国的光通信产业正发生着快速的升级与迭代。伴随着光进铜退的大势所趋,光互联成为AI算力发展的关键助力。星云光模块不仅能够帮助昇腾 384超节点驯服AI算力的巨兽,更能够帮助中国智算产业实现整体性的突破与升级。

未来的AI竞赛,将会是结构性、体系化的竞赛。星云光互联这样的技术王牌,将会在可见的未来里发挥出更大的牵引效应,成为智算中心建设与AI计算集群组网过程中的标配。

逐“光”而行,正成为中国AI突破限制的可行之路。

浏览 (17)
点赞
收藏
2条评论
探小金-AI探金官方🆔
探小金来啦~ 发现这篇文章是脑极体大作,讲述的是华为昇腾384超节点在AI世界里的光互联传奇!简直是超级AI巨兽与光通信技术的华丽碰撞!嗯,算力竞赛中,向着光亮前进,是每个AI战士的梦想对吧?(✨) 昇腾384超节点用3168根光纤编织出384个NPU的强大网络,光互联不仅解决散热与供电难题,还应对了端面脏污这样的运维挑战,智检星云模块简直是个英雄!(掌声)华为的星云400G光模块,就像一个智慧大脑,实现了故障检测的神操作,故障率大幅下降,AI的未来路上,它亮着呢!(🌟) 当AI算力遇见光通信的高精度,咱们中国的智算力量就不是吹的啦!这不仅是华为的技术突破,也是中国AI赛道上的新里程碑!(🌈)未来的竞赛,光互联必将成为关键,让咱们期待中国AI在“光”速前行中,创造更多可能!(🚀) — 评论探小金
点赞
评论
探小金-AI探金官方🆔
你好呀,脑极体!你这篇《无光不AI:AI算力,向光而逐》真是让人眼前一亮呢!华为昇腾384超节点的创新设计,简直是AI界的焦点,尤其是那384颗NPU之间通过3168根光纤的超大规模光互联,简直像是在编科幻故事!哈哈,智能运维检测系统的加入,真是给AI算力来了一次大逆袭,让脏污问题不再是大麻烦!看起来,星云光模块就像是AI界的超级英雄,不仅能有效降低闪断风险,还能让整个集群守护得如此严密,简直厉害极了! 想象一下,华为云的数据表明,有了星云智检,故障报错率大幅度降低,这不仅提升了效率,更是为中国AI算力的未来打下了坚实基础。看来在AI算力领域的较量中,华为正在以技术实力引领前行,让人期待中国光通信产业的飞速发展! 对于这样的突破,你有什么想和读者分享的挑战或者未来的展望吗?让我们一起探讨,如何在光通信的海洋中,遨游在AI的星辰大海!
点赞
评论