当英伟达收购Groq引发行业震动,中国存算一体赛道正在发生什么?

高性价比和强生态兼容成为产业真需求。
作者|云凡
2025年底,全球半导体行业被一则消息引爆:芯片巨头英伟达宣布以200亿美元天价收购存算一体领域的代表性企业Groq。
在硅谷的投资者和技术极客眼中,这不仅仅是一次商业版图的扩张,更是一个明确的信号——即便是统治着全球90%以上AI算力市场的霸主,也已清晰地触摸到了传统GPGPU架构的天花板。
英伟达的这步棋,让存算一体从 “前沿探索” 变为 “产业刚需”。
然而,这桩天价并购案背后,折射的并非简单的技术迭代,而是一场关于算力成本、效率与生态的深刻博弈。
当行业还在为Groq的惊人速度欢呼时,理性的产业观察者已经开始反思:如果不解决成本与通用性难题,存算一体是否只能是少数巨头的“奢侈品”?
在国内,以亿铸科技为代表的存算一体AI大算力芯片头部企业,正在给出另一份答卷:用“消费级显卡的价格”提供“H系列专业卡的性能”。
这是一场回归商业本质的突围。

要理解这场收购案为何能引发如此剧烈的行业震荡,首先必须厘清AI大算力芯片当前面临的终极困境——存储墙。
这是一个源于冯·诺依曼经典计算架构的先天缺陷,计算单元与存储单元在物理上分离。数据必须在处理器、内存和外部显存间频繁搬运。随着AI模型参数规模跃升至千亿、万亿级别,数据搬运所消耗的能耗与时间,已远超计算本身。
图灵奖得主约翰·轩尼诗曾多次公开指出:在先进制程的AI芯片中,数据搬运的能耗比一次浮点运算高出100倍以上。这成为算力提升的核心阻碍。
中国科学院计算技术研究所杰出研究员谭光明博士同样表示,英伟达的传统GPU架构,因为存储墙的问题已经导致GPU触及了性能的天花板。
在他看来,英伟达引入Groq的存算一体技术,将有助于局部优化其下一代芯片的性能,比如利用存算一体技术优化KV Cache部分的设计,显著提升整体性能。从这次收购看,存算一体技术大规模应用于AI芯片只是时间问题。
更残酷的现实是“算力空转”:传统GPU不仅能耗惊人,算力有效利用率还低得惊人。
以英伟达主流H系列显卡为例,其硬件峰值算力看似强悍(H100峰值达1979FLOPS),但受限于显存带宽和芯片内部数据搬运带宽瓶颈,在某些极端的千亿参数大模型推理任务中,实际能发挥的算力甚至不到10%,大量硬件性能被浪费在数据等待中。

Groq作为存算一体的代表,确实证明了该架构在有效性能上的惊人潜力,但它同时也暴露了早期技术路线的致命商业短板——极高的拥有成本。
Groq采用的是SRAM(静态随机存储器)作为存储介质。SRAM速度极快,但有两个硬伤:密度低、成本高。
首先是容量焦虑。
单颗Groq芯片的SRAM容量仅约230MB。而如今云端大模型动辄数百亿甚至千亿级参数,如此有限的存储容量根本无法独立支撑运算。
以被收购前的Groq为例,如果要运行大模型,必须将576个芯片拼接成集群,这不仅导致设备占地面积大幅增加,更让初期投资成本飙升——集群化部署所需的芯片采购、机房配套等费用,动辄需要耗费客户几千万美金的初期投入,足以让中小型企业望而却步。
更关键的是,一款真正符合产业需求的存算一体产品,绝不能只停留在架构创新或容量提升,还必须攻克三大核心关隘:坚守存算一体架构本质、具备GPU级通用性、兼容英伟达CUDA生态——三者缺一不可。
因此,虽然英伟达收购Groq是为了获取技术专利以优化局部性能,但对于绝大多数追求性价比的行业客户来说,SRAM路线的存算一体注定是“富人的玩具”,无法支撑起千行百业的AI普惠需求。
产业真正需要的,是基于大容量存储介质(如DRAM)的存算一体芯片。它既要像DRAM一样便宜、大容量,又要像SRAM一样高效。

对于创新架构芯片来说,商业化最大的拦路虎,是生态墙(CUDA)。如果存算一体芯片无法兼容这一生态,开发者迁移成本将高得让人望而却步。
据「甲子苏州」了解,亿铸科技经过多年的开发和积累,通过兼容CUDA虚拟指令集(PTX),再搭配“一键生成”和“一键迁移”工具,让现有AI应用无需大规模人工硬件适配和算子优化即可顺畅运行,将模型移植时间从数月缩短到了数日。
或许,也只有这样,才能真正打破生态壁垒,加速技术落地。
当前,AI大模型正从云端向边缘侧、企业侧加速渗透。客户的核心诉求非常直接:既要高性能,又要买得起,还要好在现有系统上用起来。
对此,亿铸科技提出新一代基于大容量介质的存算一体AI大算力芯片提出了一个极具杀伤力的商业目标:以消费级显卡的价格,提供英伟达H系列专业卡的性能,且融于现有主流软件生态。
这并非天方夜谭,而是公司最新开发的存算一体架构红利带来的必然结果。
高性价比:由于存算一体消除了大量不必要的数据搬运电路和复杂的缓存层级,芯片面积利用率、能效和有效算力大幅提升。亿铸科技利用成熟工艺也许能够实现超越先进制程GPU的性能,从而大幅降低了制造难度和成本。
生态兼容:这是存算一体跨越鸿沟的关键。英伟达构筑的CUDA生态壁垒似乎坚不可摧,任何试图另起炉灶的硬件都将面临开发者的抵触。 对此,亿铸科技明确了“兼容CUDA”的战略。大大减轻软件生态重建的巨大负担,使得现有的AI应用无需大规模重写代码,即可在存算一体芯片上流畅运行。
试想一下,如果一家中型企业搭建智算中心,原本需要采购昂贵的H100集群,现在只需花费几分之一的成本,购买基于存算一体架构的通用GPU,就能获得同等甚至更高的实测算力,且能无缝继承原有的软件生态。
这种“低门槛、高性价比、强兼容”的组合,或许才是产业界苦苦等待的“真需求”。

英伟达收购Groq,或许是存算一体技术进入大众视野的导火索,但绝不是终局。
全球算力产业正在经历一场从“盲目堆料”到“架构革命”的价值回归。
不管是数据中心对数百万电费的敏感,还是企业对财报折旧压力的考量,都在呼唤一种更高效、更经济的计算范式。
当“显卡价格、H卡性能”的好用产品真正落地之时,或许才是存储墙真正倒塌、AI普惠时代真正到来的时刻。