挡不住TPU,黄仁勋200亿美元买断前核心团队
去年初,Groq初露峥嵘,同时挑战英伟达和谷歌。今年底,谷歌TPU重写AI叙事,黄仁勋的回应是,把研发了第一代TPU的Groq团队收编回家。
这是一场典型的人才收购。英伟达向Groq支付200亿美元,获得其推理技术非排他性许可。Groq创始人兼CEO乔纳森·罗斯(Jonathan Ross)、总裁Sunny Madra及多名核心工程师加入英伟达;被掏空的Groq公司及其云业务继续运营。
市场对这次收购的解读并不一致。一说是防御性收购。Cerebras产品营销总监James Wang就持这一观点,认为Groq的微架构不是魔法,它只不过押注了SRAM(静态随机存取存储器),英伟达是为了避免未来损失2000亿美元。
一说是技术与战略的扩张。LPU能在推理时代提供低延迟的差异化服务,正如它在数年前收购的Mellanox,如今已经成为贡献约200亿美元年收入的网络业务。
还有一说则是讨好监管。白宫AI主管大卫·萨克斯(David Sacks)的好友查马斯(Chamath Palihapitiya),以及小特朗普(Donald Trump Jr.)都是Groq的投资人。
但是无论如何,能给英伟达带来些许麻烦的潜在挑战者,这下又少了一家。今年下半年,Meta收购了Rivos;英特尔也曾一度竞购,而后又转向了SambaNova。此外,Marvell收购了Celestial AI。剩下Cerebras,仍计划尽快上市。行业正在加速整合,意味着这不仅仅“防御性”的,而是整个算力生态都在系统性扩张和重构。
TPU改变了AI竞争,正在从模型转向基础设施,也坏了英伟达的好事。而这次英伟达收购的Groq核心团队的底子,恰恰又是在谷歌TPU时期打下的,带着几分宿命感。Jonathan Ross曾设计并实现了第一代TPU芯片的核心元素。他从谷歌离职时,带走了当时10人TPU核心团队中的7人。他们为Groq打造了LPU(语言处理单元),号称对自然语言处理的速度是英伟达GPU的10倍,能耗也会更低。
LPU的魔法正是SRAM。这使得LPU无需像使用高带宽存储器(HBM)的GPU那样,频繁地从内存中加载数据,也不需要依赖高速数据传输。LPU只进行推理计算,需要的数据量远小于模型训练,从外部内存读取的数据更少,消耗的电量也低于GPU。它还实现了多个TSP的无缝连接,避免了GPU集群中的瓶颈问题,显著地提高了可扩展性。
Groq露峥嵘,可能同时挑战英伟达和谷歌 | 笔记
(2024/02/21) 完整阅读 >
正因如此,这是对英伟达AI工厂的增强,是一种主动的体系化的扩张。黄仁勋在一封内部信中写道,Groq对英伟达的技术许可,将扩展英伟达的服务能力,为客户在更广泛的AI推理任务中优化实时工作负载。
推理对应广泛而多元的场景,也就面临不同的工作负载需求。在智能体场景中,低延迟和一致的性能,比峰值吞吐量更重要。短期内,在这些应用场景中,能够带来差异化体验的LPU,也将比传统的GPU产生更高的token价值。
这是token的“多巴胺经济学”。几个月前,Jonathan Ross曾拿消费品行业的利润率做类比称,决定利润率的核心变量是什么成分作用于人体的速度,“每100毫秒的加速,带来约8%的转化率提升”。
更长期地看,英伟达也很可能将技术内化,创造新的市场。英伟达早就不是一家单纯的GPU厂商,它出售软件、网络,甚至将手伸向了机架与电源。AI工厂是一个系统级的解决方案,能扩展推理场景,提升服务价值,降低推理成本、延迟的产品,都将成为黄仁勋下一个并购目标。TPU就是依靠更低的总拥有成本,逐步冲击着英伟达的市场地位。
尽管黄仁勋一直在财报电话会议上声称ASIC不是威胁,但当市场相信谷歌TPU开始改写AI叙事的时候,他毫不犹豫地出手了。今年以来,英伟达已经将钱砸向了网络技术企业Enfabrica、芯片设计软件企业新思科技(Synopsys)以及通信技术企业诺基亚等。

AI正在进入推理时代,创造了内存超级周期的繁荣。市场一直都推测,很快,英伟达会收购一家内存相关技术企业。在某种意义上,收购Groq,也算是符合这一预期。
如果HBM代表着“更大的带宽”,那么通过SRAM层面的创新,实现“更近的距离”,也是业界正在尝试的一条路径。有HBM之父之誉的金正浩教授,今年公开至2038年的HBM路线图,就提到在不久后的HBM5阶段,嵌入SRAM缓存将成为标准。英伟达不会错过验证这个判断的机会。
这些趋势推动2026年进入“内存超级周期”
(2025/10/27) 完整阅读 >
当然,另一方面,它也是防御性的。HBM越来越昂贵,在整套AI算力硬件中的占比越来越高,逐渐侵蚀了英伟达的利润率。英伟达因此推出了Rubin CPX,证明并非所有阶段都必须超高的内存带宽。Jonathan Ross就称,相比英伟达,自己的优势在于不需要HBM。它至少是一种结构性的对冲。对内存厂商而言,HBM的扩产是一次重资产的冒险,但供给增加又将拖累利润率。相比之下,SRAM在代工与封装上则相对容易。
更大的冲击在于,英伟达的供应链上下游,每个环节都在试图摆脱英伟达的统治力。谷歌自研TPU已经冲击了英伟达的AI叙事。三星近年来也在强化系统设计能力,一方面酝酿自研GPU,另一方面加码ASIC代工,并从端侧 AI芯片切入。
在这次收购之前,曾任Groq首席架构师的Dennis Abts已经提前投奔英伟达。Groq前战略总监Thomas Sohmers则在离开后创办了另一家试图挑战英伟达的AI芯片公司 Positron,押注低延迟、低功耗的规模化推理需求,兼顾ASIC与FPGA路线。还有不少Groq工程师流向了同样侧重SRAM架构的d-Matrix。
账上躺着数百亿美元的现金的英伟达,明年,会继续收购、继续吸纳、继续把挑战者变成“队友”吗?而在大洋的另一侧,仍处在碎片化竞争格局中的中国 AI 芯片企业,又该如何应对越滚越大的英伟达?