寒武纪为市场提供了情绪价值
美国英伟达与中国寒武纪,或将在同一天发布最新财报。
今年以来,英伟达股价涨了30%,达到4.38万亿美元,全球第一,断档领先;寒武纪股价涨超105%,达到了770亿美元,越来越接近老牌巨头英特尔。高盛最近将寒武纪目标价上调50%至1835元,又预计英伟达“年底前难以跑赢大盘”。
寒武纪的暴涨,与中国上市AI芯片标的稀缺有关,也与中国与美国的AI算力竞争有关。美国掀起的“芯片战”加速了中国AI芯片的国产替代,而且,越打压、越进步,整个生态都开始协同起来,绕开或突破现有壁垒。压抑许久的市场情绪突然爆发了。
英伟达在中国的订单又丢了,市场将属于中国芯片。机构Jefferey的调查发现,中国台湾的供应链企业,已经暂停所有与H20相关的工作;B30还要再等特朗普点头,但美国国会最近又在捣腾新的出口管制法案(编号H.R. 5022,草案阶段),希望让立法部门也掺上一脚。今年7月,机构Bernstein曾预计,H20被禁将导致183亿美元市场空白,尽管国产芯片无法全部替代,但对于中国企业而言将仍然是非常庞大的数字。
整个国产AI算力生态,都在为吃下这百亿美元市场创新。近期,从V3到V3.1,DeepSeek又开始探索出了一条“算力自由”之路,UE8M0加上超低精度的冲击,最多可以减少 75%的内存使用,加快了以国产芯片解决中国大规模训练和推理的需求。华为刚推出UCM(统一计算内存),根据记忆热度,在HBM、DRAM、SSD等存储介质中分级缓存数据,释放KV Cache的压力。明天,华为还将为此发布新款AI SSD,以系统补单点,进一步降低对高性能HBM的依赖。
在内外局势的变化中,寒武纪是最能给市场提供情绪价值的标的之一。它自己足够争气,又是上市公司稀缺标的。在Bernstein的报告中,寒武纪是第一梯队的,在国内厂商中市场占比第二。其他AI芯片公司,摩尔线程、沐曦、燧原、壁仞以及天数智芯,都还在上市途中。
寒武纪的市值,仍然与英伟达存在2个数量级的差距。它们的营收规模差距更大,差不多3个数量级。最近一个完整的财年,英伟达营收达到了1305亿美元,而寒武纪营收约为1.65亿美元。不过,在2017年,寒武纪成立与英伟达的营收差距,达到了4个数量级。
为了追回这1个数量级的落后距离,寒武纪连续8年采取了异常激进的研发战略。尽管两家公司研发投入的绝对规模,仍然相差2个数量级,去年英伟达约为129亿美元,寒武纪约为1.71亿美元。但自有公开数据以来,寒武纪的研发强度从来没有低于过100%,即赚来的钱全部投入研发还不够,还要融资倒贴去搞研发;同期,英伟达的研发强度基本维持在20%左右,这也是美国领先半导体企业普遍的水平。

寒武纪仍处于资本市场输血的状态,仅今年一季度首次季度盈利,但累计亏损额仍然无比庞大。据招股书,上市前,寒武纪共经历6轮增资,涉及近30家不同机构,累计约46.5亿元人民币。2020年7月,寒武纪科创板上市,募资约25.8亿元。2022年6月抛出定增计划,最终募资16.7亿元;今年6月,寒武纪再次计划定增,拟募集资金不超过49.8亿元,已获监管批准。据此,成立8年,寒武纪累计从社会募集将近140亿元人民币,约合20亿美元;这点钱,还不够支撑英伟达研发团队2个月。
今年5月,在第一届光电融合大会上,中科院计算所处理器芯片全国重点实验室主任陈云霁(也是寒武纪联合创始人,是公司董事长陈天石的哥哥)在一场主题演讲中表示,与英伟达相比,中国AI芯片需要突破先进制程的“工艺壁垒”、人才与资金“资源壁垒”以及软件与应用的“生态壁垒”。研发同样水平的芯片,英伟达的人才与资金是寒武纪的10倍。
陈云霁称,寒武纪自研了指令集与芯片架构,以及专门的计算电路与访存电路,并采用了国产的7nm制程工艺。“0美国成分”,保障了中国智能产业能够“保底运行”,目前每日支撑了1.1亿次国产大模型服务,包括字节跳动的推理。
“保底运行”,意味着至少在算力水平上,终于追平了五年前的A100。寒武纪的思远(MLU)系列,相比英伟达的GPU,更接近谷歌的TPU。谷歌首代TPU于2016年发布,同年寒武纪成立,只不过,当时寒武纪主要收入来自终端处理器IP授权,但在最大客户转向自研后,寒武纪也逐步转向云端AI芯片。
在上市前,寒武纪最先进的云端AI芯片为16nm制程的MLU-270,发布于2019年,在算力层面处于英伟达前一年的推理“性价比之王”的Tesla T4水平,显著低于首款广泛用于训练Transformer大模型的AI芯片V100。英特尔目前主推的训练芯片Gaudi系列,那一年才刚从Habana Labs手里收购来。
目前,寒武纪官网披露的“最先进”的是7nm制程的MLU-370,发布于2021年。这应该也是寒武纪在进入“实体清单”前,最后一款由台积电代工的AI服务器芯片。其中,MLU370-X8在FP16精度下的峰值算力为96 TFLOPS,仍然显著低于英伟达的A100。后者在Tensor Core模式下稠密计算的峰值算力为312 TFLOPS。
寒武纪已于去年量产MLU-590。据陈云霁在主题演讲上透露的数据,MLU-590在FP16精度下的峰值算力,达到了345 TFLOPS,已经超过了A100。不过,他没有对比在实际训练或推理场景中的性能;这取决于内存、带宽等等诸多因素。台湾有半导体科技媒体报道称,中芯国际7nm产能也已经较去年大幅增长,并将在明年追平台积电,为国产AI芯片大幅扩产创造了条件。
市场传言寒武纪最新的MLU-690,已经可以和H100扳手腕。但这缺乏更确凿的公开信息。分析机构Futurum集团半导体及供应链研究总监Ray Wang声称,尽管数量仍然较少,但是这款产品已经开始销售。不过,寒武纪在最近股价连续三个交易日大涨后,按监管规定提示投资者,近期网上传播的“收入预测”与“新产品情况”等为误导市场的不实信息。
股民正在为寒武纪提供的情绪价值买单,推动市值暴涨。如果要为已经火热的情绪,继续添上一把火,除了中国与美国算力竞争如此宏大的叙事外,其实远期还有一个同样宏大的叙事:用AI设计芯片。
在5月那场演讲中,陈云霁介绍,2021年全自动设计的CPU“启蒙1号”,达到了40年前的英特尔486的水平;两年后,“启蒙2号”性能达到了10多年前的ARM Cortex A53水平。相当于,AI将人类20多年的努力,加速到了2年。目前,计算所正在尝试AI自动生成芯片生态所需的高性能库。AI会进一步拉近中国与美国代差吗?
寒武纪的定增已经箭在弦上。如果戏称中国军工是烟民推动的,也许,中国的AI将是股民推动的。