对话无问芯穹CEO夏立雪:算力储备的新叙事与国产芯片的“新任务”
文|晓静
编辑|萌萌
刚刚结束的WAIC2025人声鼎沸,人气最高的是具身智能展区和五花八门的应用展区。相比之下,除了华为昇腾384超节点展台外,国产算力展区的人气冷清了许多。
这种反差其实不难理解。一方面,算力虽然是AI发展的根基,但它就像舞台背后的灯光师——默默支撑着台前的精彩演出,却很难直接吸引观众的目光。另外一方面,国产芯片发展还在早期,聚光灯下的明星企业还很少。
对比之下,大洋彼岸的“超级算力”巨头英伟达一卡难求,科技巨头疯狂“囤货”。摩根士丹利预测,仅微软、亚马逊、谷歌、Meta 这四家巨头2025年将总共投入约3000亿美元用于支持生成人工智能发展。
生成式人工智能狂奔两年多,已经进入产业落地期,算力的需求也从“暴力出奇迹”的模型训练,逐渐转向零散但持续性更高的推理。
但是,由于地缘政治等复杂原因,高端芯片依然稀缺。在这种现实情况下,如何把现有算力用足、用好,成为整个AI产业最关注的话题。
“算力投入不仅要建好超大集群也要让更多小团队也能用得上、用得好,才更有利于生态繁荣。”无问芯穹联合创始人兼 CEO 夏立雪在 WAIC2025 现场对腾讯科技表示。
无问芯穹创立于 2023 年 5 月,由清华电子系主任汪玉教授发起;夏立雪任CEO,他本硕博均毕业于清华电子系,研究方向为 AI 芯片与AI算法协同优化。无问芯穹成立两年之内就已融资近 10 亿元,在已披露的股东与投资人名单中,既包括红杉中国(通过其子公司“红创科兴”入股),也出现了百度、智谱 AI 等战略或产业方的身影;此外还有启明创投、君联资本等十余家机构。
资本的关注也反映了行业的痛点——AI发展迅速,如何把贵且有限的算力用好。无问芯穹对当前算力局面的理解是:“之前的算力建设就像很多超大的发电站,但是最终,普通用户需要的是即插即用的充电插座或者电源。”
算力产业正在经历从"发电站"到"插座"的根本性变革,夏立雪认为“如何把国家级的大型算力基础设施,转化为开发者和企业随时可用的标准化服务,这是当前最核心的挑战。”
WAIC2025期间,无问芯穹也发布了"三个盒子",分别对应不同量级的算力需求,希望实现让算力像水电一样,可以随时可用。
腾讯科技也在WAIC现场,深度对话了无问芯穹CEO 夏立雪,并围绕AI算力产业的几个关键问题展开了深入讨论:
ChatGPT爆发至今,科技巨头疯狂囤积算力的故事还会继续吗?
高端芯片获取受限的现实下,中国AI产业该如何应对?
国产芯片的真实实力到底如何,能否支撑起AI产业的进一步发展?
未来算力产业的商业模式会如何演变?
从当下的发展态势看,AI产业化的能力究竟是被高估了还是低估了?
作为算力基础设施领域的深度参与者,夏立雪的观察和思考,或许能为我们理解这场正在进行的算力变局提供一些新的洞察。

以下为对话实录:
一、科技巨头“超级算力”叙事持续,但算力结构已经改变
腾讯科技:在国内一片AI应用繁荣的背后,我们也不得不面对一个事实——中美算力总量的差距,您从行业内观察,现在这个差距还有多大?
夏立雪:这两年,我们中国的算力建设已经突破了很多,在世界上也处于领先水平。
但随着需求从训练场景转向多样化的推理应用,算力结构正重塑:产业不再只依赖举国之力打造超大集群,也需要让更多小团队低门槛接入,形成繁荣生态。
正如大型发电站仍需通过每家每户的 “插座”把电送进千家万户,算力也必须从“巨型电厂”演变为“即插即用”的服务。
腾讯科技:AI应用越来越繁荣,AI推理的需求越来越高,算力的结构有哪些根本性变化吗?
夏立雪:首先整体的算力需求肯定还是需要增长的,只不过可能之前增长速度更快的“模型训练”,需要大算力集群。随着推理任务的需求逐渐开始起量,推理和训练的算力需求比,大概会从1:9,逐渐往一个更加健康的,比如说5:5这样的比例去调整。
在这个过程中,大厂有非常大的资源协调能力,会倾向于建设很大的算力集群。同时我们可以看到很多中小的创业者,需要的是一些更加具备弹性、更加灵活的算力。
现在也有非常多的AIDC计算中心,也希望能够让自己的零散算力被大家用起来,所以这个供需之间现在有一个没有打通的状态。
腾讯科技:从训练端来看,现在科技巨头爆买算力的叙事还在持续存在吗?在整个算力生态中,国外先进算力和国产卡的结构配比有可能发生转变吗?
夏立雪:这确实是整个行业资源受限的一个体现。我们的先进算力和国内算力之间也在做结构性的升级和调整。最好的国际领先算力,比如英伟达的算力,肯定还是会非常稀缺且紧俏的,因为它的一年产能就是那些。
但是我们现在也正在看到国内很多优秀的国产卡,也能够很好地完成大模型的训练任务,百亿甚至千亿级别的大规模参数模型训练也是能够完成的。
我们看到大厂确实有资源能够协调到更好的算力供给,但是一些科研机构,一些需要训练行业模型的厂商,他们已经在主动拥抱我们的国内算力资源。
下一步我们需要让原本习惯于用国外软件架构的开发者也能够非常方便,或者有主观意愿地去使用我们新的国内生态体系。
这个生态打通是非常重要的一环。我们确实也在做一些贡献,比如让不同芯片之间的交互变得更加丝滑。我们需要给国产芯片提供一个“世界语”,而且是大家都会的世界语。这样的话就能够帮助国产芯片也能被无缝地做到用户使用的迁移,让大家更好地把国产卡用起来。
二、产业新格局,国产芯片也可以“好用”
腾讯科技:不可否认的是,国产芯片性能仍与顶尖海外 GPU 有差距,企业在规划 AI 算力时应如何权衡:要不要同时部署英伟达与国产 GPU,打造混合算力体系?
夏立雪:我们希望 AI 原生的创业者和开发者,把时间花在把智能变成更好的产品与生产力,而不是被迫耗在整合底层算力、处理跨芯片兼容这类琐事上。所以无问芯穹的目标,就是把算力做成“水电”:随时开关、随取随用。开发者打开龙头,就有稳定充沛的算力涌来,无需关心它究竟来自哪块 GPU。
理想状态下,国产卡也好,英伟达卡也好,对使用者来说都只是“算力”——能否完成任务才是唯一标准。要做到这一点,我们得在两条技术线上发力。
第一,使用体验上要彻底屏蔽硬件差异。我们正在为各类芯片制定一门统一的“世界语”,把各种“方言”整合起来,让开发者无需重学指令或驱动,照旧写代码、跑模型。
第二,要把性能差距压到体感阈值以下。针对大模型推理等高频场景,为国产芯片做深度优化,让“国产软件+国产硬件”的解决方案也能与海外 GPU 正面过招。这种组合既补上了产业链的历史“欠账”,也让算力真正成为普惠、即取即用的公共资源。
腾讯科技:对于企业来说,使用算力的方式会发生一个根本性的改变吗?
夏立雪:我觉得这是整个产业在做一个很重要的使用习惯的升级。之前AI的开发者、AI的创业者,需要去算力中心以算力资源为单位来做结算。结果就是,他们还得自己去处理底层那些技术接口,整个工程特别复杂。不过这种大包大揽的整租付费模式,对供应者来说当然舒服——这相当于接了个批发的大单子。但是对于使用者,尤其是小客户或需求灵活的来说,肯定就不太友好了。
比如模速空间的 200 多家成员里,许多只有三五人的小团队,做图像生成之类的AI应用。他们不可能分出人力去自行配置算力。
新产品推广也是类似的道理。流量不会在第一天就达到顶峰,推理调用量需要逐步提升。所以算力服务必须能够根据业务的实际节奏灵活伸缩。
按 token 计费正好符合这个要求。 它不区分 GPU 的具体型号,只根据实际消耗的 token 数量来结算。这种模式就像支付水电费一样,计算直观透明,团队也更容易理解和接受。
对上游的算力供应商而言,这同样是一种良性的引导方向。 不能只盯着“批发”模式,需要转向“零售”思维。应该多考虑那些真正在写代码、开发应用的团队的需求,思考如何帮助他们更高效地利用资源、更顺畅地进行调度。只有当这些 AI 创业者能够顺畅运行,产生更多实际有效的需求,整个算力生态才能持续发展壮大,走向更健康的状态。
三、算力按“token”计费,关键是衡量算力效率
腾讯科技:说到按 token 计费,我想请教, “token” 是否真的是一种能够标准化的计费方式?很多开发者抱怨Token也是一个黑洞,尤其是使用推理模型的时候。前一段时间,红杉还抛出“按结果付费”的新模式。进入 AI 时代,算力和底层服务的定价模式会走向哪些新方向?
夏立雪:这正说明行业真的开始落地应用了——只有到了“真拿来用”的阶段,大家才会认真较真“怎么付费”。最早的算力计费,其实不能叫产品,顶多算研发时期的合作:按 GPU 时长、节点数结账,像买原材料。
后来有了按 token 计费,这是一个很大的进步,起码给开发者一个清晰、可预测的量化单位。你提到的“按效果付费”则更进一步,把风险和价值对齐,对模型使用方当然更友好。
回看互联网时代的效果广告,早期看曝光,后期还是按照点击转化来付费。AI 服务未来多半也会走这条路,只是效果指标需要时间打磨。从现阶段来看,token 能直接计算,但是效果得先把评价口径磨合好,和当年广告从 CPM(Cost Per Mille,按千次展示付费) 到 CPA(Cost Per Action,按行动付费) 演变一个逻辑。
最终大概率会形成分层:结果导向、想省心的客户愿意为“保效果”买单;技术实力强、想把 AI 深度嵌入自家产品的团队,则继续按 token 计费自己调优。两种模式不会互斥,很多时候还会混着用——比如合同里承诺结果,底层照样按 token 结算——这也挺合理。
腾讯科技:AI应用持续增长,但是推理成本依然很高。模型厂商从底层架构创新,努力提高模型效率,降低成本。从算力层和Infra层的话,怎样能够做到推理成本持续降低?
夏立雪:推理成本其实就是一笔简单账:拿一份资源,换回多少“结果”。于是就有两条可操作空间——资源怎么算,结果怎么算。账本改写得越聪明,优化空间就越大。
为什么计费口径得往更“上层”推,比如按token计算?因为只盯着算力卖,只管让芯片满功率轰鸣,每一块面积在每一秒都运转起来,至于算出来有没有用,无办法衡量;改成按 token卖,白跑的运算马上现形,如果没有为最终的token产生价值,那就是浪费。
软硬协同的精髓就是“消除无效计算”。算法层面,你把大模型当一串公式看,其中不少乘加其实对最终输出影响极小,消除掉之后并不影响结果,但是却能节省大量算力;硬件层面,同一颗卡里的不同单元常常“你干完我等半天”,像小团队磨洋工——A 算完还得等 B ,一半功夫都耗在“发呆”。
只有芯片设计师和算法工程师“坐在一起”,把任务拆到像CEO拆OKR一样精准,硬件每一平毫米、每一毫秒才不会闲着。
这就要求团队既懂硬件,又懂算法,还得会把二者拼好、监控好。得知道什么任务是不重要的,对这个任务去做合理的拆解,然后还得去让这个算法硬件执行这过程中能够去做到充分的监控配合,让他们不会中间跑着跑着出错。
难度高,但回报也大:软件砍冗余 + 硬件除空转,两头一起动,才可能把性能效率成倍提升——“十倍”这种听上去夸张的效能提升,其实就藏在这些“腾挪空间”里。
腾讯科技:这次人工智能大会期间,无问芯穹推出了三个盒子,它为什么叫盒子?是开箱即用的概念吗?
夏立雪:也有这个解读,但我们最开始想叫盒子是因为我们想说我们的它不是一个单纯的单一的软件产品,它是一个打包式的完整的产品化的服务。
现在共有大盒子、中盒子、小盒子三档,底层其实共用同一技术栈,但是各有侧重的应用场景:
大盒子:面向万卡至十万卡级超大集群,负责全国范围的资源调度,为模速空间算力生态平台等平台提供算力支撑。
中盒子:服务百卡到千卡级智算中心,尤其是国产集群,帮助提升训练效率、推理性能与商业化收益。
小盒子:部署在终端设备,提供一体化方案,解锁本地智能应用。
无论规模大小,每个盒子都把算力转化为最有价值的智能结果,让有限资源支撑 AI 的需求。
腾讯科技:所以它的计费模式未来也是按照token吗?还是说各种各样多样化?
夏立雪:我觉得应该是顺应每一个场景自己真实的需求。比如说云上,大盒子可能是按照token方式,就像水自来水龙头,按照水管的流量来计费是很合理的。
但在终端侧,模式会不同。 我们更多是将端模型、端引擎、端硬件能力与设备深度整合,提供完整的软硬一体解决方案。最终用户购买的,其实是这个设备及其内置的服务能力,这些成本通常会打包进设备的购置或使用费中。
四、“AI”短期被高估,未来仍被低估
腾讯科技:但是现状是高端的GPU受限,国产芯片生态碎片化,用异构加上标准化平台的方案,真的能缓解算力痛点?
夏立雪:国产算力确实处于发展阶段,各自有针对的场景。比如有的会针对大规模训练,仍然去锚定最高端的创新,有的针对垂类和或推理场景去做优化。在生态中,大家分散地占据一个位置。
但是国产算力芯片的生态资源确实需要被进一步整合。按照国外的算力生态来看,英伟达永远知道它的下一个芯片应该怎么做,因为在它的生态上所有的人都在用它。国外的模型也知道英伟达下一代要做什么芯片,所以它的这些模型厂也能够去享受到最先进的算力资源的供给,然后他们而且可以去提前布局。所以它的生态就能形成一个正向飞轮。
中国现在大量的模型还是在基于国外的硬件再去制造,所以中国的生态闭环还是需要上下游一起再去努力打造。
比如我们希望能从技术上实现不同芯片之间的“世界语”,但是这些芯片怎么能在国内的应用场景中用的更好?这是需要我们形成一些生态联盟来共同打造的,然后从而把这个您所说的碎片化的问题,在生态的信息和资源、人才流动的各个方面上去做到整合。
但是,我认为碎片化也有它的好处。各生态主体能在各自领域深耕专注,但同时要打通信息流通的堵点,消除生态链中的不能“闭环”阻碍。
腾讯科技:最后一个问题,您觉得现在AI产业之中,AI的能力到底是被低估了还是高估了?
夏立雪:这个问题提得很好。我认为,“短期被高估、长期被低估”,这在任何新兴产业里都很常见。
AI 也是这样:自 2012 年一直在稳步进步,Transformer 在 2017 年问世,却直到 2022年底因为ChatGPT 的爆红才真正在公众面前“出圈”。这款原本只是 OpenAI 工程师用来收集反馈的小工具,一夜之间被当成万能助手;等大家回过神来,才发现它还有不少局限,于是出现短期狂热后的失望。
我认为真正值得期待的是 AI(尤其是多智能体),未来在协作中能发挥出的潜力。智能体彼此分工、碰撞知识,能衍生出超乎想象的工作流程和创意,可能成为下一代生产力引擎。
从 AGI 的视角看,现在不过是序章。眼下这股热潮聚拢了技术、人才和资本,只要我们把这些动能沉淀到基础研究、产品打磨和生态建设上,AI 的发展就能更平稳、更持久。我既为 AI 终于成了全球焦点而兴奋,也希望这股浪潮能把技术推向真正的深水区,而不是昙花一现。