专访纳德拉:穿越AI狂欢,微软如何押注下一个时代
萨提亚·纳德拉丨对话Dwarkesh Patel:谈模型商品化、基础设施建设和与OpenAI合作划重点
单个Fairwater数据中心的算力已超越全球任何现有AI数据中心。微软正以“基建狂魔”的工业规模,为AGI时代铺设绝对领先的算力基础。
微软不自研所有模型,而是让所有模型都运行在Azure上。其战略是做AI生态的底座,成为像水电一样不可或缺的基础平台。
纳德拉确认,微软拥有OpenAI全部芯片和系统设计的知识产权。这为微软自研芯片提供了超高起点,形成了“开放合作”与“自主可控”的双重保障。
面对资本支出飙升,微软的核心优势是用软件优化效率。其通过系统调度和优化,能将芯片的“每美元每瓦特效能”提升数倍甚至数十倍。
当竞争对手疯狂圈地时,微软却主动暂停了部分数据中心建设,以避免被单一技术路线“锁死”,为未来更先进的芯片架构保留灵活性和资金。
当全球科技界沉浸于AI模型的激烈竞赛时,微软首席执行官萨提亚·纳德拉却以惊人的冷静姿态,带领我们首次探访了被称为"绝密基地"的Fairwater 2数据中心。
这次探访揭示了一个重大战略:微软正在以前所未有的基础设施投入,为迎接通用人工智能(AGI)时代进行一场豪赌。
纳德拉直言不讳地表示:"这可能是工业革命以来最具颠覆性的技术革命!"
在这场独家专访中,纳德拉向我们展示了微软“壕无人性”的算力储备:每个Fairwater数据中心都配备数十万颗GB200和GB300芯片,总容量超过2吉瓦,单个数据中心的算力就已超越目前全球任何AI数据中心。
图:微软CEO纳德拉视察Fairwater数据中心
同时,纳德拉也深入阐释了微软如何在技术栈的各个层面为AGI时代进行全方位布局,并探讨了AGI的商业模式、与模型公司的竞合关系以及自研芯片的战略考量。
以下为纳德拉最新访谈精华版:
01 Fairwater 2与算力霸权,为AGI准备基础设施
问:微软正在建设的Fairwater数据中心展现出惊人的算力与网络带宽,这种规模的投资是否预示着未来需要跨区域训练"巨型模型"?
萨提亚·纳德拉:确实如此。我们的目标是能够聚合这些计算资源来处理超大规模训练任务,并实现跨站点协同。但实际应用中,这些资源不会仅限于单一工作负载。它们将同时用于训练、数据生成和推理等多种场景。我们的设计理念就是要确保足够的灵活性。
微软云与AI业务执行副总裁斯科特·格思里补充道:Fairwater 4将接入1 petabits的超高速网络,实现与现有数据中心的极速互联。通过AI广域网,我们还能连接至密尔沃基等其他在建的Fairwater数据中心。我们的目标是每18到24个月将训练容量提升10倍。以网络设备为例,这栋建筑内部署的光网络设备总量,就已接近两年半前整个Azure全球数据中心的规模。
问:在芯片选择和架构设计方面,你们有多大决策空间?是否担心会被特定技术路线"绑定"?
萨提亚·纳德拉:模型架构与物理基础设施之间确实存在紧密耦合关系。这也是令人警惕的一点,毕竟新技术层出不穷。以即将到来的Vera Rubin超级芯片为例,其功率密度和冷却要求都将截然不同。因此,我们绝不能局限于单一技术规格。我们追求的是随时间演进的能力,而非一次性投入后就被特定方案束缚。
02 AI应该成为人类的守护天使或认知放大器
问:你如何看待AGI时代的商业模式?当前业界对AI泡沫和高昂成本的担忧与微软过去的SaaS模式有何不同?
萨提亚·纳德拉:我相信,这可能是工业革命后最重要的技术变革,但同时我们也清醒地认识到其仍处于早期阶段。我们已经开发出具有实用价值的产品,观察到良好的技术特性,扩展定律仍在持续生效。我对其未来发展持乐观态度。
我特别欣赏图灵奖得主拉吉·雷迪的比喻:AI应该成为人类的"守护天使"或"认知放大器"。这个比喻简洁地阐明了AI对人类的价值。从这个角度看,我将其视为一种工具。当然,它能够完成许多过去只有人类能胜任的工作,但历史上其他技术也经历过类似的过程。
在商业模式层面,我认为核心要素将保持稳定:广告、交易、设备毛利、订阅制和按量计费。这些都是经过验证的商业模式。订阅制之所以受欢迎,是因为便于预算管理,本质上是对特定使用权益的打包授权。因此,关键在于如何制定定价策略,确定用户可获得的使用额度。我相信这将形成分层化的定价和利润结构。
对微软而言,优势在于我们已经在所有这些计费模式上建立了业务布局。更重要的是,AI将像云计算一样,极大拓展市场空间。以编程领域为例,我们通过GitHub和VS Code耕耘数十年建立的生态,现在通过编程助手在一年内就实现了爆发式增长。这预示着市场将迎来大规模扩张!
03. 应用层攻防:Copilot与“脚手架”的价值保卫战
问:Copilot作为微软AI战略的排头兵,市场表现亮眼。但面临日益激烈的竞争,微软如何保持优势?

图:编程智能体ARR对比,微软保持领先
萨提亚·纳德拉:我欣赏这张图表有几个原因:首先,我们仍保持领先地位;其次,榜单上的公司都是近四五年新成立的。这恰恰是最积极的信号,新的竞争者意味着新的发展机遇。现在与我们竞逐的是Claude、Cursor这些新兴力量,而不是过去的Borland。这证明我们正走在正确的道路上。
从零起步达到当前规模,本身就是市场扩张的最佳证明。编程与AI这个领域很可能成长为最大的技术类别之一,甚至可能超越知识工作本身。我们将直面竞争,但我们已经将现有资源投入这个领域,并且必须保持竞争力。值得高兴的是,我们刚过去的季度交出了不错的成绩单,订阅用户数从2000万增长到2600万。我对我们的用户增长和未来方向充满信心。
更值得关注的是,所有这些新兴代码公司的代码库托管在哪里?都在GitHub!GitHub在代码库创建、拉取请求等各项指标上都创下历史新高。据统计,每秒就有一位新开发者加入GitHub,其中80%会自然而然地进入GitHub Copilot的工作流程。
我们在最近的GitHub Universe大会上推出了Agent HQ概念产品,目标是打造"AI智能体的有线电视平台",整合Codex、Claude、Cognition、Grok等各类智能体。用户可以发布任务,协调不同智能体协作,并实时监控进展。这将是未来最重要的创新领域之一,因为开发者需要同时运用多个智能体,需要整合它们的输出,更需要始终掌握代码库的主动权。
04. 模型战略:与OpenAI共舞,MAI自研之路
问:随着AI能力快速提升,未来模型或许能自主完成长达数天的工作,甚至像人类同事一样交流。这种情况下,模型公司是否会垄断大部分价值?像Office这样的应用平台重要性是否会降低?
萨提亚·纳德拉:价值会完全流向模型层面,还是在模型与应用平台之间分配?这需要时间验证。
但我坚信,即使模型能力持续进步,工具和应用平台仍然至关重要。以Excel智能体为例,它不仅是简单的UI封装,而是位于应用中间层的模型。我们运用GPT系列的IP,将其深度集成到Office系统的核心层,使其能够原生理解Excel的所有组件和操作逻辑。这不仅是像素级的识别,而是完整的语义理解,甚至能够纠正推理错误。这就像赋予它一套token语言,教会它成为资深Excel用户所需的所有技能。未来的Excel将内置智能分析师功能。
即使是模型公司,也面临激烈竞争。如果定价过高,我们这些应用开发者就会寻求替代方案。只要存在充分竞争、多元化的模型选择和开源选择,在模型之上构建价值就有充足空间。微软将在超大规模计算、OpenAI合作、自研模型(MAI)和应用平台各个层面参与竞争。这不是简单的模型封装,而是将模型深度融入应用程序的每个环节。
问:微软最新发布的AI模型在行业基准测试中排名第36位,表现未达市场预期。考虑到微软与OpenAI的深度合作及IP授权优势,外界普遍认为微软应能更快推出顶尖模型。为何微软仍坚持大力投入自研模型?这是否意味着在核心模型领域,微软的战略存在滞后?
萨提亚·纳德拉:首先需要明确的是,我们对OpenAI技术的运用是全面且深入的。在未来七年里,OpenAI模型将继续作为微软全线产品的核心引擎。我们正在通过强化学习微调、中期训练以及独有的数据资产,对这些模型进行深度优化和功能扩展,使其更好地适应微软庞大的产品生态和用户需求。
关于我们自家的MAI模型,我们正在组建世界级的超级智能团队,并设定了极具雄心的目标。我们采取的是"双轨并行"策略:一方面最大化OpenAI模型的现有价值,另一方面将MAI团队的算力资源聚焦于"差异化创新",避免重复建设。
我们的图像模型已经在权威测试中位列前九。这些模型既用于提升Copilot和Bing等产品的成本效益,也服务于特定的应用场景。Copilot内置的音频模型不仅具备个性化交互能力,更针对产品特性进行了专门优化。而我们自主研发的文本模型LMArena,虽然首次亮相时排名第13,但仅使用了15,000颗H100芯片就实现了这一成绩,充分证明了其基础能力和指令遵循性能。这表明,只要投入更多算力资源,其潜力将不可限量。
我们的下一步是打造一个融合文本、图像和音频能力的全能模型,这将是MAI发展路线上的重要里程碑。我们将持续建设顶尖的超级智能团队,发布兼具成本效益、低延迟和特色功能的产品级模型,同时专注于前沿技术研究,为未来五到八年实现AGI的关键突破做好充分准备,同时始终保持与OpenAI的战略合作优势。
问:假设七年后续约失败,微软无法继续使用OpenAI模型,届时你们将采取哪些措施确保在AI领域的领先地位?
萨提亚·纳德拉:从根本上说,我们将继续建设世界级的研究团队,事实上我们已经组建了一支正在不断壮大的顶尖团队。我们将构建支持多种模型的基础设施体系。从超大规模计算的角度来看,我们希望建立全球最强大的基础设施集群,能够支撑全球所需的所有模型,无论是来自开源社区还是商业机构。
在模型能力建设方面,我们当然会继续在产品中使用OpenAI模型,同时加速发展自主模型研发。我们可能会采取类似GitHub Copilot集成Anthropic模型的策略,将其他前沿模型也整合到我们的产品体系中。归根结底,产品在完成特定任务时的实际表现才是最重要的评判标准。我们将以此为导向进行垂直整合,只要能够通过产品很好地服务市场,我们总能找到成本优化的方法。
05. 基础设施哲学:不赌单一技术,构建“可互换”未来
问:有一种观点认为,未来会出现一个"超级模型",它能像人类一样持续学习,掌握经济体系中的所有工作技能。由于其能够整合所有学习成果,可能形成指数级进步的垄断优势。到那时,如果微软不是这个垄断模型的拥有者,现在"可以切换不同模型"的灵活性是否将失去意义?
萨提亚·纳德拉:这个问题确实触及了行业发展的核心。有人认为会出现一个全知全能的模型,能够处理所有数据并持续学习,然后市场竞争就结束了。但现实情况告诉我,事实可能恰恰相反。看看编程领域——可用的模型不是在减少,而是在不断增加。这就像数据库的发展历程,从来没有出现过所谓的"终极数据库",只有最适合特定使用场景的解决方案。
我想指出真正的风险所在:将基础设施赌注压在单一模型架构上。想象一下,当下一代技术突破来临时——比如像混合专家模型(MoE)这样的架构革新——你那些为特定模型优化的基础设施可能瞬间过时。这才是最令人担忧的。
因此我们选择了一条不同的发展路径:构建能够支持多种模型的基础设施。这不仅是技术选择,更是商业智慧。如果你想要建立真正的平台业务,就必须拥抱多样性,培育开发者生态系统。试图垄断所有技术层面反而会让你偏离平台公司的本质。
这个行业最终会走向专业化分工。我们的角色不是在某个单一层面追求垄断,而是在每个我们能创造价值的层面参与竞争。未来的赢家不是那些试图"终结比赛"的玩家,而是那些能够在不同层面持续创新的企业。
问:去年微软原本有望成为全球最大的AI基础设施提供商,甚至预计在2026年或2028年间超越亚马逊。然而,你们却在去年下半年突然"暂停"了部分数据中心的扩张计划,这些资源随后被谷歌、Meta、亚马逊乃至甲骨文等竞争对手获取。这一决策背后有何考量?

图:数据中心预租容量对比(兆瓦)
萨提亚·纳德拉:这实际上反映了我们对"超大规模业务"本质的重新思考。微软的关键决策在于将Azure打造成为能够适应AI全生命周期——从训练、中期调优、数据生成到推理——的平台。这要求整个计算集群具备高度的可互换性。因此,我们没有盲目建设大量仅适用于特定技术世代的计算容量。
我们必须认识到,保持每18个月为OpenAI模型提供10倍训练容量的增长轨迹固然重要,但更重要的是平衡训练能力与全球服务能力。毕竟,商业化效率才是支撑我们持续投入的关键动力,而基础设施必须能够支持多元化的模型需求。
现在,微软正在全球范围内启动更多项目,积极通过自建、租赁和"GPU即服务"等多种方式获取计算资源,但所有这些都严格以实际需求为导向。我们不想仅仅成为某家模型公司的托管服务商,局限于服务少数几个大客户。这不符合我们的业务定位!
OpenAI作为成功的独立公司,有其自身发展规划,而Meta等科技巨头最终都将建立自有的基础设施。微软的战略调整,是为了构建通用的"超大规模集群"和支撑自身研究计算的平台。
此外,我不希望被特定技术世代的大规模部署所束缚!考虑到GB200、GB300乃至未来的Vera Rubin等新一代芯片将带来完全不同的功率密度和冷却要求,盲目建设大量固定规格的计算设施可能会很快过时。因此,建设节奏、架构兼容性、区位布局、工作负载多样性和客户多元化,都是微软战略布局的核心考量。
我们还发现,AI工作负载不仅需要AI加速器,还需要大量配套资源。事实上,这些配套服务才是我们利润的重要组成部分。微软致力于将Azure打造成能够服务AI长尾工作负载的平台,同时在最高性能的裸机服务领域保持竞争力。
06 Azure不做"模型房东",要做"AI时代的水电煤"
问:如果AI行业最终将走向AGI,那么未来是否会形成以OpenAI、Anthropic等模型公司为核心平台,其他企业在之上构建业务的产业格局?在这种情况下,直接使用Azure的长尾客户将扮演什么角色?
萨提亚·纳德拉:所有这些模型都将在Azure平台上可用。一个真正的AI工作负载远不止是对模型的API调用,它需要数据库、存储、计算以及其他所有服务来构建或部署应用程序。模型公司自身也需要这些完整的服务来构建任何有意义的应用,这远不止是运行一个"token工厂"那么简单。这就是超大规模业务的本质,它不依赖于任何一个特定模型,而是服务于所有模型。
如果客户希望同时使用Grok、OpenAI和开源模型,他们可以来到Azure Foundry,配置所有需要的模型,并获取相应的数据库、存储和计算资源来构建应用程序。这才是完整的解决方案。
问:谷歌在自研TPU方面处于领先地位,预计将生产500-700万颗芯片。亚马逊也计划生产300-500万颗芯片。相比之下,微软自研芯片的订单量明显较少,尽管项目启动时间相近。请问微软的芯片自研战略进展如何?
萨提亚·纳德拉:首先需要认识到,任何新加速器最主要的竞争对手甚至包括英伟达的上一代产品。在规划计算集群时,我们关注的是总体拥有成本(TCO)。即使对我们自研的芯片,我们也设定了极高的标准。
通过在核心计算领域引入AMD、Cobalt等多元方案,我们积累了丰富的自研芯片经验。但重要的是要认识到,即使是谷歌和亚马逊也在采购英伟达芯片。这是合理的,因为英伟达持续创新,提供通用性强的解决方案,所有模型都能在其平台上运行,客户需求也确实存在。如果你选择自研芯片路线,最好拥有自己的模型体系,并能够自主创造需求或进行补贴。
我们的策略是在自研MAI模型与自研芯片之间建立紧密的闭环。这为芯片自研提供了充分的理由,你可以基于具体工作负载设计微架构,并与自有模型协同演进。更重要的是,我们能够访问OpenAI的项目资源,包括除了消费级硬件之外的所有芯片设计和系统架构知识产权。我们共同构建了这些超级计算机,我们将首先为它们部署其设计的系统,然后再进行扩展优化。
因此,微软希望成为英伟达卓越的、"光速执行"的合作伙伴,同时在系统设计层面与OpenAI技术体系和MAI体系协同创新,确保我们在整个技术栈都拥有知识产权优势。
07 合作模式:厘清"平台"与"应用"的边界
问:在与OpenAI的新协议中,微软拥有其无状态API调用的独家权利。随着未来AI工作负载日益复杂(例如ChatGPT需要存储会话状态),这是否会影响微软的竞争优势?
萨提亚·纳德拉:这是一个战略决策,同时也考虑了OpenAI需要的灵活性。可以将OpenAI的业务分为平台即服务(PaaS)和软件即服务(SaaS)两部分。SaaS业务包括ChatGPT等应用,而PaaS业务则是他们的API服务。这些API服务是Azure平台独占的。至于SaaS业务,他们可以在任何平台上运行。
如果OpenAI希望与合作伙伴构建SaaS产品,而该合作伙伴需要使用无状态API,那么Azure是他们获取这些API的唯一平台。即使是需要状态管理的定制协议,除了少数特例外(如美国政府项目),也都必须通过Azure部署。这体现了我们对合作伙伴关系的重视,同时也确保了OpenAI所需的运营灵活性。
问:微软在过去两年中资本支出增长了两倍,正在从软件公司向"工业企业"转型。如何平衡资本密集与知识密集这两种业务特性?
萨提亚·纳德拉:这是一个根本性的结构转变。我将此描述为我们正在同时成为资本密集型企业和知识密集型企业。实际上,我们必须运用专业知识来提高资本支出的投资回报率。
硬件厂商在推广摩尔定律方面做得非常出色,这确实令人钦佩。但即使只看我在财报电话会议中提到的数据,针对特定的GPT模型系列,我们通过软件优化在每美元每瓦特的token吞吐量上实现的季度和年度提升是巨大的——达到5倍、10倍,在某些情况下甚至是40倍。这就是知识密度驱动资本效率的明证。
传统托管服务商与超大规模云计算公司的本质区别是什么?是软件能力。虽然这是资本密集型业务,但只要你拥有系统专业知识、能够按工作负载和集群进行优化的软件能力,也就是当我们谈论"可互换性"时,其中蕴含的深厚软件功底。我们仍然是一家软件公司,只是业务形态发生了变化,我们将妥善管理这种转变。微软强大的现金流使我们能够在这两个领域都保持卓越运营。(文/腾讯科技特约编译金鹿,编辑/木木)