发布于 2025-12-19 18:04:35

Menlo Venture AI 调研：一年增长 3.2 倍，370 亿美元的企业级 AI 支出流向了哪？

编译：Haozhen、ChatGPT

AI 正在成为企业软件史上扩散速度最快的一次技术浪潮。

过去十年，企业软件的竞争优势往往掌握在传统巨头手中，它们拥有成熟的分发渠道、深厚的数据积累、稳固的客户关系以及强大的销售网络。但在增长最快的 AI 应用领域，竞争格局正在发生逆转：AI-native 初创公司凭借更高的执行效率和快速迭代能力，正在实现对传统企业的超越。

这份最新的研究报告是 Menlo Ventures 基于对 495 位美国企业的 AI 决策者（包含 C-level 高管、工程与产品副总裁等）调研的观点洞察，这些数据直观地展示了企业为何购买 AI，钱都花在了哪里，哪些公司又从中真正受益，以及 LLM 与 AI infra 的竞争格局会如何演进等关键问题。

• 企业级 AI 的市场规模已在两年内从 17 亿美元跃升至 370 亿美元，较去年的 115 亿美元增长约 3.2 倍，增长速度超过历史上任何一个软件品类；

• 一旦企业开始评估某项 AI 解决方案，47% 的 AI 交易最终会进入生产环境，而传统 SaaS 的这一比例仅为 25%；

• AI 应用和 infra 在 2025 年分别获得了 190 亿和 180 亿美元的支出；

• 当前所有 AI 应用支出中，有 27% 来自 PLG 模式，这一比例约为传统软件（7%）的 4 倍；

• 在 AI 应用层，初创公司已占据了 63% 的市场份额；在 infra 层，传统巨头仍占据了 56% 的市场份额，因为许多 AI 应用构建者仍在使用他们信任多年的数据平台；

• 今年医疗行业就吸纳了几乎一半的 Vertical AI（垂直 AI 领域）支出，约 15 亿美元，较上一年的 4.5 亿美元增长超过三倍；

• 在 Horizontal AI（通用 AI）中，Copilots 以 86% 的份额（72 亿美元）占据绝对主导地位，远大于 agent。

01.

AI 是真实的繁荣，不是短期泡沫

尽管外界普遍担忧 AI 投资可能出现过度，但从企业端的采用速度来看，AI 扩散的规模和节奏在现代软件发展史上是前所未有的。

过去三年中，市场对 AI 充满了持续而强烈的信心，AI 也吸引了创纪录规模的资本投入。这一浪潮不仅推动 Nvidia 成为全球市值最高的公司之一，AI 基础模型公司也相继宣布了总额接近 1 万亿美元的 AI infra 投入计划。与此同时，Venture funding 回升至历史高位，且近一半资金集中流向少数几家前沿 AI labs。

随后，市场情绪在今年夏天发生明显反转。一项来自 MIT 的研究指出，约 95% 的生成式 AI 项目都以失败告终。这个结论引发了市场震动，也暴露出在高强度 AI capex 压力下市场信心的脆弱性，“AI 泡沫”的讨论迅速升温。

The GenAI Divide: State of AI in Business 2025

考虑到当前巨额投入，担忧并非毫无依据，但需求端的数据呈现出截然不同的图景。因为目前 AI 已在企业中实现广泛落地，不仅开始贡献实际营收，也带来了可规模化的生产力提升。这更符合一场真实的“繁荣”（Boom），而非短期的“泡沫”（Bubble）。

自 2023 年以来，企业级 AI 市场规模已从 17 亿美元增长至 370 亿美元，约占全球 SaaS 市场 6% 的份额，增长速度超过了历史上任何软件类别。

企业为什么要购买 AI？

2025 年企业在生成式 AI 上的总支出达到 370 亿美元，较 2024 年的 115 亿美元增长约 3.2 倍。其中规模最大的一部分（约 190 亿美元）流向了用底层 AI 模型构建的用户端产品和软件，即 AI 应用层。仅应用层支出就已占整个软件市场超过 6% 的份额，而这一切是在 ChatGPT 发布后的短短三年内完成的。

目前企业级 AI 的增长已超出 AI 聊天产品本身，体现在了越来越多具体业务场景中。目前至少有 10 款 AI 产品的 ARR 超过 10 亿美元，另有约 50 款产品的 ARR 超过 1 亿美元。AI 的增长最初由模型 API 供应商（如 Anthropic、OpenAI、Google）带动，目前正在加速向具体业务场景扩散，包括 coding、销售、客户支持、HR 等，并覆盖医疗、法律以及 creator economy（创作者经济）等多个垂直行业。

今年有超过一半的企业 AI 支出流向了 AI 应用，这表明企业在 AI 投资上正优先关注能够尽快落地并提升生产力的解决方案，而非押注周期更长、风险更高的 infra 建设。

• 相比自建，现成的 AI 解决方案能够更快进入企业生产环境

过去主流观点认为企业会自行构建大部分 AI 解决方案，比如 Bloomberg 在金融领域训练了 BloombergGPT，Walmart 在 2024 年为零售业务构建了 Wallaby。当时，企业普遍认为，只要掌握数据、行业知识和技术架构，内部产品就可以满足大多数 AI 需求。

Bloomberg 推出 BloombergGPT

Walmart 推出 Wallaby

但实际上，在 2024 年，47% 的 AI 解决方案仍由企业内部构建，53% 通过外部采购获得，而到了 2025 年，企业有 76% 的 AI 使用场景选择直接采购成熟方案。尽管企业对 AI 的内部研发投入依然存在，但随着企业技术栈逐步成熟，现成的 AI 解决方案能够更快进入生产环境，并更早体现业务价值。

去年，企业在“自建”VS“采购”的比例上还处于几乎对半的状态，今年企业在生产环境中投入使用的更多是现成的 AI 解决方案。

• 相比传统 SaaS，AI 能够提供稳定且可预期的价值回报

一旦企业开始评估某项 AI 解决方案，最终成交并进入生产环境的概率显著高于传统软件：47% 的 AI 交易最终会进入生产环境，而传统 SaaS 的这一比例仅为 25%。这种更高的转化率反映出企业对 AI 投入的预期比较明确，即能在较短时间内获得可量化的业务价值。

数据显示，虽然大多数企业在评估 AI 时都会识别出多个潜在使用场景，通常多达 10 个以上，但实际优先推进的仍是能够在短期内带来生产力提升或成本节约的项目。

从使用对象来看，企业识别出的对内应用场景（59%）略多于面向客户的应用场景（41%）。但在从评估到落地的转化过程中，这两类项目的推进速度基本一致。这表明，无论是运营端的效率提升，还是面向客户的产品和服务创新，AI 投入都能够提供稳定且可预期的价值回报。

AI 买家 47% 的转化率（对比 SaaS 的 25%）意味着，AI 提供的即时价值足以让其“绕过”或缩短标准的采购流程。

• PLG 模式使得 AI 产品达到企业级应用规模的速度更快

在中心化采购渠道之外，越来越多的 AI 解决方案是通过个体用户而非企业高层，在企业内部率先被采用并投入使用的。数据显示，当前所有 AI 应用支出中，有 27% 来自 Product-Led Growth（PLG，产品驱动增长）模式，这一比例约为传统软件（7%）的 4 倍。

这一数字仍属保守估计。如果将“影子 AI 采用”（Shadow AI adoption）纳入统计，即员工使用个人信用卡购买 ChatGPT Plus 等工具，且其中约 27% 的使用场景与工作直接相关，那么由 PLG 驱动的工具可能已占 AI 应用总支出的近 40%。

在 AI 领域，PLG 模式触达并转化企业用户的速度远快于传统 SaaS，因为在任何正式的签约流程开始之前，真实的日常使用就已经证明了产品的价值。

PLG 模式显著加快了 AI 产品走向企业级规模的速度，也让 AI 产品的渗透深度超过了传统 SaaS。Cursor 在招聘第一名企业销售人员之前，营收就已达到 2 亿美元。n8n 则依托开源社区发展，直到企业有数百名员工已成为活跃用户后，才开始正式签署企业合同。ElevenLabs、Gamma 和 Wispr Flow 也在以类似路径实现规模化增长。

开发者和技术团队对这种模式的接受度尤为突出。许多人最初是为了个人使用而发现这些工具，在日常工作中证明了这些工具的价值，随后创造了自下而上的需求，并最终转化为企业合同。Lovable、OpenRouter 和 fal 都遵循这一模式：一旦工具嵌入开发工作流，产品经理和工程师的非正式采用就会转化为企业级协议。

02.

AI 应用层由初创主导，infra 层仍依赖巨头

在 AI 应用层，初创公司已经取得了决定性的领先地位。数据显示，今年初创公司每赚 2 美元，传统巨头仅能赚 1 美元，初创公司已占据了 63% 的市场份额，而去年这一比例仅为 36%。

从理论上看，这一结果并不符合常规认知。因为传统巨头拥有成熟的分发渠道、稳固的数据护城河、深厚的企业客户关系、规模化的销售体系以及更强的资产负债表基础。然而在现实中，在多个增长最快的应用领域，AI-native 初创公司凭借更强的执行效率反而领先于体量大得多的传统竞争对手。

• 产品与工程（初创公司市场占比 71%）

代码生成是可以说明为何初创公司能够胜出的最典型案例。GitHub Copilot 作为先行者，具备几乎所有结构性优势，但 Cursor 通过更快的产品迭代和更强的功能实现，仍然取得了可观的市场份额。它在 repo 级上下文、多文件编辑、diff 审批以及自然语言指令等关键能力上，都比 Copilot 更早落地。

此外，Cursor 采用模型无关（model-agnostic）的产品策略，使开发者能够在 Claude Sonnet 3.5 等前沿模型一经发布时就立即使用，而不受限于 Microsoft 的合作伙伴选择。这种产品迭代速度推动了一个典型的 PLG 飞轮：Cursor 先在个人开发者中赢得使用场景，再由这些用户将产品带入企业级环境。

• 销售（初创公司市场占比 78%）

以 Clay 和 Actively 为代表的 AI-native 初创公司，通过切入 Salesforce 尚未掌控的工作流而取得优势，这些工作流包括研究、个性化和数据补全（enrichment）。这些环节高度依赖非结构化信号（如网页、社交媒体、邮件），而这些数据通常存在于 CRM 体系之外。

这类公司通过掌控这些 CRM 之外的关键使用界面（off-CRM surfaces），并持续向下游扩展，逐步成为销售人员日常实际使用的 AI 层（AI layer）。短期内，它们正在削弱传统 system of record 的中介地位；长期来看，也有可能进一步演进为新的 system of record。

• 财务与运营（初创公司市场占比 91%）

在财务等受到高度监管的领域，Intuit QuickBooks 这样的老牌巨头面临极高的准确性要求，这放缓了他们推出 AI-native 工作流的速度。尽管这个领域目前涉及的总体资金规模仍然不大，但这种迟滞状态为 Rillet、Campfire 和 Numeric 等初创公司在下沉市场构建 AI-first 的 ERP 创造了空间，这些产品以实时自动化和智能工作流为核心。

下图展示了这一动态在不同企业部门中的差异情况，那些需要应对高度碎片化、数据密集型工作流，且这些流程本身适合自动化的团队，在 AI 采用上往往走在前列。相较之下，在可靠性、集成深度和现有系统依赖性比快速迭代更重要的领域，传统巨头依然保持着较强的实力。

AI 初创公司在市场调研、销售、营销和产品等部门表现活跃。而传统巨头则在 IT 和数据科学领域稳守阵地，在这些领域，可靠性和深度集成的重要性超过了迭代速度。

但在 infra 层，传统巨头仍占据了 56% 的市场份额，因为许多 AI 应用构建者仍在使用他们信任多年的数据平台。尽管像 Temporal、Supabase、Neon 和 Pinecone 这样新兴的 AI-native infra 公司增长势头强劲，但 Databricks、Snowflake、MongoDB 和 Datadog 等传统巨头也同样迎来了显著的业绩再加速，因为即便是新兴的 AI-native 应用开发者，目前仍主要选择现有的平台来管理数据、编排工作流（orchestrate workflows）以及监控运营情况。

在 AI 应用层，初创公司占据主导地位，营收几乎达到传统巨头的两倍；而企业在 infra 方面的支出则依然向传统巨头倾斜。

03.

2025 年 AI 应用是一个 190 亿美元的市场

AI 应用在 2025 年获得了 190 亿美元的支出，占全部生成式 AI 支出的一半以上。这部分支出可划分为三类：

• Departmental AI（部门级 AI，73 亿美元）：面向特定岗位或职能构建，例如软件开发或销售；

• Vertical AI（垂直领域 AI，35 亿美元）：针对特定行业，如医疗或金融；

• Horizontal AI（通用领域 AI，84 亿美元）：覆盖所有职能，用于提升整体生产力。

Departmental AI：coding 是生成式 AI 的第一个“杀手级用例”

2025 年，Departmental AI 的支出达到 73 亿美元，同比增长 4.1 倍。其中，coding 以 40 亿美元（占总支出的 55%）成为表现最突出的赛道，也是整个应用层中最大的细分类别，其余支出分布在 IT（10%）、marketing（9%）、customer success（9%）等领域。

coding（图中的产品和工程）已成为 departmental AI 中的爆发式用例。

随着模型性能达到具有经济意义的水平，coding 成为 AI 的第一个真正的“杀手级用例”（killer use case），其中 Anthropic 的 Sonnet 3.5 在 2024 年年中触发了这个领域的首次规模性突破。随后，AI 采用率迅速攀升：目前 50% 的开发者每天使用 AI 编程工具（在处于行业前 25% 的顶尖机构中，这一比例高达 65%）。代码补全（code completion）市场规模已增长至 23 亿美元，而 code agents 和 AI 应用构建工具则从几乎为零的基数迅速爆发。

随着各团队在软件开发全生命周期中采用 AI 工具，他们反馈的交付速度提升了 15% 以上：覆盖的环节包括：原型设计（Lovable）、代码重构（OpenHands）、设计到代码（Weaver）、质量保障 QA（Meticulous）、PR 流程（Graphite）、站点可靠性工程（site reliability engineering，Resolve）以及部署（Harness）。

今年 coding 支出从 5.5 亿美元到 40 亿美元的巨大跨越反映了技术能力的本质变化：模型现在已经能够理解整个代码库（codebases）并执行多步骤任务。coding 正从单一环节的工具（point solution），演变为一个端到端的自动化类别。

尽管 coding 以 40 亿美元占据了 departmental AI 支出的半数以上，但该技术正在多个企业部门中加速渗透：

• IT 运维工具规模达到 7 亿美元，主要源于团队实现了故障响应和 infra 管理的自动化；

• 营销平台规模达到 6.6 亿美元，主要由内容生成和营销活动优化所驱动。

• Customer success（客户成功）工具获得 6.3 亿美元的支出，AI 被用于工单分流、情绪分析以及主动触达。

这些类别均聚焦于高度重复的工作流，在这些场景中，生产力提升能够迅速体现且易于衡量。下方的市场图谱展示了各职能领域中涌现出的代表性厂商，它们共同争夺 73 亿美元的 departmental AI 总投资。

AI-native 初创公司正在每一个工作职能领域迅速崛起，在 2025 年高达 73 亿美元的 departmental AI 支出中，它们已经占据了相当可观的市场份额。

Vertical AI: 医疗行业占据了几乎一半的支出

Vertical AI 解决方案在 2025 年获得了 35 亿美元的支出，几乎是 2024 年 12 亿美元投资额的 3 倍。按行业划分，仅医疗行业就吸纳了几乎一半的 Vertical AI 支出，约 15 亿美元，较上一年的 4.5 亿美元增长超过三倍，并且规模超过其后四个垂直行业的总和。

今年有 35 亿美元投入到各垂直行业，几乎是去年支出的 3 倍。其中医疗行业占 15 亿美元，市场份额达到 43%，支出超过了排名其后的四个垂直行业的总和。

医疗行业因为长期受到采购周期漫长和监管阻力的影响，推进新事物的节奏往往较慢，但在多年行政负担不断上升、利润空间持续收窄以及人员长期短缺的背景下，医疗系统反而成为整个经济中对 AI 自动化需求最为强劲的领域之一。

大部分支出集中在行政和临床相关的工作流中，其中以环境式病历记录（ambient scribes）为核心。记录工具（Scribe）市场在 2025 年达到 6 亿美元规模（同比增长 2.4 倍），并在市场领导者 Nuance 的 DAX Copilot 之外，催生了两家新的独角兽公司：Abridge 和 Ambience。由于临床医生平均每提供 5 小时医疗服务，就需要花费约 1 小时进行文书记录，那些能够将文档编写时间减少 50% 以上的记录工具可以显著降低行政负担，使医生将更多精力投入到专业诊疗工作中。

除医疗行业之外，AI 已经开始在几乎所有经济部门中落地。在 Eve 等公司的带动下，法律 AI 已成长为规模达 6.5 亿美元的市场，创作者工具的市场规模达到 3.6 亿美元，政府相关应用规模达到 3.5 亿美元。AI 的采用在那些长期缺乏软件支持的行业中尤为强劲。这些行业的典型特征是依赖人工、流程高度非结构化，过去主要依靠人力服务完成，而如今可以通过生成式 AI 实现自动化。

下方的市场图谱展示了在这些领域中布局的代表性公司，它们正在争夺今年企业投入到 Vertical AI 的 35 亿美元资金中的一部分。

Vertical AI 在 2025 年已成长为一个规模达 35 亿美元的类别，投资额是去年的三倍。这些公司展示了 AI-native 软件是如何崛起并服务于经济的每一个领域的。

Horizontal AI：Copilot 支出远大于 Agent

Horizontal AI 的支出规模为 84 亿美元，依然是应用层中最大且增长最快的类别，同比增长达 5.3 倍。

• Copilots 以 86% 的份额（72 亿美元）占据绝对主导地位，主要由 ChatGPT Enterprise、Claude for Work 和 Microsoft Copilot 构成。

• Agent 平台（如 Salesforce Agentforce、Writer、Glean）占据约 10% 的份额（约 7.5 亿美元）。

• 个人生产力工具（如 Granola、Fyxer）则占据剩余的 5%（约 4.5 亿美元）。

通用的 copilots 在当下占据主导地位，但随着 agents 变得更加强大，AI 将从“辅助”向“自动化”转型。

04.

2025 年 AI infra 支出达到 180 亿美元

AI infra 层在 2025 年获得了 180 亿美元的支出，占全部生成式 AI 支出的另一半，较 2024 年的 92 亿美元增长了 2 倍。这部分支出可分为三类：

• 基础模型 APIs（125 亿美元）：为所有 AI 应用提供底层智能驱动；

• 模型训练 infra（40 亿美元）：支持前沿实验室和企业进行模型的训练与适配；

• AI infra（15 亿美元）：负责管理数据的存储、检索和编排，从而将 LLMs 与企业系统连接起来。

现代 AI 技术栈尚在开发中

尽管目前市场上围绕 agent 的讨论很多，但真实的生产级架构却简单得令人意外：只有 16% 企业部署的 agent 和 27% 的初创公司部署的 agent 符合真正的 agent 定义，即由 LLM 负责规划并执行行动、观察反馈并调整自身行为的系统。目前大多数系统依然是围绕固定序列或基于路由（Routing-based）的工作流构建的，本质上只是对单一模型调用的封装。

定制化模式也进一步反映了这一技术阶段的早期特征。Prompt 设计仍是最主要的手段，其次是检索增强生成（RAG）。更为先进的方法，如 fine-tuning、tool calling、context engineering 和强化学习，目前仍属小众，主要由前沿团队采用。

大多数所谓的 AI agents 不过是围绕模型调用构建的基础“if-then”逻辑。简单的架构虽然能应对当下的使用场景，但也揭示了市场目前仍然处于非常早期的阶段。

由于基于 LLM 的应用架构仍在逐步演进，现代 AI 技术栈在整体形态上与去年大体相似。到目前为止，最大的受益者是那些基于企业长期信任的数据与 infra 平台来持续扩展 AI 能力的传统巨头，包括 Databricks、Snowflake、MongoDB 和 Datadog。

相比之下，初创公司的活跃度更多集中在推理（inference）和算力（compute）层面，在这一领域，AI-native 厂商正与超大规模云厂商（hyperscalers）的开发者平台正面竞争。诸如 Fireworks、Baseten、Modal 和 Together 等推理平台，凭借性能和开发者体验取胜，提供 serverless、高吞吐量、开放权重（open-weight）的推理端点，并通过手写或融合内核、优化的服务栈以及精细化管理的 GPU 集群，实现 2 倍以上的性能提升。

在技术栈的更上层，一批新的可观测性（Observability）与开发工具厂商正在出现，包括 LangChain、Braintrust 和 Judgment Labs。它们围绕评测（evals）、追踪（tracing）和持续学习（continuous learning）等开发流程切入，构建面向 AI 的运行时可观测性层。下方的市场图谱展示了这些为生成式 AI 应用提供底层支撑的关键参与者。

企业在基础模型、训练系统、数据及编排层等 AI infra 上投资了 180 亿美元。这张图展示了服务于技术栈各环节的公司。

05.

LLM 竞争格局

Anthropic 在企业级市场领先

基础模型格局在今年发生了决定性变化。Anthropic 出人意料地取代 OpenAI，成为企业级市场的领先者。目前 Anthropic 占据约 40% 的企业级 LLM 支出，高于去年的 24%，也明显高于 2023 年的 12%。在同一时期，OpenAI 的企业端份额几乎减半，从 2023 年的 50% 下降至 27%。Google 同样实现了显著增长，企业市场份额从 2023 年的 7% 提升至 2025 年的 21%。

综合来看，这三家公司合计占据了 88% 的企业级 LLM API 使用量，其余 12% 则分散在 Meta 的 Llama、Cohere、Mistral 以及其他大量规模更小的模型供应商中。

上面三张图共同刻画了 LLM 生态的变化趋势。堆叠柱状图展示了市场份额变动的幅度，趋势线突出领先厂商背后的增长动能，而编程（coding）占比则强调了竞争优势正在形成的关键领域。

Anthropic 的崛起归功于其在编程市场极其持久的统治力。据估计，它目前在编程市场占据了 54% 的市场份额，而 OpenAI 仅为 21%。就在六个月前，这一数字还是 42%，而这一增长在很大程度上是由 Claude Code 的普及所推动的。

事实上，自 2024 年 6 月推出 Claude Sonnet 3.5 以来，Anthropic 在编程领域的 LLM 排行榜上已连续领先近 18 个月，几乎无人能及。当 Google 在 2025 年 11 月中旬发布 Gemini 3 Pro 时，Model Card 显示 Gemini 3 Pro 在大多数主要评估指标中处于领先，但唯独在 SWE-bench Verified（一项衡量真实软件工程能力的基准测试）上依然落后于 Claude Sonnet 4.5。

Gemini 3 Pro Model Card

仅仅一周后，Anthropic 凭借 Claude Opus 4.5 再次拉开了差距，刷新了代码生成的最高标准，并巩固了 Anthropic 作为该类别最强选手的地位。

Claude Opus 4.5 的表现

中国开源模型在初创和独立开发者中影响力增强

尽管今年 Llama 在技术前沿的速度有所放缓，但它依然是美国企业中应用最广泛的开源权重模型。然而，该模型的停滞（自 4 月份发布 Llama 4 以来再无重大更新）导致企业级开源市场的整体份额从去年的 19% 下降到如今的 11%。

企业更倾向于选择闭源模型。目前开源 LLM 仅占据 11% 的市场份额，但开发者们正在尝试在生产环境中运行中国模型，并大规模测试新的架构。

尽管中国开源模型在今年取得了令人瞩目的进展，并在初创公司中日益流行，但美国企业对中国开源模型依然保持着格外的谨慎。总的来看，中国模型仅占 LLM API 总使用量的 1%，约占企业级开源支出的 10%。

在大企业之外，采用情况则截然不同。针对初创公司和独立开发者的两个热门基准 vLLM 和 OpenRouter 显示，Qwen（通义千问）、DeepSeek（V3、R1）、Moonshot/Kimi（月之暗面）、MiniMax 以及智谱 AI 的 GLM 的采用率正在迅速获得更多用户，不过，DeepSeek 的使用量在 R1 发布初期的激增之后已趋于平缓。

较小的模型 Qwen3 和 GLM 因在性能上能够与更大型模型竞争而尤其受欢迎。例如，Airbnb 在面向用户的 AI 功能中大量依赖 Qwen，而 Cursor 则将该模型作为内部模型的开源基础。

开源 LLM tokens 的分布正在持续演变，过去一年里，中国模型在开发者群体中的影响力显著增强。

06.

2026 年 AI 预测

2025 年，AI 成为了历史上扩张速度最快的软件类别。Menlo Ventures 基于整个生态系统的观察，对未来一年做出以下五点预测：

1.AI 将在日常实际编程任务中超越人类表现：LLM 的技能不会出现停滞，尤其是在可验证的领域如数学和编程中，最先进的模型将持续不断地变得更好。

2.杰文斯悖论（Jevon’s paradox）仍然成立：尽管推理成本因推理量呈数量级增长而下降，生成式 AI 的净支出仍在上升。

杰文斯悖论（Jevons’s paradox）指的是技术效率提高反而可能导致资源消耗增加，而不是减少。也就是说，当某种资源使用变得更高效时，人们往往会增加使用量，最终整体消耗上升。

• 基准测试虽然趋于饱和，但无法完全捕捉模型在现实世界中的实际效果。仅追求基准测试成绩的模型无法长期留住用户。

• 对于前沿用例，比如 coding，用户对价格实际上并不敏感，他们愿意为性能支付更多。

• 模型将在 coding 之外的一个重要用例中获得广泛采用。

3.可解释性（explainability）与治理（governance）将成为主流。随着 agent 自主性和决策能力的提升，解释和管理其决策的能力将变得更加重要，这一需求来自使用 AI 的用户本身。Menlo Ventures 预计各国政府将要求对 agent 结果提供可解释的决策依据和审计日志。Goodfire 这样的公司可以使神经网络可解释且可引导，将在企业中变得越来越重要。

4.模型最终将移至边缘端。出于低延迟需求、隐私/安全以及其他因素的考虑，计算将持续向设备端迁移，越来越多的非前沿模型的成本将接近 $0。Google、Apple 和 Samsung 等移动设备制造商将提供专用的低功耗 GPU 计算，在手机上无需网络即可实现快速推理且无额外成本。

Reference

2025: The State of Generative AI in the Enterprise｜https://menlovc.com/perspective/2025-the-state-of-generative-ai-in-the-enterprise/

排版：傅一诺

AI资讯

浏览 (64)