发布于 2026-01-16 14:26:15

产业级 Agent 如何破局？百度吴健民：通用模型难“通吃”，垂直场景才是出路

作者 | 褚杏娟

本文为《2025 年度盘点与趋势洞察》系列内容之一，由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向，通过长期跟踪、与业内专家深度访谈等方式，对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。内容将在 InfoQ 媒体矩阵陆续放出，欢迎大家持续关注。

我们采访了百度智能云平台产品事业部算法架构师、千帆策略部负责人吴健民，他指出，Agentic 模型训练最大卡点不是模型，是真实环境复刻，外部接口、数据库、登录依赖等真实链路的稳定访问，技术实现门槛极高。在当前，通用全能的 Agentic 模型现阶段不可能实现，业务场景、工具、环境差异过大，通用模型泛化性有限，针对垂直场景的模型定制和持续学习或是破局关键。

在多模态模型发展方面，吴健民指出，视觉生成主流为模型框架从 Diffusion Model 发展到 Flow Matching，效果、稳定性碾压前代方案，视觉理解模型仍以 ViT Encoder 嫁接语言模型的主流方案，模型能力迭代的主要聚焦在垂直方向的数据合成。虽然工业和学术界有很多尝试，当前未真正实现多模态理解和生成的统一建模，目前分开独立优化效果依旧优于融合建模。

下面是详细对话内容，以飨读者。

“没有模型可以支持所有 Agent 场景”

InfoQ：如何让大模型更好支持 Agent 应用？技术有哪些瓶颈？

吴健民：目前我们的研发目标，是让模型能够在各类垂直 Agent 场景中更好地发挥作用。其中，最核心、发展也最快的场景是 Coding Agent，包括通用编程以及面向网页开发或特定垂直领域的 Agent 应用。现阶段，我们的工作重点之一就是更具体地聚焦在网页开发相关的 Agent 能力上。

在这一过程中，有一个重要的问题需要回答：SOTA 的通用模型是否能在各种垂直 Agent 场景下都能达到工业级的效果。就目前来看，具备这种能力的通用模型还没有出现。

原因在于，不同垂直 Agent 所处的场景设定、可使用的工具集合以及运行环境差异极大，而当前的通用模型尚不足以在如此多样的场景中实现稳定泛化。因此，围绕具体应用场景定制模型，反而更容易形成优势。

此外，不同场景对效果的评估标准也存在显著差异，即 Reward 的定义并不通用。如果一个场景能够清晰地定义 Reward，并且该 Reward 判断能够高效自动地完成，那么针对这一场景通过强化学习在通用基座模型上定制训练的 Agentic 模型，往往可以显著超过现有通用模型。

第二个难点在于环境的复杂性。以代码场景为例，其运行环境不仅涉及代码本身，还包括外部接口调用、工具使用、数据库依赖，以及登录、扫码等一系列真实应用中的外部依赖。在训练过程中，这些依赖都必须能够被高并发、稳定地访问，这对技术实现提出了很高要求。

第三个挑战在于强化学习系统本身。当前业内已形成共识，即要实现模型在特定场景中的持续迭代，必须依赖一套在该场景下运行顺畅、具备高效率和高吞吐能力的强化学习系统。由于强化学习系统本身的架构复杂性，也出现了不少 RLaaS 的平台产品，把算法复杂性封装在平台内，业务仅需要聚焦在业务场景定义，Reward 评估方案制定和迭代。这也是百度千帆平台 26 年的重点业务方向。

InfoQ：那现在有没有比较通用、效果较好的强化学习框架？

吴健民：目前开源社区中已有不少强化学习框架，例如 OpenRLHF、TRL 以及 VeRL 等，它们基本覆盖了强化学习流程中的主要环节。但在工业级应用中，这些框架仍然不够成熟，特别是涉及多轮工具调用的 Agentic 场景，往往需要进行深度定制和打磨。

打磨方向主要在两个方面：首先是模型规模支持，严肃应用往往依赖参数量较大的 SOTA 模型，例如百度文心或 DeepSeek 开源的模型，强化框架能否高效支撑这类大模型至关重要；其次是 Agent 训练能力，早期的强化学习多集中于单步任务，例如数学推理，而代码类、客服、DeepReasearch 等 Agent 更依赖多轮工具调用的复杂交互，这就要求强化训练框架能够配合一整套稳定、高效的脚手架系统。

此外，工业级 Agentic 模型的研发对整体技术栈的要求极高，包括沙盒环境以及高性能、高并发的调度运行能力；若涉及联网搜索，还需要稳定的高并发搜索 API 支持。因此，具备云计算或搜索基础能力的团队往往更具优势。

InfoQ：要在基座模型上增强 Agentic 能力，需要哪些技术支持？

吴健民：这一问题的核心仍然在于强化学习如何在基座模型之上更好地服务于具体场景。强化训练的本质并不是创造全新的能力，而是激发和稳定模型在特定场景中的既有能力。因此，首要前提是基座模型本身在目标场景上具备优势。这种优势通常来源于预训练阶段的数据分布。例如，搜索相关数据占比更高的模型，在代码类 Agent 场景中往往更具潜力，不同场景基座模型的选择，通常观察基座模型在对应场景的 Pass@k 指标，即推理多次能得到正确答案的比例。Pass@k 指标高的模型，有更大空间通过强化学习训练激发并稳定模型在对应场景的表现。

另一个关键依赖是训练效率。强化学习的过程本质上更接近一种搜索机制：模型通过大量尝试生成不同路径，Reward 对每次尝试进行优劣评估，并将表现较好的路径通过强化训练反馈到模型参数中。在这一过程中，生成尝试路径（Rollout）通常占据 80%—90% 的时间成本。因此，是否能够以高吞吐方式高效完成 Rollout，是强化训练成败的关键。这个过程的关键是“训推一体”的技术，实现训推计算资源的高效利用以及训练精度差异的对齐。

InfoQ：另外，现在强化学习的 scaling 在业内似乎未形成共识？

吴健民：的确不像预训练 scaling 一样普遍的共识。过去，强化训练通常只占总体训练很小的一部分，被视为对预训练模型的微调，给预训练模型的蛋糕上放一个樱桃。而现在，强化训练的样本规模已经可以扩展到百万级，系统性地提升了模型推理和复杂问题解决能力。

要实现大规模多场景的强化训练，前提是结果评估能够准确自动完成，且最好能有稠密的评估奖励反馈。在代码或数学等评估相对确定的场景中，这一点相对容易实现，模型在代码和数学解题方向能力也得到显著提升。但在通用问答或复杂垂直场景中，由于缺乏统一、自动化的评估方案，规模扩展变得困难。这也是模型尚未在更通用场景实现泛化的重要原因。

尽管如此，业内普遍认为强化训练依然具有显著的 scaling 效果，问题的焦点转化到可泛化到评估奖励方案设计上。从依赖人工反馈的小规模 RHF，到基于规则甚至更通用奖励方案的 RLVR 强化训练，随着规模扩大，模型效果确实在持续提升，这一点在实际应用中也得到了验证。

InfoQ：通用 Agent 与专用 Agent 之间的能力差距，该如何弥补？

吴健民：当前主要存在两种思路。一种是追求在所有方向上都表现出超过人类的全能模型或 Agent，这本质上指向 AGI。业内对实现 AGI 需要的时间判断差异很大，而我们认为这一目标仍然相当遥远。另一种更现实的路径，是在特定专业场景中不断提升模型和 Agent 能力，能够在局部任务上超过人类水平，这在相当长一段时间内仍将是主流方向。

我们负责研发的全球领先的可商用自我演化超级智能体百度伐谋，为可以准确定义评估验证方案的 NP-hard 问题，提供高效的最优解演化方案，实现超过人类水平的效果。

InfoQ：长上下文能力对 Agent 的支持非常重要，应当如何建设？

吴健民：模型支持的上下文长度与 Agent 能力之间存在直接关系。上下文决定了模型能够记忆和理解的信息规模，而在复杂任务中，Agent 需要不断与环境交互，每一次反馈都会进入上下文，成为下一步决策的依据。因此，交互轮次越多，对模型长上下文理解能力的要求就越高。

在此基础上，业界也在探索通过 Agent 脚手架本身“放大记忆”的方案。类似人类并不会记住所有信息，而是通过笔记、字典或工具进行辅助，Agent 也可以通过工具使用来弥补上下文长度的限制。例如，在审核数百页合同的场景中，即便无法一次性将全文放入上下文，Agent 仍可以借助工具调用逐页查看、回溯关联内容，从而完成整体审核任务。从这个角度看，通过工具增强记忆能力，也是实现长上下文处理的一种有效路径，体现了 Agent 开发中 Progressive Disclosure 的原则。

InfoQ：在一些偏注意力机制的底层架构方面，业内是否做了调整？

吴健民：这个涉及模型网络结构本身的问题了。无论通过何种工具把上下文扩展得更长，模型本身的上下文理解能力始终存在上限。比如目前常见的 128K 或 256K 甚至 1M 上下文，长上下文能力的关键是模型能否准确理解高效处理，这依赖高效的注意力机制设计和实现。

模型利用上下文，在生成下一个 token 时，一个重要的观察是：并非全部上文 token 都对预估当前 token 同等重要，真正起作用的往往只是其中一小部分。基于这一特性，注意力机制可以采用稀疏化策略，不必对全部 128K 的 token 做同等精细的计算，可以采用比如 DeepSeek DSA 方案，先粗略进行一次快速扫描，再对相关性高的部分 token 进行精细注意力计算。另一个思路是把上文 token 进行分块，先筛选相关的块，再对相关块内 token 进行精细注意力计算。结合两个方案的优势，也是一个实现的思路。

InfoQ：2025 年 MoE 架构被广泛采用，是否意味着更强模型的整体方向已经基本确定？

吴健民：MoE 架构被广泛应用到搜索、推荐等不同预估场景。大模型提到的 MoE，实际上是稀疏 MoE。其实从去年年初开始，这项技术就在业内受到较多关注。它要解决的核心问题仍然是 Scaling Law：随着模型参数规模不断增大，训练和推理成本也在持续上升，是否能在保持参数规模扩展的同时，控制实际训推计算的成本。

MoE 给出的答案是肯定的。通过这种方式，可以在继续增大模型总参数的同时，让训练和推理所实际使用的参数规模保持次线性增长。具体而言，在 Transformer 架构中，MoE 将原本的全连接层拆分为多个对等的小模块，即“专家”，在每次前向推理只激活其中一部分，从而显著降低计算成本。稀疏 MoE 已逐渐成为业内的主流选择，稀疏比也做到了 5% 甚至更低的水平，成为推动模型规模继续扩展的一种现实可行方案。

多模态模型架构层逐渐收敛

InfoQ：从单一模态发展到多模态并引入 Agent，在底层架构上发生了哪些变化？

吴健民：一个最显著的变化，是在原有语言模型基础上引入视觉能力，这也是从去年开始 VLM 大量出现的主要方向。实际工作中，核心仍然在语言模型本身：通常是在语言模型训练到一定阶段后，引入视觉编码器，并用图文对其数据与语言模型联合训练，对齐文本和视觉 token，使模型能够理解视觉信号。这种 “桥接”或“嫁接”的方案，逐步成为当前的主流方案。

在多模态领域，一个长期目标是希望视觉模型也能像语言模型一样有很好的Scaling Law，但这一问题至今仍未解决。视觉信号本身的信息密度比较低，它更像是自然世界的直接映射，并不一定承载明确的知识结构。相比而言，互联网上存在的海量文本数据，是人类产生的对世界知识的总结压缩，信息密度很高。这使得仅依赖视觉输入进行大规模训练，难以达到语言模型那样的效果。

因此，现有方案高度依赖图文对齐数据，即为图片配备高质量、细粒度的文本描述，通过充分对齐文本与图片，来提升模型的理解能力。但这类数据难以规模化获取，不易全面覆盖实际的图片分布，目前行业可用的规模大致在 3–5T token，量级上存在明显差距，也限制了多模态模型的进一步 scale。

InfoQ：2025 年文生图、图生图模型更新频繁，突破点主要在哪里？

吴健民：这属于视觉生成方向。从 Sora 开始，这一领域受到了广泛关注，也出现了不少高质量的开源项目，支持生成效果不断提升。但像 Sora 2 或 Nano Banan 等业内 SOTA 的生成模型，其具体实现细节并未完全公开。

从算法角度看，视觉生成方案本身仍在快速演进，从早期的 Stable Diffusion 到当前的 Flow Matching，建模方法和训练效率都得到了显著优化。不过，从能力定位上看，视觉生成模型更偏向专精模型，主要解决“生成”的问题，也有观点认为，生成模型可能进一步发展为所谓的“世界模型”，即在理解物理规律的基础上生成符合现实约束的内容，进而通向 AGI 的实现。

2026 方向：生成与理解的统一建模

InfoQ：在此基础上，未来一段时间，尤其是 2026 年，大家主要会沿着哪些方向继续演进？

吴健民：一个非常重要的方向，多模态生成与理解的统一建模。很多公司都在尝试通过统一的多模态建模方式，让生成能力和理解能力形成协同效应，而不再是彼此割裂。这意味着模型既不是单纯为生成而设计，也不是只服务于理解任务。外界对 GPT-5 等模型也曾寄予类似期待，尽管目前看相关路径尚未完全跑通，但可以确定的是，这一方向仍在持续探索之中。

InfoQ：在专家视角下，生成与理解真正实现统一，应当达到什么样的效果？

吴健民：最终评价标准仍然是结果导向。如果通过统一训练得到的模型，在生成和理解两个维度上的表现，都优于分别独立训练的模型，那么这种统一才是有意义的。举例来说，如果一个生成 - 理解统一模型在生成质量上能够超过当前生成领域的 SOTA 模型，那么就可以认为内生的理解能力确实提升了生成效果。但就目前来看，分开针对生成和理解进行优化，独立效果仍然更好。

InfoQ：也就是说，目前融合后的效果还不如单独优化？

吴健民：是的，至少在现阶段仍是如此。

InfoQ：但很多团队似乎还是在把各种能力揉合进一个模型里。

吴健民：确实存在这种趋势，但并非所有团队都选择同一条路径。不同团队对通用人工智能实现方式的理解并不一致。

一种思路是将多种能力融合到单一模型中，希望模型像人一样具备听、说、读、写等多种模态能力，这是一种全模态模型的路线。

另一种思路则是强调模型学会使用工具。人类智能的显著提升，本质上源于工具使用能力的不断演进，从最原始的简单工具到今天的计算机系统，工具极大放大了人的能力。Agent 的发展，本质上正是沿着“工具使用”这一路径展开的，不同理解会带来不同的技术路线和实现方式，当前没有看到哪条路一定能走通。

InfoQ：2025 年“世界模型”这个概念被频繁提及，从语言模型到动态模型再到世界模型，这条演进逻辑是怎样的？

吴健民：“世界模型”这一说法本身就存在多种理解。最早在 Sora 第一代发布时，其自称为世界模型，核心目标是通过建模来理解物理世界的运行规律，尤其是借助视觉输入，让模型学习空间关系和物理约束，例如生成的视频必须符合基本物理常识。这一路线随后发展得很快，重点在于提升模型的空间感知推理和物理一致性。

但也存在另一种理解路径。例如 Meta 前段时间发布的 CWM 模型，强调的是代码能力和工具调用能力，同样定义为世界模型。在这种视角下，只要模型能够高效使用现实世界中的各种工具，就可以被视为对“世界”的一种建模。

Agentic 模型是今年必答题

InfoQ：展望明年，大模型能力提升的核心突破点可能来自哪些技术路线？

吴健民：明年的变化大概率会延续 2025 年已经显现的趋势。2025 年一个非常明显的方向是 Agentic Model，即模型具备稳定、准确的工具调用能力。代码场景已经率先验证了这一点，明年这一能力很可能扩展到更多应用场景，模型将不再只调用编程相关工具，而是能够使用更广泛的现实世界 API，这是一个较为明确的发展趋势。

InfoQ：那面对复杂环境，大模型将如何应对？

吴健民：通用场景的环境通常非常复杂，模型需要对接的 API 接口、数据库、人际交互界面等系统差异较大。针对后者，目前较为可行的方案，仍然是让模型在特定场景的 Agent 脚手架中学会熟练使用该场景所涉及的工具。尽管应用场景很多，但每个场景对应的工具集合通常是相对有限的。模型通过场景反馈不断优化工具使用方式，就可以逐步适应复杂环境。代码 Agent 场景正是一个典型例子，模型通常只需要掌握十几种工具调用方式，随着打磨程度提升，其在该场景下的表现也会持续改善。

加入InfoQ年度盘点读者群

第一时间获取盘点文章更新

技术人的年度仪式感！#InfoQ 年度盘点与趋势洞察启动！

《2025 年度盘点与趋势洞察》由 InfoQ 技术编辑组策划。覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向，通过长期跟踪、与业内专家深度访谈等方式，对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。

力求以体系化视角帮助读者理解年度技术演化的底层逻辑、创新方向与落地价值，并为新一年决策提供参考。内容将在 InfoQ 媒体矩阵陆续放出，欢迎大家持续关注。

AI资讯

浏览 (41)