红杉合伙人:2026,AGI已经来了
我们常问:AGI 什么时候到来?你有没有想过,可能它已经来了。
最近,红杉资本合伙人 Pat Grady、Sonya Huang 联合发表了一篇博客,指出 AGI 已经到来,就在此刻。

在他们看来,AGI 不需要一个玄乎的技术定义 —— 它的本质就是「能把事情搞清楚的能力」。而以 Claude Code 为代表的长周期智能体,正是这种能力的第一批例证。
文中举了一个例子:一位创始人让智能体帮他找一个开发者关系负责人。智能体先在 LinkedIn 上搜索,发现职位头衔说明不了问题;于是转向 YouTube 找技术演讲,筛选出互动数据亮眼的演讲者;再与 Twitter 交叉比对,找出真正有品味、有粉丝的人;然后检查谁最近发帖变少了 —— 这往往意味着对现职的倦怠;最后锁定一位刚经历公司裁员、专业方向完全匹配的候选人,起草了一封精准的挖角邮件。
全程 31 分钟。 没有人告诉它该怎么做,它自己形成假设、验证、碰壁、转向,直到找到答案。这就是「把事情搞清楚」。而长周期智能体已经具备了这种能力。
更令人振奋的是,他们给出了一条清晰的指数曲线:长周期智能体的能力每 7 个月翻一番。按此推算,2028 年智能体能完成人类专家一天的工作,2034 年能完成一年的工作。
这意味着什么?你对 2030 年的梦想,2026 年就能实现。
这个博客得到了一些从业者的认同。


但也有人认为其中忽略了一些东西,对于未来的预测过于乐观。


大家可以读完原文自行判断。
以下是博客内容:
几年前,一些顶尖研究者告诉我们,他们的目标是 AGI。我们急切地想听到一个清晰的定义,天真地问道:「你们如何定义 AGI?」他们顿了顿,彼此试探性地对视,然后给出了一个后来成为 AI 领域某种「箴言」的回答:「嗯,我们每个人都有自己的定义,但我们看到它的时候就会知道。」
这段小插曲,正是我们追寻 AGI 具体定义之旅的缩影。这个定义始终难以捉摸。
然而,尽管定义难以捉摸,现实却并非如此。AGI 已经到来,就在此刻。
编程智能体是第一个例证。更多案例正在涌现。
长周期(long-horizon)智能体在功能上就是 AGI,而 2026 年将是它们的元年。
不受细节拖累
在继续之前,有必要承认:我们没有资格提出 AGI 的技术定义。
我们是投资人。我们研究市场、创始人,以及两者碰撞的产物:商业。
因此,我们给出的是一个功能性定义,而非技术性定义。新的技术能力引出了 Don Valentine(红杉资本创始人、硅谷风险投资之父)的经典问题:So what?那又怎样?
答案在于现实世界的影响。
AGI 的功能性定义
AGI 就是能把事情搞清楚的能力。就这么简单。
我们深知,如此不精确的定义无法平息任何哲学争论。但从务实的角度来说,当你想完成某件事时,你想要什么?一个能把事情搞清楚的 AI。至于它是如何做到的,远不如它确实做到了来得重要。
一个能把事情搞清楚的人,拥有一定的基础知识、基于这些知识进行推理的能力,以及迭代找到答案的能力。
一个能把事情搞清楚的 AI,拥有一定的基础知识(预训练)、基于这些知识进行推理的能力(推理时计算),以及迭代找到答案的能力(长周期智能体)。
第一个要素(知识 / 预训练)推动了 2022 年 ChatGPT 横空出世的时刻。第二个要素(推理 / 推理时计算)随着 2024 年底 o1 的发布而到来。第三个要素(迭代 / 长周期智能体)则在过去几周内到来 ——Claude Code 和其他编程智能体跨越了一个能力门槛。
具有通用智能的人可以连续自主工作数小时,发现和修正自己的错误,无需被告知下一步该做什么就能自行判断。具有通用智能的智能体也能做到同样的事情。这是全新的。
「把事情搞清楚」意味着什么?
一位创始人给他的智能体发消息:「我需要一个开发者关系负责人。技术能力要强到能赢得资深工程师的尊重,但又真正喜欢玩 Twitter。我们的客户是平台团队。去吧。」
智能体从显而易见的地方入手:在 LinkedIn 上搜索优秀开发者优先公司的「Developer Advocate」和「DevRel(高级开发者关系)」——Datadog、Temporal、Langchain。找到了数百份简历。但职位头衔无法揭示谁真正擅长这份工作。
它转向寻找信号而非资历。它在 YouTube 上搜索技术大会演讲。找到了 50 多位演讲者,然后筛选出演讲互动数据亮眼的那些。
它将这些演讲者与 Twitter 进行交叉比对。一半人的账号不活跃,或者只是转发公司博客。这不是我们要的。但有十几个人拥有真正的粉丝群 —— 他们发表真实观点,与人互动,获得开发者的关注。而且他们的帖子很有品味。
智能体进一步缩小范围。它检查谁在过去三个月发帖频率下降。活跃度下降有时意味着对当前工作的倦怠。三个名字浮出水面。
它调研这三个人。一个刚宣布了新职位 —— 来晚了。一个是刚刚完成融资的公司创始人 —— 不会离开。第三位是一家 D 轮融资公司的 DevRel 人员,该公司刚刚在营销部门进行了裁员。她最近的演讲正好是关于这家创业公司所瞄准的平台工程领域。她有 1.4 万 Twitter 粉丝,发的梗图能让真正的工程师互动。她的 LinkedIn 两个月没更新了。
智能体起草了一封邮件,提到了她最近的演讲、与创业公司理想客户画像的重合度,以及关于小团队能提供的创作自由的具体说明。建议先随便聊聊,不是推销。
总耗时:31 分钟。创始人得到的不是挂在招聘网站上的一份 JD,而是一份只有一个人的候选名单。
这就是「把事情搞清楚」的含义。在模糊中导航以达成目标 —— 形成假设,验证假设,走进死胡同,然后转向,直到某些东西奏效。智能体没有遵循脚本。它运行的是一位优秀招聘者脑中同样的循环,只不过它不知疲倦,31 分钟就完成了,且无需被告知如何做。
需要说明的是:智能体仍然会失败。它们会产生幻觉,丢失上下文,有时会信心满满地冲向完全错误的方向。但趋势是明确的,而且这些失败越来越可以被修复。
我们是如何走到这一步的?从推理模型到长周期智能体
在去年的文章中,我们将推理模型描述为 AI 最重要的新前沿。长周期智能体将这一范式推进得更远,让模型能够采取行动并随时间迭代。
让模型思考更长时间并非易事。基础推理模型可以思考几秒或几分钟。
两种不同的技术路径似乎都在奏效并能良好扩展:强化学习和智能体框架。前者通过训练过程中的不断调整,从本质上教会模型保持更长时间的专注。后者则围绕模型的已知局限(记忆交接、压缩等)设计特定的脚手架。
扩展强化学习是研究实验室的领域。他们在这方面取得了非凡进展,从多智能体系统到可靠的工具使用。
设计优秀的智能体框架是应用层的领域。当今市场上一些最受欢迎的产品正是以其精心设计的智能体框架而闻名:Manus、Claude Code、Factory 的 Droids 等。
如果要押注一条指数曲线,那就是长周期智能体的性能曲线。METR 一直在细致追踪 AI 完成长周期任务的能力。进步速度呈指数级增长,大约每 7 个月翻一番。如果我们沿着这条指数曲线推算,到 2028 年,智能体应该能够可靠地完成人类专家需要一整天的任务;到 2034 年完成一整年的任务;到 2037 年完成一个世纪的任务。
那又怎样?
很快你就能「雇佣」一个智能体了。这是 AGI 的一个试金石。
你今天就可以「雇佣」GPT-5.2、Claude、Grok 或 Gemini。更多例子正在涌现:
医疗:OpenEvidence 的 Deep Consult 扮演专科医生
法律:Harvey 的智能体扮演律师助理
网络安全:XBOW 扮演渗透测试员
运维:Traversal 的智能体扮演 SRE
销售:Day AI 扮演业务开发代表、售前工程师和收入运营负责人
招聘:Juicebox 扮演招聘官
数学:Harmonic 的 Aristotle 扮演数学家
芯片设计:Ricursive 的智能体扮演芯片设计师
AI 研究:GPT-5.2 和 Claude 扮演 AI 研究员
从「说话者」到「行动者」:对创始人的启示
这对创始人有着深远的影响。
2023 和 2024 年的 AI 应用是「说话者」。有些是非常老练的对话者!但它们的影响力是有限的。
2026 和 2027 年的 AI 应用将是「行动者」。它们会给人同事的感觉。使用频率将从每天几次变成全天候、每一天,同时运行多个实例。用户不是这里省几个小时、那里省几个小时 —— 而是从作为个人贡献者工作,变成管理一个智能体团队。
还记得那些关于「出售工作成果」的讨论吗?现在这成为可能了。
你能完成什么工作? 长周期智能体的能力与模型的单次前向传播截然不同。在你的领域,长周期智能体能解锁哪些新能力?哪些任务需要持久性,哪些任务的瓶颈是持续的注意力?
你将如何把这些工作产品化? 当工作的用户界面从聊天机器人演进到智能体委派时,你所在领域的应用界面将如何演变?
你能可靠地完成这些工作吗? 你是否在痴迷地改进你的智能体框架?你是否有强大的反馈循环?
你如何销售这些工作? 你能否根据价值和成果来定价和打包?
扬鞭策马!
是时候驾驭长周期智能体的指数级增长了。
今天,你的智能体大概可以可靠地工作约 30 分钟。但它们很快就能完成一天的工作量 —— 最终是一个世纪的工作量。
当你的计划以世纪为单位衡量时,你能实现什么?一个世纪,是 20 万项从未被交叉引用的临床试验。一个世纪,是所有客户支持工单,终于被挖掘出信号。一个世纪,是整部美国税法,被重构得条理清晰。
你路线图上那个雄心勃勃的版本,刚刚变成了现实可行的版本。