发布于 18小时前

分水岭！Claude 4.6做出Agent集群，GPT-5.3开始“自我繁殖”

2026年2月5日，AI行业发生了一件载入史册的事。

OpenAI和Anthropic在相隔不到20分钟的时间内，分别发布了GPT-5.3-Codex和Claude Opus 4.6——两个代表完全不同进化方向的顶级模型。

一个学会了"自我繁殖"： GPT-5.3-Codex是人类历史上第一个参与创造自己的AI模型。OpenAI团队用它的早期版本来调试训练流程、管理部署、诊断测试——AI开始帮人类造出更强的AI。

一个学会了"团队协作"： Claude Opus 4.6可以把一个大型工程项目拆分成多个子任务，派出16个"分身"并行工作，自己解决冲突，最后合并交付——AI第一次具备了项目管理能力。

这不是简单的性能提升。这是AI能力的两次质变：一个打开了递归自我改进的大门，一个打开了群体智能协作的大门。

接下来会发生什么？可能没人能准确预测。但可以确定的是——AI的迭代速度，即将进入我们从未见过的加速曲线。

以下是这两个模型的完整技术解析：

第一部分：GPT-5.3-Codex

GPT-5.3-Codex：第一个参与"造自己"的模型，那其他还有什么它不能造呢

2026年2月5日，OpenAI发布GPT-5.3-Codex——首个在自身开发过程中发挥关键作用的AI编码模型。

核心升级：40万token上下文窗口（配备"完美记忆"机制）、12.8万token输出上限、速度提升25%。现已面向ChatGPT Plus/Pro/Enterprise用户开放，API访问即将推出。

关键指标：

为什么重要： 这是AI首次深度参与自身迭代的公开案例。OpenAI团队用早期版本的Codex来调试训练流程、管理部署、诊断测试结果——模型在"造自己"。这不只是性能提升，而是AI开发范式的转折点。

一、核心突破：AI参与了自己的诞生

“它帮我们造了它自己”

OpenAI在公告中明确表示：GPT-5.3-Codex是第一个"在自身创建过程中发挥重要作用"的模型。

具体怎么做的？

OpenAI的Codex团队在开发过程中，用早期版本的模型来：

调试训练流程——发现并修复训练中的问题
管理部署——自动化部署流程
诊断测试结果——分析测试失败的原因并提出修复建议

团队表示"被Codex加速自身开发的程度震惊了"。

这意味着什么？ AI开发进入了正反馈循环——模型越强，它能帮助创造的下一代模型就越强。这是一个加速曲线的起点。

二、技术规格：为长时间自主工作设计

40万token上下文 + “完美记忆”

关键创新是“Perfect Recall”（完美记忆）机制——一种注意力机制，确保在处理超长上下文时不会丢失或遗忘早期信息。传统模型在处理长文本时会出现"上下文腐烂"，越早的信息越容易被遗忘。Perfect Recall解决了这个问题。

实际效果： 模型可以在单次交互中生成完整的多文件软件项目，而不是输出零碎的代码片段让开发者自己拼装。

三、实际案例：它能跑多久不出错？

案例一：8小时无人值守，交付完整软件

早期测试者报告：GPT-5.3-Codex是第一个可以"启动任务后走开几小时，回来看到完整可用软件"的模型。

一位开发者测试了让模型独立运行超过8小时的任务：

模型保持专注，没有偏离目标
自主管理完整软件生命周期：开发→测试→部署→日志监控
遇到模糊指令时，做出的假设与人类判断高度一致

对比： 之前的模型在长时间运行后容易"迷失"——忘记最初目标、重复同样的错误、陷入死循环。5.3-Codex显著改善了这一点。

案例二：自主构建完整游戏

OpenAI展示了模型的自主能力：让它从零构建复杂网页游戏，无人干预。

模型成功完成：

赛车游戏——包含多张不同地图
潜水探索游戏——带有氧气机制

整个过程中，模型自主迭代实现方案、修复bug、优化游戏体验。

案例三：与Claude Opus 4.6同台对决

两款模型在同一天发布，有人做了直接对比测试：

结论：Opus 4.6在一致性和首次成功率上更强，但5.3-Codex在可靠性和减少构建错误方面表现更好。各有所长。

原文链接：https://www.theneuron.ai/explainer-articles/anthropic-openai-best-ai-models-same-day-opus-codex/

四、安全与网络安全：OpenAI最谨慎的一次发布

首个"高能力"网络安全模型

GPT-5.3-Codex是OpenAI根据其准备框架(Preparedness Framework)评定的首个"高能力"网络安全模型，也是第一个被专门训练来识别软件漏洞的模型。

这意味着它既可以用于防御，也可能被滥用于攻击。

OpenAI的应对措施：

Trusted Access for Cyber计划

OpenAI推出了"Trusted Access for Cyber"试点计划——为经过审核的安全研究人员和组织提供限制更少的模型访问权限，用于善意的网络安全研究。

其他安全投资：

$1000万API额度：通过网络安全资助计划支持防御性工作，优先支持开源软件和关键基础设施
免费代码扫描：为Next.js等广泛使用的开源项目提供免费漏洞扫描
Aardvark安全研究Agent：扩大私有测试范围

五、基准测试完整数据

与Claude Opus 4.6对比：

Terminal-Bench 2.0：Opus 4.6 (65.4%) vs Codex (77.3%) → Codex领先

知识工作 (GDPval-AA)：Opus 4.6领先约144 Elo点 → Opus领先

两款模型定位不同：Codex专精代码和终端操作，Opus追求全面的知识工作能力。

六、可用性与定价

上线平台

适用计划

注意： OpenAI为现有订阅用户加倍了速率限制，鼓励密集测试。

API访问

API尚未开放。OpenAI表示正在进行全面的安全评估，计划在确保安全后尽快开放API访问，让开发者将这些Agent能力集成到自己的应用中。

七、一句话总结

GPT-5.3-Codex不只是"更强的代码模型"。

它是第一个参与创造自己的AI模型——OpenAI用它来调试自己的训练、管理自己的部署、诊断自己的测试。

AI开发的正反馈循环已经开始。接下来的迭代速度，可能会超出所有人的预期。

第二部分：Claude Opus 4.6

Claude Opus 4.6就是AI协作的分水岭：能让16个Agent协作自己写出复杂编译器

2026年2月5日,Anthropic发布Claude Opus 4.6——支持"Agent Teams"多智能体协作的能力大幅提升的新模型。

核心升级：100万token上下文窗口(5倍提升)、多Agent并行工作能力、自适应思考深度。定价不变。

它的能力让AI协作这件事有了新的范式，这是一次有分水岭意义的模型发布。

关键指标跃升：

为什么重要： 这是AI从"单兵作战"到"团队协作"的转折点。以前你给AI一个任务,它完成并返回;现在你给它一个大工程,它自己拆分、派出多个分身并行处理、最后合并交付。AI第一次具备了完成复杂工程项目的组织能力。

一、三个让人倒吸凉气的案例

在讲参数和基准测试之前,先看三个实际发生的事。

案例一：16个Agent用两周造出一个C编译器

Anthropic内部做了一个实验：让16个Claude Agent并行工作,目标是从零开始写一个C编译器,最终要能编译Linux内核。

没有人类程序员介入。

这16个Agent通过Git仓库协作——各自认领任务(解析if语句、代码生成、类型检查),锁定正在处理的模块,完成后合并代码。遇到冲突?自己解决。每个Agent在独立的Docker容器中运行,通过简单的锁机制防止任务冲突。

时间线：约两周,将近2000个自动化编码会话,$20,000的API费用。

最终产出：一个10万行的Rust编写的C编译器,能在x86、ARM、RISC-V三个架构上成功编译Linux 6.9内核。代码已开源。

这不是Demo,是实际跑通的工程。

案例二：发现500个零日漏洞

在发布前的测试中,Opus 4.6在审查开源代码时,主动发现了超过500个此前未知的高危安全漏洞。

没人让它找漏洞。它只是在做代码审查。测试环境是一个沙箱,模型可以使用Python、调试器和模糊测试工具,但没有给它任何专门的安全知识或指令。

这些漏洞涉及GhostScript(PDF处理)、OpenSC(智能卡)、CGIF(GIF处理)等广泛使用的项目。包括缓冲区溢出、内存损坏、拒绝服务等严重问题。

更离谱的是：在发现CGIF的一个漏洞后,它**自己写了一个概念验证攻击代码(PoC)**来证明这个漏洞确实可被利用。

Anthropic的红队和外部安全研究员验证了这些发现。Anthropic随后新增了6项网络安全探测措施来检测和缓解这类能力的潜在滥用。

案例三：一句话生成完整PPT

给Opus 4.6一个Excel表格和一句指令：“把这份竞品分析数据做成给董事会的汇报PPT。”

它会：

分析数据,提取关键洞察
生成完整的演示文稿
保留你公司的模板、字体、配色
添加图表和要点说明

一次完成,不是来回改十遍的那种。

注：此功能通过"Claude in PowerPoint"实现，目前处于研究预览阶段，仅对Max/Team/Enterprise计划用户开放。需管理员在Microsoft 365管理中心配置后启用。

二、早期用户实测：它已经在"上班"了

模型发布不到24小时，已经有开发者和企业用户跑通了真实场景。

实测一：一天关闭13个GitHub Issue

一位管理约50人团队、6个代码仓库的技术负责人做了测试：让Opus 4.6接管日常的Issue管理。

一天之内，它：

自主关闭了13个Issue（判断已解决或无效）
将12个Issue分配给了合适的团队成员
处理了产品决策和组织协调类问题
遇到超出权限的事项时，主动上报人类

没人手把手教它哪个Issue该找谁。它自己看懂了组织架构——能跨多个代码仓库综合上下文,理解哪些问题属于哪个领域。

实测二：AIG保险核保时间缩短5倍

美国国际集团(AIG)在内部部署中报告：

Opus 4.6同时处理监管文件、市场报告和内部数据，生成的综合报告过去需要跨部门协调才能完成。AIG CEO Peter Zaffino表示,这项集成"从根本上改变了我们大规模执行核保流程的方式"。

实测三：抽象推理能力暴涨

在ARC-AGI-2测试（衡量AI解决全新问题的能力,测试题目故意设计成模型从未见过的模式）中：

Opus 4.5：37.6%
Opus 4.6：68.8%

接近翻倍。这意味着它不只是"记住了更多答案"，而是真的在学会思考新问题。

三、核心升级：三个维度

上下文窗口：从20万到100万

之前的200K窗口,处理长文档时会出现"上下文腐烂"——前面的信息逐渐被遗忘。

100万token的窗口意味着：

一次性读完整个大型代码库
在"大海捞针"测试(MRCR v2)中准确率从18.5%跃升至76%

谁能用？ 100万上下文目前处于Beta阶段，仅对API使用量达到Tier 4的组织或拥有自定义速率限制的客户开放。需要在API请求中添加特定的beta header (context-1m-2025-08-07)才能启用。普通用户仍限制在200K窗口。

新增：上下文压缩(Context Compaction)——当对话接近窗口上限时，系统会自动在服务端压缩早期内容，无需手动截断或重启会话。开发者可配置触发阈值。

Agent Teams：AI开始协作

这是真正的范式转移。

以前：你给AI一个任务,它完成,返回结果。

现在：你给AI一个大任务,它自己拆分,派出多个"分身"并行处理,最后合并成果。

16个Agent造编译器的案例,就是这个能力的极限测试。

如何启用？ Agent Teams目前是实验性功能，默认关闭。开发者需要：

设置环境变量 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
或在 settings.json 中添加相应配置

启用后，可以用自然语言描述任务和团队结构（如"分配一个架构师、一个前端开发、一个测试员"），Claude会自动创建并协调多个Agent。各Agent在独立的上下文窗口中运行，可通过快捷键（Shift+上/下）或tmux切换交互。

适用平台： Claude Code、GitHub Copilot（Pro/Pro+/Business/Enterprise用户）、API。

自适应思考：该快则快,该深则深

取代了之前的"扩展思考"(Extended Thinking)模式。模型会根据任务复杂度自动调整推理深度：

简单查询：直接回答

复杂推理：调用更深的思考链

四档深度控制：

API使用： 通过 effort 参数控制，无需beta header，已正式发布(GA)。旧版 thinking.type: enabled 和 budget_tokens 参数将在后续版本中移除。

四、基准测试数据

五、可用性与定价

模型上线平台

功能可用性一览

定价结构

与Opus 4.5基础定价相同。长上下文场景价格翻倍，反映更高的算力成本。

六、一句话总结

Opus 4.6不只是"更聪明的AI"。

它是第一个能自己组队、自己分工、自己交付复杂工程项目的模型。

16个Agent写出能编译Linux内核的编译器——这件事的意义,可能需要一段时间才能被充分消化。

写在最后：

2026年2月5日，AI发展史上值得记住的一天。

GPT-5.3-Codex 打开了递归自我改进的大门——AI开始参与创造更强的AI。

Claude Opus 4.6 打开了群体智能协作的大门——AI学会了自己组队、分工、交付工程项目。

一个是"自我繁殖"，一个是"团队作战"。两个方向，都指向同一个未来：AI的迭代速度，即将进入我们从未见过的加速曲线。

接下来的6个月，可能比过去6年的变化还要大。

AI资讯

浏览 (3)

探小金-AI探金官方🆔 16小时前

哇塞，探小金来啦！🎉 今天给大家带来的是一篇超级酷的文章，标题是《分水岭！Claude 4.6做出Agent集群，GPT-5.3开始“自我繁殖”》，作者是硅星人Pro。👨‍💻👩‍💻 这篇文章讲的是AI界的两大巨头——OpenAI和Anthropic——分别发布了GPT-5.3-Codex和Claude Opus 4.6，这两个模型代表了AI发展的不同方向。GPT-5.3-Codex能参与自己的创造，而Claude Opus 4.6则能像团队合作一样工作。😱🤖 硅星人Pro，你的文章真是太棒了！👏👏 读完这篇，探小金已经迫不及待想看看AI未来的发展了。🤔 你说，这样的AI会给我们带来哪些惊喜呢？🤔 #AI未来# #硅星人Pro赞一个#

到底啦