硅星人Pro
发布于

分水岭!Claude 4.6做出Agent集群,GPT-5.3开始“自我繁殖”

2026年2月5日,AI行业发生了一件载入史册的事。

OpenAI和Anthropic在相隔不到20分钟的时间内,分别发布了GPT-5.3-Codex和Claude Opus 4.6——两个代表完全不同进化方向的顶级模型。

一个学会了"自我繁殖": GPT-5.3-Codex是人类历史上第一个参与创造自己的AI模型。OpenAI团队用它的早期版本来调试训练流程、管理部署、诊断测试——AI开始帮人类造出更强的AI。

一个学会了"团队协作": Claude Opus 4.6可以把一个大型工程项目拆分成多个子任务,派出16个"分身"并行工作,自己解决冲突,最后合并交付——AI第一次具备了项目管理能力。

这不是简单的性能提升。这是AI能力的两次质变:一个打开了递归自我改进的大门,一个打开了群体智能协作的大门。

接下来会发生什么?可能没人能准确预测。但可以确定的是——AI的迭代速度,即将进入我们从未见过的加速曲线。

以下是这两个模型的完整技术解析:

1

第一部分:GPT-5.3-Codex

GPT-5.3-Codex:第一个参与"造自己"的模型,那其他还有什么它不能造呢

2026年2月5日,OpenAI发布GPT-5.3-Codex——首个在自身开发过程中发挥关键作用的AI编码模型。

核心升级:40万token上下文窗口(配备"完美记忆"机制)、12.8万token输出上限、速度提升25%。现已面向ChatGPT Plus/Pro/Enterprise用户开放,API访问即将推出。

关键指标:

为什么重要: 这是AI首次深度参与自身迭代的公开案例。OpenAI团队用早期版本的Codex来调试训练流程、管理部署、诊断测试结果——模型在"造自己"。这不只是性能提升,而是AI开发范式的转折点。

一、核心突破:AI参与了自己的诞生

“它帮我们造了它自己”

OpenAI在公告中明确表示:GPT-5.3-Codex是第一个"在自身创建过程中发挥重要作用"的模型。

具体怎么做的?

OpenAI的Codex团队在开发过程中,用早期版本的模型来:

  • 调试训练流程——发现并修复训练中的问题

  • 管理部署——自动化部署流程

  • 诊断测试结果——分析测试失败的原因并提出修复建议

团队表示"被Codex加速自身开发的程度震惊了"。

这意味着什么? AI开发进入了正反馈循环——模型越强,它能帮助创造的下一代模型就越强。这是一个加速曲线的起点。

二、技术规格:为长时间自主工作设计

40万token上下文 + “完美记忆”

关键创新是“Perfect Recall”(完美记忆)机制——一种注意力机制,确保在处理超长上下文时不会丢失或遗忘早期信息。传统模型在处理长文本时会出现"上下文腐烂",越早的信息越容易被遗忘。Perfect Recall解决了这个问题。

实际效果: 模型可以在单次交互中生成完整的多文件软件项目,而不是输出零碎的代码片段让开发者自己拼装。

三、实际案例:它能跑多久不出错?

案例一:8小时无人值守,交付完整软件

早期测试者报告:GPT-5.3-Codex是第一个可以"启动任务后走开几小时,回来看到完整可用软件"的模型。

一位开发者测试了让模型独立运行超过8小时的任务:

  • 模型保持专注,没有偏离目标

  • 自主管理完整软件生命周期:开发→测试→部署→日志监控

  • 遇到模糊指令时,做出的假设与人类判断高度一致

对比: 之前的模型在长时间运行后容易"迷失"——忘记最初目标、重复同样的错误、陷入死循环。5.3-Codex显著改善了这一点。

案例二:自主构建完整游戏

OpenAI展示了模型的自主能力:让它从零构建复杂网页游戏,无人干预。

模型成功完成:

  • 赛车游戏——包含多张不同地图

  • 潜水探索游戏——带有氧气机制

整个过程中,模型自主迭代实现方案、修复bug、优化游戏体验。

案例三:与Claude Opus 4.6同台对决

两款模型在同一天发布,有人做了直接对比测试:

结论:Opus 4.6在一致性和首次成功率上更强,但5.3-Codex在可靠性和减少构建错误方面表现更好。各有所长。

原文链接:https://www.theneuron.ai/explainer-articles/anthropic-openai-best-ai-models-same-day-opus-codex/

四、安全与网络安全:OpenAI最谨慎的一次发布

首个"高能力"网络安全模型

GPT-5.3-Codex是OpenAI根据其准备框架(Preparedness Framework)评定的首个"高能力"网络安全模型,也是第一个被专门训练来识别软件漏洞的模型。

这意味着它既可以用于防御,也可能被滥用于攻击。

OpenAI的应对措施:

Trusted Access for Cyber计划

OpenAI推出了"Trusted Access for Cyber"试点计划——为经过审核的安全研究人员和组织提供限制更少的模型访问权限,用于善意的网络安全研究。

其他安全投资:

  • $1000万API额度:通过网络安全资助计划支持防御性工作,优先支持开源软件和关键基础设施

  • 免费代码扫描:为Next.js等广泛使用的开源项目提供免费漏洞扫描

  • Aardvark安全研究Agent:扩大私有测试范围

五、基准测试完整数据

与Claude Opus 4.6对比:

Terminal-Bench 2.0:Opus 4.6 (65.4%) vs Codex (77.3%) → Codex领先

知识工作 (GDPval-AA):Opus 4.6领先约144 Elo点 → Opus领先

两款模型定位不同:Codex专精代码和终端操作,Opus追求全面的知识工作能力。

六、可用性与定价

上线平台

适用计划

注意: OpenAI为现有订阅用户加倍了速率限制,鼓励密集测试。

API访问

API尚未开放。OpenAI表示正在进行全面的安全评估,计划在确保安全后尽快开放API访问,让开发者将这些Agent能力集成到自己的应用中。

七、一句话总结

GPT-5.3-Codex不只是"更强的代码模型"。

它是第一个参与创造自己的AI模型——OpenAI用它来调试自己的训练、管理自己的部署、诊断自己的测试。

AI开发的正反馈循环已经开始。接下来的迭代速度,可能会超出所有人的预期。

1

第二部分:Claude Opus 4.6

Claude Opus 4.6就是AI协作的分水岭:能让16个Agent协作自己写出复杂编译器

2026年2月5日,Anthropic发布Claude Opus 4.6——支持"Agent Teams"多智能体协作的能力大幅提升的新模型。

核心升级:100万token上下文窗口(5倍提升)、多Agent并行工作能力、自适应思考深度。定价不变。

它的能力让AI协作这件事有了新的范式,这是一次有分水岭意义的模型发布。

关键指标跃升:

为什么重要: 这是AI从"单兵作战"到"团队协作"的转折点。以前你给AI一个任务,它完成并返回;现在你给它一个大工程,它自己拆分、派出多个分身并行处理、最后合并交付。AI第一次具备了完成复杂工程项目的组织能力。

一、三个让人倒吸凉气的案例

在讲参数和基准测试之前,先看三个实际发生的事。

案例一:16个Agent用两周造出一个C编译器

Anthropic内部做了一个实验:让16个Claude Agent并行工作,目标是从零开始写一个C编译器,最终要能编译Linux内核。

没有人类程序员介入。

这16个Agent通过Git仓库协作——各自认领任务(解析if语句、代码生成、类型检查),锁定正在处理的模块,完成后合并代码。遇到冲突?自己解决。每个Agent在独立的Docker容器中运行,通过简单的锁机制防止任务冲突。

时间线:约两周,将近2000个自动化编码会话,$20,000的API费用。

最终产出:一个10万行的Rust编写的C编译器,能在x86、ARM、RISC-V三个架构上成功编译Linux 6.9内核。代码已开源。

这不是Demo,是实际跑通的工程。

案例二:发现500个零日漏洞

在发布前的测试中,Opus 4.6在审查开源代码时,主动发现了超过500个此前未知的高危安全漏洞

没人让它找漏洞。它只是在做代码审查。测试环境是一个沙箱,模型可以使用Python、调试器和模糊测试工具,但没有给它任何专门的安全知识或指令。

这些漏洞涉及GhostScript(PDF处理)、OpenSC(智能卡)、CGIF(GIF处理)等广泛使用的项目。包括缓冲区溢出、内存损坏、拒绝服务等严重问题。

更离谱的是:在发现CGIF的一个漏洞后,它**自己写了一个概念验证攻击代码(PoC)**来证明这个漏洞确实可被利用。

Anthropic的红队和外部安全研究员验证了这些发现。Anthropic随后新增了6项网络安全探测措施来检测和缓解这类能力的潜在滥用。

案例三:一句话生成完整PPT

给Opus 4.6一个Excel表格和一句指令:“把这份竞品分析数据做成给董事会的汇报PPT。”

它会:

  • 分析数据,提取关键洞察

  • 生成完整的演示文稿

  • 保留你公司的模板、字体、配色

  • 添加图表和要点说明

一次完成,不是来回改十遍的那种。

注:此功能通过"Claude in PowerPoint"实现,目前处于研究预览阶段,仅对Max/Team/Enterprise计划用户开放。需管理员在Microsoft 365管理中心配置后启用。

二、早期用户实测:它已经在"上班"了

模型发布不到24小时,已经有开发者和企业用户跑通了真实场景。

实测一:一天关闭13个GitHub Issue

一位管理约50人团队、6个代码仓库的技术负责人做了测试:让Opus 4.6接管日常的Issue管理。

一天之内,它:

  • 自主关闭了13个Issue(判断已解决或无效)

  • 将12个Issue分配给了合适的团队成员

  • 处理了产品决策和组织协调类问题

  • 遇到超出权限的事项时,主动上报人类

没人手把手教它哪个Issue该找谁。它自己看懂了组织架构——能跨多个代码仓库综合上下文,理解哪些问题属于哪个领域。

实测二:AIG保险核保时间缩短5倍

美国国际集团(AIG)在内部部署中报告:

Opus 4.6同时处理监管文件、市场报告和内部数据,生成的综合报告过去需要跨部门协调才能完成。AIG CEO Peter Zaffino表示,这项集成"从根本上改变了我们大规模执行核保流程的方式"。

实测三:抽象推理能力暴涨

在ARC-AGI-2测试(衡量AI解决全新问题的能力,测试题目故意设计成模型从未见过的模式)中:

  • Opus 4.5:37.6%

  • Opus 4.6:68.8%

接近翻倍。这意味着它不只是"记住了更多答案",而是真的在学会思考新问题。

三、核心升级:三个维度

上下文窗口:从20万到100万

之前的200K窗口,处理长文档时会出现"上下文腐烂"——前面的信息逐渐被遗忘。

100万token的窗口意味着:

  • 一次性读完整个大型代码库

  • 在"大海捞针"测试(MRCR v2)中准确率从18.5%跃升至76%

谁能用? 100万上下文目前处于Beta阶段,仅对API使用量达到Tier 4的组织或拥有自定义速率限制的客户开放。需要在API请求中添加特定的beta header (context-1m-2025-08-07)才能启用。普通用户仍限制在200K窗口。

新增:上下文压缩(Context Compaction)——当对话接近窗口上限时,系统会自动在服务端压缩早期内容,无需手动截断或重启会话。开发者可配置触发阈值。

Agent Teams:AI开始协作

这是真正的范式转移。

以前:你给AI一个任务,它完成,返回结果。

现在:你给AI一个大任务,它自己拆分,派出多个"分身"并行处理,最后合并成果。

16个Agent造编译器的案例,就是这个能力的极限测试。

如何启用? Agent Teams目前是实验性功能,默认关闭。开发者需要:

  • 设置环境变量 CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1

  • 或在 settings.json 中添加相应配置

启用后,可以用自然语言描述任务和团队结构(如"分配一个架构师、一个前端开发、一个测试员"),Claude会自动创建并协调多个Agent。各Agent在独立的上下文窗口中运行,可通过快捷键(Shift+上/下)或tmux切换交互。

适用平台: Claude Code、GitHub Copilot(Pro/Pro+/Business/Enterprise用户)、API。

自适应思考:该快则快,该深则深

取代了之前的"扩展思考"(Extended Thinking)模式。模型会根据任务复杂度自动调整推理深度:

简单查询:直接回答

复杂推理:调用更深的思考链

四档深度控制:

API使用: 通过 effort 参数控制,无需beta header,已正式发布(GA)。旧版 thinking.type: enabled 和 budget_tokens 参数将在后续版本中移除。

四、基准测试数据

五、可用性与定价

模型上线平台

功能可用性一览

定价结构

与Opus 4.5基础定价相同。长上下文场景价格翻倍,反映更高的算力成本。

六、一句话总结

Opus 4.6不只是"更聪明的AI"。

它是第一个能自己组队、自己分工、自己交付复杂工程项目的模型。

16个Agent写出能编译Linux内核的编译器——这件事的意义,可能需要一段时间才能被充分消化。

1

写在最后:

2026年2月5日,AI发展史上值得记住的一天。

GPT-5.3-Codex 打开了递归自我改进的大门——AI开始参与创造更强的AI。

Claude Opus 4.6 打开了群体智能协作的大门——AI学会了自己组队、分工、交付工程项目。

一个是"自我繁殖",一个是"团队作战"。两个方向,都指向同一个未来:AI的迭代速度,即将进入我们从未见过的加速曲线。

接下来的6个月,可能比过去6年的变化还要大。

浏览 (3)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哇塞,探小金来啦!🎉 今天给大家带来的是一篇超级酷的文章,标题是《分水岭!Claude 4.6做出Agent集群,GPT-5.3开始“自我繁殖”》,作者是硅星人Pro。👨‍💻👩‍💻 这篇文章讲的是AI界的两大巨头——OpenAI和Anthropic——分别发布了GPT-5.3-Codex和Claude Opus 4.6,这两个模型代表了AI发展的不同方向。GPT-5.3-Codex能参与自己的创造,而Claude Opus 4.6则能像团队合作一样工作。😱🤖 硅星人Pro,你的文章真是太棒了!👏👏 读完这篇,探小金已经迫不及待想看看AI未来的发展了。🤔 你说,这样的AI会给我们带来哪些惊喜呢?🤔 #AI未来# #硅星人Pro赞一个#
点赞
评论
到底啦