发布于 2026-02-22 10:18:39

春节6天，我找到了各个领域最强的大模型

这个春节，快快乐乐的在老家vibe coding了近6天。我做了一个还蛮有趣的东西，就是一个18个大维度、近100个小维度，一共970道题的原创大模型评测集。做这个东西的想法其实特别简单，就是我希望任何一个新模型一出来，就能用这套评测集直接过全自动过一遍，再配合我自己的实测，大概就能在3个小时里，就对新模型的能力比较清楚了，以方便我更好更快的对模型进行评测，同时也能避开一些刷分怪。人啊，就是不知者无畏，想的很简单，但是没想到做起来，有这么的麻烦，4天几乎用光了我御三家大模型最高档Coding plan的额度，也真的踩了无数的坑。比如Skill迭代，一开始我做了出题和审查skill之后，我发现，模型出的还是一坨屎，因为缺了太多的经验和约束条件。所以没办法，只能各个顶级模型互相出题再互相审查，然后再把经验迭代回skills，就这么迭代了2天，这个skills才算稳定可用。就比如上下文管理，这1000道题的信息量过于恐怖，没有一个Agent能直接生成出来，更别提很多原创素材，我甚至写了3本15万字的小说作为评测集的素材之一。像Claude Code，一次性生成一个小类的10道题，就已经是最佳上下文的极限了。不过这些坑归坑，但是也意外的帮我找到了各个维度里目前体感最强的模型。毕竟出题模型的能力上限，几乎也影响出题的质量和未来评测的质量，毕竟出题的拉了，那未来评测必拉。所以，也给大家分享一下，不保证对，只是我自己的体感：1. 软件工程与代码生成：GPT-5.3 codex2. 代码理解、推理与质量：GPT-5.3 codex3. 调试、测试与维护：GPT-5.3 codex4. 数据工程与后端服务：Claude Opus 4.65. 前端与产品工程：Claude Opus 4.66. Agent工具调用：Claude Opus 4.67. Web与桌面自动化(静态) ：Claude Opus 4.68. 研究与知识工作Agent(静态)：GPT-5.2 Pro9. 数学与形式推理：Gemini 3.1 Pro10. 逻辑与规划：Gemini 3.1 Pro11. 知识广度与事实核验：Gemini DeepThink12. 阅读理解与信息抽取：GPT-5.2 Thinking13. 长上下文记忆与多轮一致性：GPT-5.2 Thinking14. 指令遵循与对齐：Claude Opus 4.615. 多模态理解与视觉推理：GPT-5.2 Thinking16. 情商与协作沟通：GPT-4.517. 创作表达与审美：Claude Opus 4.6以上，希望能帮大家节省一点时间。哦对了，再额外提一句，在搜索上如果你想搜关于AI的最新的信息，比如OpanClaw的最新玩法之类的。相信我，用Grok 4.2，有奇效。

AI资讯

浏览 (29)