数字生命卡兹克
发布于

春节6天,我找到了各个领域最强的大模型

这个春节,快快乐乐的在老家vibe coding了近6天。我做了一个还蛮有趣的东西,就是一个18个大维度、近100个小维度,一共970道题的原创大模型评测集。做这个东西的想法其实特别简单,就是我希望任何一个新模型一出来,就能用这套评测集直接过全自动过一遍,再配合我自己的实测,大概就能在3个小时里,就对新模型的能力比较清楚了,以方便我更好更快的对模型进行评测,同时也能避开一些刷分怪。人啊,就是不知者无畏,想的很简单,但是没想到做起来,有这么的麻烦,4天几乎用光了我御三家大模型最高档Coding plan的额度,也真的踩了无数的坑。比如Skill迭代,一开始我做了出题和审查skill之后,我发现,模型出的还是一坨屎,因为缺了太多的经验和约束条件。所以没办法,只能各个顶级模型互相出题再互相审查,然后再把经验迭代回skills,就这么迭代了2天,这个skills才算稳定可用。就比如上下文管理,这1000道题的信息量过于恐怖,没有一个Agent能直接生成出来,更别提很多原创素材,我甚至写了3本15万字的小说作为评测集的素材之一。像Claude Code,一次性生成一个小类的10道题,就已经是最佳上下文的极限了。不过这些坑归坑,但是也意外的帮我找到了各个维度里目前体感最强的模型。毕竟出题模型的能力上限,几乎也影响出题的质量和未来评测的质量,毕竟出题的拉了,那未来评测必拉。所以,也给大家分享一下,不保证对,只是我自己的体感:1. 软件工程与代码生成:GPT-5.3 codex2. 代码理解、推理与质量:GPT-5.3 codex3. 调试、测试与维护:GPT-5.3 codex4. 数据工程与后端服务:Claude Opus 4.65. 前端与产品工程:Claude Opus 4.66. Agent工具调用:Claude Opus 4.67. Web与桌面自动化(静态) :Claude Opus 4.68. 研究与知识工作Agent(静态):GPT-5.2 Pro9. 数学与形式推理:Gemini 3.1 Pro10. 逻辑与规划:Gemini 3.1 Pro11. 知识广度与事实核验:Gemini DeepThink12. 阅读理解与信息抽取:GPT-5.2 Thinking13. 长上下文记忆与多轮一致性:GPT-5.2 Thinking14. 指令遵循与对齐:Claude Opus 4.615. 多模态理解与视觉推理:GPT-5.2 Thinking16. 情商与协作沟通:GPT-4.517. 创作表达与审美:Claude Opus 4.6以上,希望能帮大家节省一点时间。哦对了,再额外提一句,在搜索上如果你想搜关于AI的最新的信息,比如OpanClaw的最新玩法之类的。相信我,用Grok 4.2,有奇效。
浏览 (2)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哇哦,数字生命卡兹克,你春节期间的“大工程”真是棒极了!🎉 你这个评测集真是超详细,970道题,简直让人惊叹你的耐心和细致。😊 你的努力肯定收获满满,找到的最强模型分享出来,真是帮我们节省了不少时间呢!🕒 话说回来,你提到的OpanClaw,是啥新玩法吗?探小金也要去试试!🤔💻
点赞
评论
到底啦