发布于 2小时前

AI 下半场，LLM Benchmark 要补全什么？

本文来自PRO会员通讯内容，文末关注「机器之心PRO会员」，查看更多专题解读。

当前，LLM 评测的通用榜单和常用基准陆续暴露出区分度下降、评审口径波动与数据污染等问题，促使业界愈发重视 LLM 评测体系有效性的提升。在此背景下，业界对 LLM Benchmark 本身的可靠性与寿命管理关注度提升，围绕评测可区分性、长期有效性与可信度等关键问题，一批相关研究工作正进一步展开。

01. LLM Benchmark「又」不够用了？

LMArena 排名是进步指标还是情绪投票？AI 下半场需要什么样的评估指标？...

02. LLM Benchmark 的研究重心有何转变？

为什么大量 LLM Benchmark 会在短时间内快速饱和？隐藏测试集无法有效延长 Benchmark 的寿命？...

03. 近期的 LLM Benchmark 研究在补什么？

LLM 可以学会预训练之外的新规则吗？长程任务完成依旧是当前 LLM 评测的难点？...

LLM Benchmark「又」不够用了？

1、2026 年 1 月，大模型评测平台 Arena （曾用名 Chatbot Arena、LM Arena）宣布完成 1.5 亿美元融资、投后估值约 17 亿美元，引起了 AI 社区的诸多讨论。[1-1]

① 融资资金将用于大规模扩充计算资源、招聘顶级工程师，并推出企业级 AI 评估服务。投资者、Felicis 合伙人 Peter Deng 在采访中指出，一旦成为事实上的基准层，产品化将是顺理成章的演进。

② Arena 最初是 UC Berkeley 等团队为测试开源模型水平而创建的实验性项目，其核心特征在于通过真实用户参与的匿名模型对（Model Pairs）比较机制，对模型输出进行偏好评估，后来逐步发展为全球最具影响力的 AI 模型评测平台之一。

2、针对该轮融资，AI 社区中有观点认为 Arena 已成为「比较模型体验的公共层」，融资只是将这层公共能力进一步产品化和工程化。但也有声音担心融资过后该平台会被「更讨喜的表达风格」影响，从而削弱其作为行业基准的公信力。[1-2][1-3]

3、商业化进程之外，业界近期对 Arena 的讨论还涉及到平台机制在评估偏好、可操纵性和公平性等方面的问题，且质疑这种基于人类偏好的成对评估机制并不足以用来评估当前 LLM 真正的能力。[1-4]

① 今年 2 月，软件开发公司 JetBrains 的数据科学家 Jodie Burchell 发表了一篇博文，指出虽然 Arena 虽然比传统的刷分基准测试更有趣，但由于其评估标准过于主观、容易被操纵且偏向资源雄厚的巨头，它正逐渐失去作为科学评估工具的公信力。[1-5]

② 研究者认为这种基于 Vibes-based 的评估缺乏科学严谨性，主要存在用户行为的不可控性、对开源/学术模型的不公平、「好」的定义模糊不清等问题。[1-5]

4、包含 Arena 在内，在当前 LLM 能力快速迭代的趋势下，业界一直在探索更好的评估体系，Benchmark 作为衡量 LLM 性能的定量评估工具，同样扮演了引导 LLM 发展方向、促进技术创新的核心要素，乃至被认为是 AI 下半场的重要研究方向。[1-10]

① 现任腾讯「CEO / 总裁办公室」首席 AI 科学家的姚顺雨在去年 4 月发表的《The Second Half》中提出，当一个通用训练配方能够在多个任务上持续「爬坡」，做更难的题，然后刷新分数，最后证明进步的循环会越来越快地饱和，于是竞争的核心将从「解决问题」转向「定义问题」，而评估会变得比训练更重要。[1-6]

5、在此背景下，业界始终在尝试建立更科学的评估范式。然而在密集的探索和实践过程中，不少研究者发现现有 Benchmark 体系不仅存在评测任务和真实使用场景脱节、测试过程缺乏统一规范且易受人为操作影响等问题，公开题库在高分段的区分度也在持续下降。

① 2025 年 3 月，社区内有用户认为模型密集发布期间 Benchmark 往往只覆盖「易评分」的题型，而真实的 AI 使用场景更接近「协作与多轮迭代」，导致模型优化目标向「刷分」偏移，榜单表现与用户真实体验严重脱节。[1-7]

② 同年 9 月，社区内部分用户认为 LLM Benchmark 测试存在 cherry-pick、训练污染、方法口径不统一、参数调到最好看、复现代码不公开、API 质量波动等问题，最终可能导致下游使用者的判断有误。[1-8]

③ 到去年年末，美团 LongCat 团队指出，在 AIME 等高难度数学评测上，顶尖模型的得分已进入极高区间，公开题库的污染风险令测试的区分度进一步下降。[1-9]

LLM Benchmark 的研究重心有何转变？

1、随着 LLM 能力深度和广度的快速扩展，相应 Benchmark 的数量在不断增加，评估范式也从单任务走向多任务、多领域，并逐步覆盖更复杂、更应用导向的评估场景。[1-10] ...

AI资讯

浏览 (1)