AI 下半场,LLM Benchmark 要补全什么?
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。

当前,LLM 评测的通用榜单和常用基准陆续暴露出区分度下降、评审口径波动与数据污染等问题,促使业界愈发重视 LLM 评测体系有效性的提升。在此背景下,业界对 LLM Benchmark 本身的可靠性与寿命管理关注度提升,围绕评测可区分性、长期有效性与可信度等关键问题,一批相关研究工作正进一步展开。
目录
01. LLM Benchmark「又」 不够用了?
LMArena 排名是进步指标还是情绪投票?AI 下半场需要什么样的评估指标?...
为什么大量 LLM Benchmark 会在短时间内快速饱和?隐藏测试集无法有效延长 Benchmark 的寿命?...
LLM 可以学会预训练之外的新规则吗?长程任务完成依旧是当前 LLM 评测的难点?...
LLM Benchmark「又」 不够用了?
1、2026 年 1 月,大模型评测平台 Arena (曾用名 Chatbot Arena、LM Arena)宣布完成 1.5 亿美元融资、投后估值约 17 亿美元,引起了 AI 社区的诸多讨论。[1-1]
① 融资资金将用于大规模扩充计算资源、招聘顶级工程师,并推出企业级 AI 评估服务。投资者、Felicis 合伙人 Peter Deng 在采访中指出,一旦成为事实上的基准层,产品化将是顺理成章的演进。
② Arena 最初是 UC Berkeley 等团队为测试开源模型水平而创建的实验性项目,其核心特征在于通过真实用户参与的匿名模型对(Model Pairs)比较机制,对模型输出进行偏好评估,后来逐步发展为全球最具影响力的 AI 模型评测平台之一。
2、针对该轮融资,AI 社区中有观点认为 Arena 已成为「比较模型体验的公共层」,融资只是将这层公共能力进一步产品化和工程化。但也有声音担心融资过后该平台会被「更讨喜的表达风格」影响,从而削弱其作为行业基准的公信力。[1-2][1-3]
3、商业化进程之外,业界近期对 Arena 的讨论还涉及到平台机制在评估偏好、可操纵性和公平性等方面的问题,且质疑这种基于人类偏好的成对评估机制并不足以用来评估当前 LLM 真正的能力。[1-4]
① 今年 2 月,软件开发公司 JetBrains 的数据科学家 Jodie Burchell 发表了一篇博文,指出虽然 Arena 虽然比传统的刷分基准测试更有趣,但由于其评估标准过于主观、容易被操纵且偏向资源雄厚的巨头,它正逐渐失去作为科学评估工具的公信力。[1-5]
② 研究者认为这种基于 Vibes-based 的评估缺乏科学严谨性,主要存在用户行为的不可控性、对开源/学术模型的不公平、 「好」的定义模糊不清等问题。[1-5]
4、包含 Arena 在内,在当前 LLM 能力快速迭代的趋势下,业界一直在探索更好的评估体系,Benchmark 作为衡量 LLM 性能的定量评估工具,同样扮演了引导 LLM 发展方向、促进技术创新的核心要素,乃至被认为是 AI 下半场的重要研究方向。[1-10]
① 现任腾讯「CEO / 总裁办公室」首席 AI 科学家的姚顺雨在去年 4 月发表的《The Second Half》中提出,当一个通用训练配方能够在多个任务上持续「爬坡」,做更难的题,然后刷新分数,最后证明进步的循环会越来越快地饱和,于是竞争的核心将从「解决问题」转向「定义问题」,而评估会变得比训练更重要。[1-6]
5、在此背景下,业界始终在尝试建立更科学的评估范式。然而在密集的探索和实践过程中,不少研究者发现现有 Benchmark 体系不仅存在评测任务和真实使用场景脱节、测试过程缺乏统一规范且易受人为操作影响等问题,公开题库在高分段的区分度也在持续下降。
① 2025 年 3 月,社区内有用户认为模型密集发布期间 Benchmark 往往只覆盖「易评分」的题型,而真实的 AI 使用场景更接近「协作与多轮迭代」,导致模型优化目标向「刷分」偏移,榜单表现与用户真实体验严重脱节。[1-7]
② 同年 9 月,社区内部分用户认为 LLM Benchmark 测试存在 cherry-pick、训练污染、方法口径不统一、参数调到最好看、复现代码不公开、API 质量波动等问题,最终可能导致下游使用者的判断有误。[1-8]
③ 到去年年末,美团 LongCat 团队指出,在 AIME 等高难度数学评测上,顶尖模型的得分已进入极高区间,公开题库的污染风险令测试的区分度进一步下降。[1-9]
LLM Benchmark 的研究重心有何转变?
1、随着 LLM 能力深度和广度的快速扩展,相应 Benchmark 的数量在不断增加,评估范式也从单任务走向多任务、多领域,并逐步覆盖更复杂、更应用导向的评估场景。[1-10] ...