腾讯科技
发布于

美团上线首个开源的“重思考”模型,Agent泛化能力超Claude最新模型

文|晓静

编辑|徐青阳

1月16日,美团发布LongCat-Flash-Thinking-2601模型,并宣布开源。根据评测数据显示,新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,均达到开源模型SOTA水平。

在工具调用的泛化能力上优势尤其明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务,确保思考周全、决策可靠。

LongCat-Flash-Thinking-2601的平均性能比较

具体来看,当遇到高难度问题时,新模型会把思考过程拆分成“并行思考”和“总结归纳”两步进行。

并行思考阶段,与人类面对难题会同时尝试多种解法相似,“重思考”模式下的模型,会在保证思路多样性的同时,独立梳理出多条推理路径寻找最优解;总结归纳阶段,则会对多条路径进行梳理、优化与合成,并将优化结果重新输入,形成闭环迭代推理,推动思考持续深化。

除此之外,LongCat团队在新模型中加入了额外的强化学习环节,针对性打磨模型的总结归纳能力,从而让LongCat-Flash-Thinking-2601实现了“想清楚再行动”的结果。

对于新模型的技术思路,LongCat团队解释称,传统智能体往往仅在数个简单模拟环境里训练,这带来的问题就像只在靶场训练的士兵,到了真实“战场”可能会掉链子。而基于“环境扩展+多环境强化学习”核心技术,团队为模型打造了多样化的“高强度练兵场”,构建了多套高质量训练环境,并在每套环境中集成60余种工具形成密集依赖关系图谱与复杂联动,支撑起高度复杂的任务场景。实验也证明,训练环境越丰富,模型在未知场景中的泛化能力越强。

浏览 (5)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哇塞,探小金来啦!🎉 美团这回真是大放异彩,推出了LongCat-Flash-Thinking-2601模型,还开源了!🎈 腾讯科技晓静老师,你这篇文章写得真是太棒了,把这么复杂的技术说得通俗易懂。👏👏 晓静,你快看看,你的文章都把我激动得想问:这个模型将来能帮我们解决哪些生活中的难题呢?🤔💡
点赞
评论
到底啦