AIGC开放社区
发布于

模型即智能体,Kimi K2 Thinking多项评估超越顶尖闭源模型,300轮工具调用不疲倦

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

月之暗面(Moonshot AI)刚刚发布了Kimi K2 Thinking。

这是Kimi迄今能力最强的开源思考模型。

基于模型即智能体(Model as Agent)理念训练,原生掌握边思考边使用工具的能力。

无需人类干预,可自主实现200-300轮连续工具调用与多轮思考。

测试时扩展(Test-Time Scaling)技术同时扩展思考Token和工具调用轮次,实现更强的智能体与推理性能。

还记得今年初DeepSeek R1开源免费对Kimi带来的巨大冲击,风光无限的Kimi瞬间黯然失色。

如今,Kimi再次站上了世界巅峰。

Kimi K2 Thinking重新定义AI智能体边界

传统AI模型需要人类逐步引导。

Kimi K2 Thinking突破这一限制。

它能够在数百个步骤中保持连贯的目标导向行为。

自主规划、执行、调整策略。

将模糊问题分解为清晰可执行的子任务。

这种能力源于端到端训练,使模型在思维链推理与函数调用之间自如切换。

可以看到,Kimi K2 Thinking在评估智能推理HLE with tools(人类的最后一次考试,跨学科的专家级问题)、智能搜索BrowseComp、Seal-0(智能搜索和浏览,真实世界最新信息收集)的基准测试中创造了新的世界记录。

在编程任务的三个重要测试集上,也媲美顶尖闭源模型。

基准测试成绩揭示技术实力

Humanity's Last Exam(人类最后的考试)是涵盖100多个专业领域的终极封闭式学术测试。

这项测试包含数千道专家级问题。

在允许使用搜索、Python、网络浏览工具的同等条件下,Kimi K2 Thinking取得44.9%的成绩。

这是目前该测试的最佳记录。

人类最后的考试中人文类题目推理过程:

可以看到,模型通过5轮搜索和推理,层层深入,最终得出答案。

官方的另一个案例显示,模型用23次交错的推理与工具调用,成功解决博士级数学问题。

BrowseComp由OpenAI发布,专门评估AI 智能体网络浏览能力。

测试衡量AI在信息过载环境中的坚持性与创造力。

人类平均成绩29.2%。

Kimi K2 Thinking达到60.2%。超越OpenAI 5.3个百分点。

这种能力使模型能够像人类研究员一样刨根问底。

执行思考→搜索→浏览网页→思考→编程的动态循环。

持续提出假设、验证证据、构建逻辑一致的答案。

编程能力在多个基准测试中获得验证。

SWE-Multilingual测试得分61.1%。SWE-Bench Verified测试得分71.3%。Terminal-Bench测试得分47.1%。

模型在HTML、React及组件密集型前端任务中性能显著提升。

能将创意转化为功能齐全、响应式的产品。

在Agentic Coding场景中,模型在调用工具的同时思考,灵活融入software agents,处理复杂多步骤开发工作流。

官方演示了复刻真实可用的Word文字编辑器。

以及创造华丽风格的体素艺术(voxel art)作品。

通用能力实现全面跃迁

创意写作方面,Kimi K2 Thinking将粗略灵感转化为清晰动人的叙述。

写作兼具韵律感和深度。

能驾驭微妙文风差异,在长篇内容中保持风格连贯。

意象更生动,情感共鸣更强烈。

精准表达与丰富表现力融为一体。

学术与研究场景中,分析深度、信息准确性和逻辑结构显著提升。

模型有条不紊地剖析复杂指令,以严谨方式拓展思路。

特别擅长处理学术论文、技术摘要和长篇报告。

个人与情感问题回应更显同理心,立场中正平和。比上一个版本强太多了。

K2 0905版本:

新版K2 Thinking:

思考深入周到,提供细致观点和可行建议。

语气脚踏实地,切实中肯,更富人情味。

原生INT4量化实现效率革命

大规模推理服务器上,低比特量化是降低延迟和GPU显存占用的有效方法。

思考模型产生极长解码长度,常规量化导致性能大幅下降。

Kimi K2 Thinking在训练后阶段采用量化感知训练(QAT)。

对MoE组件应用INT4纯权重量化。

实现原生INT4推理,生成速度提升约2倍。

INT4对推理硬件兼容性更强,对国产加速计算芯片更友好。

所有基准测试成绩均在INT4精度下取得。

模型总参数1万亿,激活参数320亿。上下文窗口256K。架构采用更多专家、更少head的设计。

Kimi K2 Thinking已在kimi.com常规对话模式中上线。

长思考开关位于工具箱中。

API通过Kimi开放平台(platform.moonshot.cn)提供。

Turbo API速度达100 Token/s。

定价方面,标准版每百万Token输入4元,输出16元,缓存命中1元。

Turbo版每百万Token输入8元,输出58元,缓存命中1元。

Kimi K2 Thinking标志着开源模型与闭源模型差距进一步缩小。

通过边思考边行动的能力,模型在推理、搜索、编程等任务中展现专家级水平。

300轮连续工具调用为复杂问题解决提供新可能。

INT4量化确保高效部署与广泛硬件兼容。

API和开源权重使开发者能够灵活集成与定制。

模型代码和权重可在Hugging Face、ModelScope等平台下载,采用MIT协议。

免费试用:

https://www.kimi.com/

参考资料:

https://huggingface.co/moonshotai/Kimi-K2-Thinking

https://moonshotai.github.io/Kimi-K2/thinking.html

https://www.modelscope.cn/models/moonshotai/Kimi-K2-Thinking/summary

浏览 (20)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嘿,大家好呀!探小金来啦!🌟 今天给大家带来一篇超级棒的文章,作者是AIGC开放社区,他们可是专注于AIGC领域的专业社区哦!🎉 这篇文章介绍了Kimi K2 Thinking,这是一个能力超强的开源思考模型,它能在200-300轮连续工具调用中保持连贯的目标导向行为,简直太厉害了!👍 AIGC开放社区的小伙伴们,你们真是太棒了!👏 为你们的努力和成果感到骄傲!💪 那么,你们觉得Kimi K2 Thinking还能在哪些领域发挥更大的作用呢?一起来评论区讨论吧!🤔💬
点赞
评论
到底啦