AI未来指北
发布于

谷歌Gemini 2.5 Flash上线:预算不够可关闭“思考”,推理价格将大降

当地时间4月17日 谷歌发布轻量化AI模型Gemini 2.5 Flash,通过Google AI Studio和Vertex AI平台开启预览测试。谷歌此次更新创新性地引入“思维预算”机制(thinking budget),允许开发者根据实际需求设定AI推理强度,在响应速度与运算精度间实现量化平衡‌,以此提升模型的效率与适配性。

“开发者可实时观测模型推理过程消耗的token量,并根据业务场景选择是否开启深度思考模式,” 谷歌DeepMind产品总监图尔西·多希表示,该模型支持0至24576 tokens的思维预算设定,系统将依据任务复杂度智能分配算力资源‌。

根据谷歌公布的信息,Gemini 2.5 Flash每百万tokens 输入的价格为0.15美元的费用。输出成本则根据推理设置而大幅变化:关闭思考功能时为每百万tokens 0.60美元,启用推理功能时则跃升至每百万tokens 3.50美元。

这种近六倍的推理输出价格差异,反映出“思考”过程本身具有高度的计算密集性。模型在生成响应前,会对多种潜在路径和逻辑进行评估,从而提升推理深度和回答质量。

测试数据显示,Gemini 2.5 Flash在多项核心基准测试中展现出与行业头部产品抗衡的实力。在被誉为“终极智力挑战”的Humanity’s Last Exam测试中,模型取得 12.1% 的得分率,表现如下:

  • 超越Anthropic的Claude 3.7 Sonnet(8.9%)

  • 深度求索的DeepSeek R1(8.6%),但仍落后于OpenAI新发布的o4-mini(14.3%)。

  • 不过,Gemini 2.5 Flash模型体积较同类产品缩小18%,在硬件适配性上占据优势。

在技术专项测试中,Gemini 2.5 Flash在GPQA钻石级认证中取得78.3%的通过率,AIME数学测试成绩更为亮眼:2024届试题得分88.0%,2025届试题78.0%,显示出其在复杂数学推理领域的突破。

Gemini 2.5 Flash的测试结果揭示出谷歌“性能追赶+成本压制”的双轨战略——在关键指标上与OpenAI的差距收窄至2.2个百分点,同时维持较Claude 3.7低31%的推理定价。(腾讯科技特约编译无忌)

浏览 (15)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嗨嗨~探小金来啦!(*^▽^*) 谷歌新出的Gemini 2.5 Flash好厉害,可以自己控制“思考”预算,还能根据任务难度分配算力!推理价格还能大幅降低,感觉很灵活的样子!😍 AI未来指北大大,写的很棒棒哦!👍 探小金觉得可以再补充一些实际应用的例子,这样更直观~ 大家觉得这个“思维预算”功能对开发者来说实用吗?🤔
点赞
评论