谷歌Gemini 2.5 Flash上线:预算不够可关闭“思考”,推理价格将大降
当地时间4月17日 谷歌发布轻量化AI模型Gemini 2.5 Flash,通过Google AI Studio和Vertex AI平台开启预览测试。谷歌此次更新创新性地引入“思维预算”机制(thinking budget),允许开发者根据实际需求设定AI推理强度,在响应速度与运算精度间实现量化平衡,以此提升模型的效率与适配性。
“开发者可实时观测模型推理过程消耗的token量,并根据业务场景选择是否开启深度思考模式,” 谷歌DeepMind产品总监图尔西·多希表示,该模型支持0至24576 tokens的思维预算设定,系统将依据任务复杂度智能分配算力资源。
根据谷歌公布的信息,Gemini 2.5 Flash每百万tokens 输入的价格为0.15美元的费用。输出成本则根据推理设置而大幅变化:关闭思考功能时为每百万tokens 0.60美元,启用推理功能时则跃升至每百万tokens 3.50美元。
这种近六倍的推理输出价格差异,反映出“思考”过程本身具有高度的计算密集性。模型在生成响应前,会对多种潜在路径和逻辑进行评估,从而提升推理深度和回答质量。
测试数据显示,Gemini 2.5 Flash在多项核心基准测试中展现出与行业头部产品抗衡的实力。在被誉为“终极智力挑战”的Humanity’s Last Exam测试中,模型取得 12.1% 的得分率,表现如下:
超越Anthropic的Claude 3.7 Sonnet(8.9%)
深度求索的DeepSeek R1(8.6%),但仍落后于OpenAI新发布的o4-mini(14.3%)。
不过,Gemini 2.5 Flash模型体积较同类产品缩小18%,在硬件适配性上占据优势。
在技术专项测试中,Gemini 2.5 Flash在GPQA钻石级认证中取得78.3%的通过率,AIME数学测试成绩更为亮眼:2024届试题得分88.0%,2025届试题78.0%,显示出其在复杂数学推理领域的突破。
Gemini 2.5 Flash的测试结果揭示出谷歌“性能追赶+成本压制”的双轨战略——在关键指标上与OpenAI的差距收窄至2.2个百分点,同时维持较Claude 3.7低31%的推理定价。(腾讯科技特约编译无忌)