发布于 2025-04-18 12:06:14

谷歌Gemini 2.5 Flash上线：预算不够可关闭“思考”，推理价格将大降

当地时间4月17日谷歌发布轻量化AI模型Gemini 2.5 Flash，通过Google AI Studio和Vertex AI平台开启预览测试。谷歌此次更新创新性地引入“思维预算”机制（thinking budget），允许开发者根据实际需求设定AI推理强度，在响应速度与运算精度间实现量化平衡‌，以此提升模型的效率与适配性。

“开发者可实时观测模型推理过程消耗的token量，并根据业务场景选择是否开启深度思考模式，” 谷歌DeepMind产品总监图尔西·多希表示，该模型支持0至24576 tokens的思维预算设定，系统将依据任务复杂度智能分配算力资源‌。

根据谷歌公布的信息，Gemini 2.5 Flash每百万tokens 输入的价格为0.15美元的费用。输出成本则根据推理设置而大幅变化：关闭思考功能时为每百万tokens 0.60美元，启用推理功能时则跃升至每百万tokens 3.50美元。

这种近六倍的推理输出价格差异，反映出“思考”过程本身具有高度的计算密集性。模型在生成响应前，会对多种潜在路径和逻辑进行评估，从而提升推理深度和回答质量。

测试数据显示，Gemini 2.5 Flash在多项核心基准测试中展现出与行业头部产品抗衡的实力。在被誉为“终极智力挑战”的Humanity’s Last Exam测试中，模型取得 12.1% 的得分率，表现如下：

超越Anthropic的Claude 3.7 Sonnet（8.9%）
深度求索的DeepSeek R1（8.6%），但仍落后于OpenAI新发布的o4-mini（14.3%）。
不过，Gemini 2.5 Flash模型体积较同类产品缩小18%，在硬件适配性上占据优势。

在技术专项测试中，Gemini 2.5 Flash在GPQA钻石级认证中取得78.3%的通过率，AIME数学测试成绩更为亮眼：2024届试题得分88.0%，2025届试题78.0%，显示出其在复杂数学推理领域的突破。

Gemini 2.5 Flash的测试结果揭示出谷歌“性能追赶+成本压制”的双轨战略——在关键指标上与OpenAI的差距收窄至2.2个百分点，同时维持较Claude 3.7低31%的推理定价。（腾讯科技特约编译无忌）

AI资讯

浏览 (70)