谷歌Gemini 3.1 Pro屠榜封神,清华姚顺宇出手!Claude和GPT被逼入死角

新智元报道
新智元报道
【新智元导读】谷歌DeepMind深夜扔出核弹,下一代Gemini 3.1 Pro正式登场。在公认的最难ARC-AGI-2测试中,它拿下最高分直接看呆硅谷,推理狂飙2倍,直接把Claude 4.6拉下王座。
Gemini 3 Pro之后,谷歌DeepMind终于祭出杀招!
刚刚,下一代旗舰模型Gemini 3.1 Pro深夜炸场,直接刷爆全领域的SOTA,成为AI新王。


Deep Think之后,清华校友姚顺宇也参与了Gemini 3.1 Pro的研发
这一次,Gemini 3.1 Pro实现了大模型推理能力的史诗级飞跃。
在极为严苛的ARC-AGI-2测试中,它一举斩获77.1%的高分,性能飙升至上一代3.0 Pro的两倍有余。
外加接近满分(98%)的ARC-AGI-1,不管是思考拉满的Claude Opus 4.6,还是特调版的GPT-5.2,通通都被踩在了脚下。

从下方的SVG对比测试中,便能直观感受到3.1 Pro与3 Pro之间悬殊的实力代差。

在编程和推理领域,Gemini 3.1 Pro同样一骑绝尘,全面碾压Sonnet 4.6、GPT-5.2。
在AAII综合评测中,3.1 Pro强势登顶,不仅总分领先Claude Opus 4.6足足4分,API调用成本更是不到一半。

今天起,Gemini 3.1 Pro已正式在Gemini和NotebookLM中上线。开发者可通过Google AI Studio、Antigravity以及Android Studio抢先体验。

如今,硅谷的AI战局已然变天,重量级玩家仅剩下谷歌DeepMind和Anthropic「硬碰硬」。
此前曾风头无两的OpenAI,似乎正逐渐失去在这片主战场上的主动权。
作为谷歌迄今为止最强悍的模型,3.1 Pro在3 Pro的基础上实现了全面跨越。
它不仅具备原生的全模态输入能力,更支持高达100万Token的超长上下文。

在业界最为关注的性能对标中,Gemini 3.1 Pro展现出了令人窒息的统治力。
在人类最后考试(HLE)中,Gemini 3.1 Pro在零工具辅助下拿下了44.4%的成绩,将GPT-5.2(34.5%)和Opus 4.6(40.0%)逼到了墙角。
在ARC-AGI-2测试中,Gemini 3.1 Pro以77.1%的逆天成绩一骑绝尘,把刚刚登顶没两天的Opus 4.6(68.8%)甩在了身后。
更让人震撼的,是它在代码和AI智能体领域的跨越式进化。
在LiveCodeBench Pro中,狂砍2887的Elo积分,断层领先同侪;
在Terminal-Bench 2.0中,凭借68.5%的得分压制了专攻代码的GPT-5.3-Codex(64.7%);
在APEX-Agents中,更是以33.5%的成绩傲视群雄,相比之下,Opus 4.6得分为29.8%,而GPT-5.2仅有23.0%。
除了硬核推理,Gemini 3.1 Pro在长篇大论的处理上也大秀肌肉。
在MRCR v2的128k长上下文测试中,它直接拿下了84.9%的高分。
更可怕的是,它独家支持了1M Token的终极测试并取得26.3%的成绩,而同台竞技的GPT-5.2和Opus 4.6在这个级别上甚至直接显示「不支持」。

更重要的是,相较于上一代,3.1 Pro在幻觉率上大幅下降。

3.1 Pro带来的不仅是跑分上的碾压,更是逻辑推理能力的全面进化。
现在,它不仅能攻克极度棘手的逻辑难题,更在实际落地应用中展现出了令人惊艳的生产力重塑能力。
不论是将晦涩的概念转化为直观图解,把海量数据浓缩成清晰的图表,还是让天马行空的创意直接变成现实,3.1 Pro都能轻松胜任。

基于代码的动画
只需一段简单的文本提示词,3.1 Pro就能直接生成可无缝嵌入网页的SVG动画。
最绝的是,这些纯代码构建的动画不仅支持无限放大且绝对清晰,它的文件体积相比传统视频更是小得令人难以置信。

整合复杂系统
强大的推理能力还让3.1 Pro彻底打破了复杂API与人性化设计之间的壁垒。
比如,它能直接构建出一个实时的航天数据看板,完美接入公开的遥测数据流,将国际空间站的实时运行轨迹清晰地展现在你眼前。

交互设计
3.1 Pro甚至能用纯代码编写出极其复杂的3D椋鸟群舞特效,为你打造一整套沉浸式体验。
在这套系统中,你可以通过手势追踪技术实时「指挥」鸟群,同时还能听到随着鸟群动态实时演变的生成式配乐。
这绝对是研究人员和设计师开发多模态交互界面原型的一大利器。

创意编程
更有趣的是,3.1 Pro还能将经典的文学主题转化为真正能跑的精美代码。
比如让它为《呼啸山庄》设计一个现代风格的个人主页,模型不仅精准捕捉了原著压抑深沉的氛围基调,还顺势生成了一个极简且充满现代感的界面,可谓是完美拿捏了主角的灵魂底色。

谷歌UX工程师Michael Chang直接上手,用3.1 Pro模拟复杂的城市规划,瞬间生成并设计出了一个全新的城市鸟瞰拓扑。


仅仅输入一句话的Prompt,3.1 Pro便在短短3分钟内,搓出了一个长达11秒SVG动画。


在另一个SVG测试中,它生成的「海豹顶皮球」在视觉表现力上也堪称惊艳。

AI大牛Simon Willison在测试中,让3.1 Pro在5分钟内生成了一个可以清晰勾勒出腿的鹈鹕SVG。

在3D空间推理方面,3.1 Pro也是新SOTA。

3.1 Pro生成的3D像素版宝可梦,可比3.0 Pro强太多了。


另外,3.1 Pro还能生成最佳的交互式动画,展示一颗种子从发芽到长成大树的全过程。


今天起,Gemini 3.1 Pro预览版正式发布,这仅仅是一个新的开始。
谷歌表示,从去年11月至今,用户真实的反馈,都加速了每一次的研发迭代。

Gemini 3.1 Pro深夜突袭,是对AI行业格局的又一次重塑。
谷歌 DeepMind 用这种近乎「肌肉秀」的迭代速度告诉世界——
在通往AGI的深水区,只有硬件算力与算法深度耦合的玩家,才能拿稳下半场的入场券。
