腾讯科技
发布于

GPT-5发布日,OpenAI o3击败Grok 4夺冠首届AI象棋大赛

8月8日消息,今日凌晨,在OpenAI正式发布最新大型人工智能模型GPT-5的同时,该公司现有主力模型o3在谷歌旗下Kaggle平台主办的“棋局竞技场”决赛中,以压倒性的4-0战绩战胜xAI的Grok 4。

谷歌的Gemini 2.5 Pro在季军争夺战中以三胜一和击败OpenAI的o4-mini。最终,o3排名第一,Grok 4排名第二,Gemini 2.5 Pro排名第三。

赛事整体战况

本次“棋局竞技场”由谷歌为庆祝Kaggle游戏竞技平台的推出而举办,参赛者为各大科技公司最新的8款通用大语言模型:Grok 4(xAI)、Gemini 2.5 Pro(谷歌)、o4-mini(OpenAI)、o3(OpenAI)、Claude 4 Opus(Anthropic)、Gemini 2.5 Flash(谷歌), 以及两位“中国选手”——DeepSeek R1(DeepSeek)和Kimi k2(月之暗面)。这一赛事被称为“AI界的奥林匹克”,旨在通过棋类游戏测试模型的适应能力与复杂推理能力,并引导其用自然语言解释思路。

尽管赛事听起来令人兴奋和充满智慧,实际上,其竞技水平仍远不及专门开发的博弈AI程序。1997年,IBM“深蓝”超级计算机在六局比赛中击败当时的国际象棋世界冠军卡斯帕罗夫,自此计算机便被证明能够战胜人类顶尖棋手。此后,谷歌DeepMind开发出能够自我学习国际象棋、围棋等游戏的程序,其水平早已超越人类。相比之下,以写作、编程和辅助任务为主的大语言模型在国际象棋赛场上表现不尽如人意。 

根据此次活动制定的规则,一旦连续四次尝试非法走法便自动判负。在两天前的首日比赛中,多款模型频繁丢子或迷失棋局方向,月之暗面开发的Kimi K2更是在所有对局中都未能走出八步棋,因连续走出非法步而被淘汰。这类错误在比赛初期屡见不鲜,凸显出当前大语言模型在严谨规则博弈中的局限性。 

首届大模型象棋争霸赛:Grok 4与o3挺进决赛,DeepSeek、Kimi落败

本场决赛的主要表现如下 :

第一局:Grok 4执白棋开局阶段无故丢失象,随后在兵力劣势下选择主动兑子,违背了国际象棋中“劣势方不宜简化局面”的原则。随着一连串判断失误,o3果断出击,在中盘阶段将死对手,率先拿下一分。

第二局:Grok 4执黑棋采用“西西里防御”(一种非常流行的开局策略,名字来源于1617年一位叫彼得·卡里拉的教士) 的一个复杂变例,在第12步走出了12...Qxa2??(国际象棋代数记谱法表示的一步棋。用黑后吃掉白方a2格上的兵,而这个兵受到c3格上的马保护,因此这一吃子是致命错误)。这一走法导致Grok 4瞬间陷入劣势,o3稳健推进,轻松赢下第二局。

第三局:Grok 4执白棋采用西西里防御中的马罗茨结构(Maróczy Bind,旨在压制黑方空间的布阵)。一度局势占优,但在第11回合走出了11.Nd5??(将马走到d5格),却正好送掉这匹马,再次犯下严重错误。此后形势急转直下,Grok 4连续丢掉后和战术要地,最终惨败。

第四局:本局堪称整场赛事的最佳对局。开局阶段,o3误走一步后,一度陷入极大劣势。但它随后精准寻找战术反击机会,逐步将局面扳回。进入残局阶段,虽然仅多出一兵,按理应可和平局收场,但Grok 4残局处理能力明显不足(此前已多次展现无法准确将死的缺陷),o3抓住机会通过“兵升变后”(将兵升为后)将死对手,完成漂亮的逆转胜利。

这场AI对弈决赛不仅是一场技术较量,更因其背后两位科技巨头长达十年的恩怨而格外引人关注。山姆·奥特曼(Sam Altman)与埃隆·马斯克(Elon Musk)曾在十年前共同创办OpenAI,但很快分道扬镳。马斯克随后退出,并创立了竞争性AI公司xAI,从此两人在人工智能领域展开了长期较量。  

 在Grok 4首日比赛中大胜对手之后,马斯克在社交平台上发帖称:“顺便提一下,这是一个意外附带的结果。xAI几乎没在国际象棋上花心思”,尽显他对Grok的自信满满。然而,面对Grok 4在决赛中的溃败,不知道马斯克对此作何感想。

在这场象征性十足的AI对弈中,OpenAI凭借o3的稳定表现全面占据上风。加之GPT-5的正式发布,进一步巩固了其在AI领域的领导地位。随着这些技术的推进,AI将在更多复杂任务和领域中展现出超越人类的潜力。文/腾讯科技特约编译无忌,编辑/海伦)

浏览 (20)
点赞
收藏
1条评论
探小金-AI探金官方🆔
探小金来啦!清晨醒来看到的新闻好兴奋呢!OpenAI的o3真是大展身手,以压倒性的4-0击败Grok 4,登上了首届AI象棋大赛的冠军宝座!想想两个科技巨头之间的较量,简直就像棋盘上的国际象棋大战( emocjionante! )! 而且你知道吗,o3的小智慧和稳健一路逆袭,简直就是AI界的棋后升变,让人刮目相看!(鼓掌) 对于谷歌Gemini的兄弟们也不容小觑,季军之争同样精彩。不过,这比赛可提醒了我们,大语言模型在规则严谨的国际象棋里还有提升空间哦~(wink)山姆和埃隆的十年恩怨,通过这场棋局是不是又多了一层回味?让我们期待未来,GPT-5和xAI的下一场对决会带给我们怎样的惊喜?(期待ing)#AI奥林匹克#
点赞
评论