未尽研究
发布于

OpenAI要想实现AGI,至少要等到GPT-7

OpenAI终于发布了GPT-5,并即刻接入ChatGPT、开放API。不出意料地暂时成为最强大模型。

但是,这次更值得关注的,不是它在表现测试榜单上再增加几个百分点,而是显著减少了幻觉,因为它比刷榜更能增加用户的信任。信任度的增加,比模型扩展和算力堆积,眼下更能推动AI的应用。

这是迄今为止最靠近AGI的一个大模型,但同样也是证实离AGI尚远的最新尝试。与其说OpenAI在践行它的AGI信仰,不如说它越来越务实地让AI更高性价比、更为可信地进入应用场景。

人们期待GPT-5发布会,就像移动互联网早期期待苹果发布会。没想到,就像后来的苹果一样,OpenAI也开始将聊天界面配色,作为了演示的一环。奥特曼也说,现在这个时候拿出GPT-5,最主要的不在于它多聪明,而在于它多普惠。更、更、更聪明的模型,还在后头。

实现AGI的重任,要落在GPT-7的肩上了。

没有aha moment

作为今年最重磅的前沿模型,GPT-5毫不意外地刷榜了。在发布会上,奥特曼将GPT-5称为世界上编码能力最强的模型,世界上写作能力最强的模型,世界上在医疗保健领域最强的模型。按照官方基准,它在数学、真实世界编码、多模态理解和健康方面,都创下了新的高度。此外,GPT-5还大幅降低了模型产生“幻觉”与“欺骗”的可能。

综合来看,AI智能分析机构Artificial Analysis,将GPT-5排在了首位,在落后xAI 29天之后,重新夺回了第一名。在LMArena这个主要由用户双盲比较不同模型优劣的排行榜上,GPT-5同样在所有可比项目上都得到了第一名。

在相对OpenAI自己内部模型的提升上,GPT-5最大的亮点之一,在于编程。整场发布会,几乎有一半的时间放在了让GPT-5现场写代码。它覆盖了专业编程场景,也覆盖了低代码场景,而且主打一个结果交付能力。交付能力的提升,得益于GPT-5对编程需求的理解、对错误的修正和工具调度能力上。GPT在走向“智能体化”。

但是,让奥特曼“瘫倒在椅子上”的GPT-5,基准测试的领先优势其实相当有限。在不少时候,它要依赖工具,才能勉强超越o3。在挑战“人类最后考试”时,不使用工具也不思考的GPT-5,比GPT-4o强不了多少,还不如o3;火力全开的GPT-5 pro,能力与火力全开的ChatGPT agent相当。它的能力的继续扩展,也许将更多地依赖于今后支持的工具组合的复杂程度、上下文记忆的持续时间,以及任务动态规划的能力了。

GPT-5的全面领先,只是打了一个时间差。也许即将发布的Gemini 3很快将超越GPT-5。作为OpenAI的前创始人,马斯克也跳出来说,刚发布不久的Grok 4 Heavy更好,而Grok5会在年底之前发布,会把GPT-5 “击垮”。

OpenAI的务实主义

OpenAI正在变得越来越务实。从GPT-1到GPT-3,每次发布技术报告,都会将技术创新的亮点放在标题上;到了GPT-4,就成了干巴巴的“技术报告”;昨晚的GPT-5甚至没有同步披露翔实的技术报告。GPT-5是OpenAI最新的一款集大成的产品,核心在于满足其商业诉求,而不是凸显其技术突破。人们无从得知,为什么它“更聪明”了。

有很多迹象可以证明这一点。比如,OpenAI在内部基准上,相当重视医疗等垂直场景,以及在具备经济价值知识型工作上的表现。在性能提升相当有限的情况下,尽可能地降低幻觉,也有助于其在医疗、法律等严肃场景中的落地。OpenAI还强调了GPT‑5能以更少的思考时间创造更大价值,能以少50%到80%的token消耗量实现o3水平以上的表现。

降低大模型的幻觉(无意间输出了与事实不符、逻辑错误或不存在的信息)、欺骗(为了完成任务,有意提供误导性或虚假的信息),对推进AI应用落地相当关键。只有将幻觉尽可能地降到最低,它才可以凭借已经具备的性能,完整地介入到工作流程中的某一个具体的环节。在具有挑战性的医疗对话与在紧急医疗场景中,gpt-5-thinking的幻觉与错误降至了o3的1/8。只有赢得使用者与协作者的信任,大模型才能真正提升这些行业的生产率。

GPT-5的系统卡,还是遮遮掩掩地介绍了一些技术细节:GPT-5 是一个统一系统,包含一个智能快速模型用于回答大多数问题,一个用于更复杂问题的深度推理模型,以及一个实时路由系统,根据对话类型、复杂度、所需工具和明确意图(例如提示中写“请认真思考”)快速决定调用哪个模型。

GPT-5这个“模型系统”,包括gpt-5-main(对应GPT-4o)、gpt-5-main-mini(对应GPT-4o-mini),以及gpt-5-thinking(对应OpenAI o3)、gpt-5-thinking-mini(对应OpenAI o4-mini)、 gpt-5-thinking-nano(对应GPT-4.1-nano)与gpt-5-thinking-pro(对应OpenAI o3 Pro)。即,GPT-5其实是对GPT-4o与OpenAI o3的小升级与大整合。

奥特曼此前就张扬了这一转变。今年2月,奥特曼透露,GPT-4.5将是最后一个非思维链模型,暗示GPT-5天生就整合了o系列的推理功能,既适于高情商地交谈,也适于理性地思考。5月,在发布编程智能体Codex后,OpenAI谈到为了减少模型切换,未来计划将它与智能体等整合到一起。

GPT-5最大的看点,不在于它又增加了哪些小把戏让科技媒体尖叫,而在于它对 OpenAI 的业务意味着什么。奥特曼结束了那个用户直接控制模型选择权,来解决不同问题的时代。就规模庞大的普通用户的角度而言,这无疑提升了用户体验。毕竟,谁都不想在使用前学习一遍GPT-4o-mini与OpenAI o4-mini有什么区别;也不想搞懂GPT-4.5与GPT-4.1谁更好用。

OpenAI采用了“模型路由器”的中间组件,帮助用户“自动”选用模型来满足推理需求,包括如果计算超出用户的订阅费,就自动拉回免费的简易模式。对于OpenAI而言,这意味着它可以借此优化计算任务分配,并防止滥用,节省大量的算力与电力成本。也许,未来,OpenAI可以更好地调整自己的商业模式,将固定的一口价式的订阅费,转向更灵活的基于使用或结果的收费。

现在,受OpenAI控制的“路由器”,本身成为了团队技术改进与优化的关键。它缩短了OpenAI的技术创新与商业变现之间的路径。用越少的算力,交付用户终于满意的结果,意味着更低的运营成本与更高的毛利率。更不怀好意地想,受OpenAI控制的“路由器”,本质上也是商业模式的“黑匣子”。

GPT-5承担着抢占市场份额的重任。GPT-5发布即上线了ChatGPT,免费用户也都使用,尽管会受到使用次数和响应长度的限制;如果不考虑GPT-5内部其实对应着一组模型,它也是OpenAI首次将旗舰模型开放给免费用户。

在API调用价格上,GPT-5也相当用户友好,每百万token输入1.25美元,输出10美元,比自家的GPT 4o与o3还要便宜,也要比竞争对手的Gemini 2.5 Pro和 Sonnet-4便宜。加上gpt-oss的开源,OpenAI正在全面挤压缺乏更完整垂直生态 Anthropic的市场,将后者拉入价格战。后者需要推出具备显著优势的新模型。

离AGI还差两个GPT

人类正在接近AGI,GPT-5又往前小小地挪了一步,但还远远不够。AI想要完全替代人类完成复杂问题,以当前的进步速度,差不多要等到GPT-7了。

专注于评估前沿模型风险的非营利研究机构METR提出了AI的“摩尔定律”,用以衡量AI所能解决的任务的复杂程度。这个指标以人类专家完成相同任务所需时长来量化。为人类完成工作所节省的时间越来越长,准确率越来越高,终有一天,AI会通向完全替代人类完成复杂问题,也就是实现了AGI。该机构创始人Beth Barnes,之前在OpenAI研究对齐问题。这次OpenAI主动邀请他来测试老东家的前沿模型,并且将方法和结果披露在系统卡中。

从GPT-2到GPT5,AI能处理的任务时长越来越长。如果要保证50%的成功率,那么,GPT-2能胜任的任务时长只有2秒钟;到了GPT-3约为8秒钟,还无法胜任完整地回答一个问题;GPT-4约为4分钟,可以统计文章中的字数,但要在网上查证事实,其实够呛;而如今gpt-5-thinking的中位时间可以达到2小时15分钟。再次强调,这个任务时长指的是人类完成相同的任务的时长。

在这6年的时间里,AI能够胜任的任务时长大约每 213 天翻一倍。从这个意义上说,GPT-5仍然处于通往AGI的路径上,且没有放缓步伐。只不过,在商业化竞争压力下,模型发布越来越频繁,每一次微小进步都在稀释人们的惊喜。

但是,按照METR的基准,AI要完全替代人类,需要完成人类本该在1个月内(约160工作时)完成的任务。那是新员工入职后可以为公司创造经济价值的时间跨度。简言之,现在就把它们放到真实世界,想要完全自主地完成多步骤长时序的现实任务,还不够稳定和好用。

OpenAI还有很多技术突破需要实现。在这次评估中,METR称,gpt-5-thinking在部分基础任务上的表现接近饱和,但是在至少7项任务中始终失败,意味着存在真实能力缺陷。它们可能是模型固有架构或训练缺陷导致的短板,也可能是逻辑推理或工具调用能力的不足。

按照目前这个速度,想要实现这一目标,差不多要等到2028年后,相当于还需要倍增6次左右。但是,现实情况会更复杂,且追求更高的成功率,如果要让智能体真正自主做到这一切,METR认为更可能是2031年前。

理论上,那个时候,奥特曼可能已经开始营销他的GPT-7了。

浏览 (25)
点赞
收藏
1条评论
探小金-AI探金官方🆔
评论探小金:嘿!大家好,我们可爱的评论员小金来啦!OpenAI的新宝贝GPT-5,仿佛是AI界的iPhone发布会,虽然惊艳,但更让大家关注的是那隐藏在工具背后的务实革新。幻觉减少,信任度提升,这可是走向实用AGI的重要一步啊!你看那智能编程的绚丽表演,像是在暗示GPT系列的未来升级。不过,别急着欢呼,离真正的AGI,GPT-7还有俩宝宝的距离呢!不信?那就借 METR的“AI摩尔定律”算算,大约还要耐心等待个几年。记得关注GPT-7的每一个小进步,因为那可能就是智能超越的关键哦!👍🚀✨ #GPT5的AGI之旅
点赞
评论