发布于 22天前

OpenAI要想实现AGI，至少要等到GPT-7

OpenAI终于发布了GPT-5，并即刻接入ChatGPT、开放API。不出意料地暂时成为最强大模型。

但是，这次更值得关注的，不是它在表现测试榜单上再增加几个百分点，而是显著减少了幻觉，因为它比刷榜更能增加用户的信任。信任度的增加，比模型扩展和算力堆积，眼下更能推动AI的应用。

这是迄今为止最靠近AGI的一个大模型，但同样也是证实离AGI尚远的最新尝试。与其说OpenAI在践行它的AGI信仰，不如说它越来越务实地让AI更高性价比、更为可信地进入应用场景。

人们期待GPT-5发布会，就像移动互联网早期期待苹果发布会。没想到，就像后来的苹果一样，OpenAI也开始将聊天界面配色，作为了演示的一环。奥特曼也说，现在这个时候拿出GPT-5，最主要的不在于它多聪明，而在于它多普惠。更、更、更聪明的模型，还在后头。

实现AGI的重任，要落在GPT-7的肩上了。

没有aha moment

作为今年最重磅的前沿模型，GPT-5毫不意外地刷榜了。在发布会上，奥特曼将GPT-5称为世界上编码能力最强的模型，世界上写作能力最强的模型，世界上在医疗保健领域最强的模型。按照官方基准，它在数学、真实世界编码、多模态理解和健康方面，都创下了新的高度。此外，GPT-5还大幅降低了模型产生“幻觉”与“欺骗”的可能。

综合来看，AI智能分析机构Artificial Analysis，将GPT-5排在了首位，在落后xAI 29天之后，重新夺回了第一名。在LMArena这个主要由用户双盲比较不同模型优劣的排行榜上，GPT-5同样在所有可比项目上都得到了第一名。

在相对OpenAI自己内部模型的提升上，GPT-5最大的亮点之一，在于编程。整场发布会，几乎有一半的时间放在了让GPT-5现场写代码。它覆盖了专业编程场景，也覆盖了低代码场景，而且主打一个结果交付能力。交付能力的提升，得益于GPT-5对编程需求的理解、对错误的修正和工具调度能力上。GPT在走向“智能体化”。

但是，让奥特曼“瘫倒在椅子上”的GPT-5，基准测试的领先优势其实相当有限。在不少时候，它要依赖工具，才能勉强超越o3。在挑战“人类最后考试”时，不使用工具也不思考的GPT-5，比GPT-4o强不了多少，还不如o3；火力全开的GPT-5 pro，能力与火力全开的ChatGPT agent相当。它的能力的继续扩展，也许将更多地依赖于今后支持的工具组合的复杂程度、上下文记忆的持续时间，以及任务动态规划的能力了。

GPT-5的全面领先，只是打了一个时间差。也许即将发布的Gemini 3很快将超越GPT-5。作为OpenAI的前创始人，马斯克也跳出来说，刚发布不久的Grok 4 Heavy更好，而Grok5会在年底之前发布，会把GPT-5 “击垮”。

OpenAI的务实主义

OpenAI正在变得越来越务实。从GPT-1到GPT-3，每次发布技术报告，都会将技术创新的亮点放在标题上；到了GPT-4，就成了干巴巴的“技术报告”；昨晚的GPT-5甚至没有同步披露翔实的技术报告。GPT-5是OpenAI最新的一款集大成的产品，核心在于满足其商业诉求，而不是凸显其技术突破。人们无从得知，为什么它“更聪明”了。

有很多迹象可以证明这一点。比如，OpenAI在内部基准上，相当重视医疗等垂直场景，以及在具备经济价值知识型工作上的表现。在性能提升相当有限的情况下，尽可能地降低幻觉，也有助于其在医疗、法律等严肃场景中的落地。OpenAI还强调了GPT‑5能以更少的思考时间创造更大价值，能以少50%到80%的token消耗量实现o3水平以上的表现。

降低大模型的幻觉（无意间输出了与事实不符、逻辑错误或不存在的信息）、欺骗（为了完成任务，有意提供误导性或虚假的信息），对推进AI应用落地相当关键。只有将幻觉尽可能地降到最低，它才可以凭借已经具备的性能，完整地介入到工作流程中的某一个具体的环节。在具有挑战性的医疗对话与在紧急医疗场景中，gpt-5-thinking的幻觉与错误降至了o3的1/8。只有赢得使用者与协作者的信任，大模型才能真正提升这些行业的生产率。

GPT-5的系统卡，还是遮遮掩掩地介绍了一些技术细节：GPT-5 是一个统一系统，包含一个智能快速模型用于回答大多数问题，一个用于更复杂问题的深度推理模型，以及一个实时路由系统，根据对话类型、复杂度、所需工具和明确意图（例如提示中写“请认真思考”）快速决定调用哪个模型。

GPT-5这个“模型系统”，包括gpt-5-main（对应GPT-4o）、gpt-5-main-mini（对应GPT-4o-mini），以及gpt-5-thinking（对应OpenAI o3）、gpt-5-thinking-mini（对应OpenAI o4-mini）、 gpt-5-thinking-nano（对应GPT-4.1-nano）与gpt-5-thinking-pro（对应OpenAI o3 Pro）。即，GPT-5其实是对GPT-4o与OpenAI o3的小升级与大整合。

奥特曼此前就张扬了这一转变。今年2月，奥特曼透露，GPT-4.5将是最后一个非思维链模型，暗示GPT-5天生就整合了o系列的推理功能，既适于高情商地交谈，也适于理性地思考。5月，在发布编程智能体Codex后，OpenAI谈到为了减少模型切换，未来计划将它与智能体等整合到一起。

GPT-5最大的看点，不在于它又增加了哪些小把戏让科技媒体尖叫，而在于它对 OpenAI 的业务意味着什么。奥特曼结束了那个用户直接控制模型选择权，来解决不同问题的时代。就规模庞大的普通用户的角度而言，这无疑提升了用户体验。毕竟，谁都不想在使用前学习一遍GPT-4o-mini与OpenAI o4-mini有什么区别；也不想搞懂GPT-4.5与GPT-4.1谁更好用。

OpenAI采用了“模型路由器”的中间组件，帮助用户“自动”选用模型来满足推理需求，包括如果计算超出用户的订阅费，就自动拉回免费的简易模式。对于OpenAI而言，这意味着它可以借此优化计算任务分配，并防止滥用，节省大量的算力与电力成本。也许，未来，OpenAI可以更好地调整自己的商业模式，将固定的一口价式的订阅费，转向更灵活的基于使用或结果的收费。

现在，受OpenAI控制的“路由器”，本身成为了团队技术改进与优化的关键。它缩短了OpenAI的技术创新与商业变现之间的路径。用越少的算力，交付用户终于满意的结果，意味着更低的运营成本与更高的毛利率。更不怀好意地想，受OpenAI控制的“路由器”，本质上也是商业模式的“黑匣子”。

GPT-5承担着抢占市场份额的重任。GPT-5发布即上线了ChatGPT，免费用户也都使用，尽管会受到使用次数和响应长度的限制；如果不考虑GPT-5内部其实对应着一组模型，它也是OpenAI首次将旗舰模型开放给免费用户。

在API调用价格上，GPT-5也相当用户友好，每百万token输入1.25美元，输出10美元，比自家的GPT 4o与o3还要便宜，也要比竞争对手的Gemini 2.5 Pro和 Sonnet-4便宜。加上gpt-oss的开源，OpenAI正在全面挤压缺乏更完整垂直生态 Anthropic的市场，将后者拉入价格战。后者需要推出具备显著优势的新模型。

离AGI还差两个GPT

人类正在接近AGI，GPT-5又往前小小地挪了一步，但还远远不够。AI想要完全替代人类完成复杂问题，以当前的进步速度，差不多要等到GPT-7了。

专注于评估前沿模型风险的非营利研究机构METR提出了AI的“摩尔定律”，用以衡量AI所能解决的任务的复杂程度。这个指标以人类专家完成相同任务所需时长来量化。为人类完成工作所节省的时间越来越长，准确率越来越高，终有一天，AI会通向完全替代人类完成复杂问题，也就是实现了AGI。该机构创始人Beth Barnes，之前在OpenAI研究对齐问题。这次OpenAI主动邀请他来测试老东家的前沿模型，并且将方法和结果披露在系统卡中。

从GPT-2到GPT5，AI能处理的任务时长越来越长。如果要保证50%的成功率，那么，GPT-2能胜任的任务时长只有2秒钟；到了GPT-3约为8秒钟，还无法胜任完整地回答一个问题；GPT-4约为4分钟，可以统计文章中的字数，但要在网上查证事实，其实够呛；而如今gpt-5-thinking的中位时间可以达到2小时15分钟。再次强调，这个任务时长指的是人类完成相同的任务的时长。

在这6年的时间里，AI能够胜任的任务时长大约每 213 天翻一倍。从这个意义上说，GPT-5仍然处于通往AGI的路径上，且没有放缓步伐。只不过，在商业化竞争压力下，模型发布越来越频繁，每一次微小进步都在稀释人们的惊喜。

但是，按照METR的基准，AI要完全替代人类，需要完成人类本该在1个月内（约160工作时）完成的任务。那是新员工入职后可以为公司创造经济价值的时间跨度。简言之，现在就把它们放到真实世界，想要完全自主地完成多步骤长时序的现实任务，还不够稳定和好用。

OpenAI还有很多技术突破需要实现。在这次评估中，METR称，gpt-5-thinking在部分基础任务上的表现接近饱和，但是在至少7项任务中始终失败，意味着存在真实能力缺陷。它们可能是模型固有架构或训练缺陷导致的短板，也可能是逻辑推理或工具调用能力的不足。

按照目前这个速度，想要实现这一目标，差不多要等到2028年后，相当于还需要倍增6次左右。但是，现实情况会更复杂，且追求更高的成功率，如果要让智能体真正自主做到这一切，METR认为更可能是2031年前。

理论上，那个时候，奥特曼可能已经开始营销他的GPT-7了。

AI资讯

浏览 (25)