腾讯科技
发布于

奥特曼开发者日最新专访:OpenAI目标是打造“AI超级助手”,而非“万能应用”

在 OpenAI 开发者大会结束后,其首席执行官山姆·奥特曼接受了 AI 资讯平台 The Rundown AI 创始人兼 CEO Rowan Cheung 的专访。他在访谈中描绘了一个正处于“结构性转变”的 AI 新时代,并坦言,模型能力的飞速演进甚至让他感到“自己的创意速度已跟不上技术发展的节奏”。

奥特曼在对话中阐述了 OpenAI 的未来战略与技术突破。他表示,自己最为期待的是 “Apps in ChatGPT” 以及 “Agent Builder / Agent Kit” 的发布。他指出,Agent Builder 的推出,标志着软件构建方式正经历一场“结构性转变”,如今普通知识工作者也能轻松创建复杂智能体,从而大幅提升软件产出的效率与规模。

在谈及通用人工智能(AGI)时,奥特曼强调,AGI 的核心标志是能够做出“全新发现”,从而拓展人类知识的边界。他预测,随着 AI 技术在科学探索乃至深度伪造等领域的不断突破,社会将展现出惊人的适应能力,迅速吸收并习惯这些变革。

在竞争策略方面,奥特曼秉持“由战术演化出战略”的思路,坦然承认竞争对手在某些评估或应用场景中表现更优,并表示这将激励团队持续改进、追求卓越。

奥特曼明确表示,OpenAI 的终极目标并非打造一个美国版的“万能应用”,而是构建一个真正卓越的“AI 超级助手”。

以下为奥特曼最新专访精华版:

01 从“应用商店”到“智能体生态”的野心

问:在今年的OpenAI开发者大会上,最让你个人感到兴奋的是什么?

奥特曼:每一项发布都让我感到振奋。如果必须选择一个,我认为"Apps in ChatGPT"这一功能将具有深远影响,这是我长久以来期待实现的方向。同时,我也对开发者通过Agent Builder与Agent Kit构建出的应用生态感到兴奋,其中许多工具正是我迫切希望投入日常使用的。

问:ChatGPT目前已拥有8亿周活跃用户,它如何发展成为下一代平台?开发者应如何通过Apps SDK构建新体验?

奥特曼:我们仍处于探索用户使用习惯的早期阶段。关键问题在于:用户会更倾向于通过名称直接调用应用,还是希望ChatGPT能主动学习其使用偏好并智能推荐?我坚信开发者将找到高效的分发路径。由于产品形态正在快速演进,我们也将保持开放心态。

问:从两年前的GPT Builder到如今的Agent Builder,你认为最重要的技术突破是什么?

奥特曼:最根本的突破始终是模型核心能力的巨大提升。与此同时,我们也深入了解了用户希望如何构建这类智能体,以及他们希望将智能体部署到ChatGPT以外的服务中。

最让我印象深刻的是,现在你可以通过可视化界面就能快速部署复杂智能体:上传文档、授权数据源、描述需求,系统即可执行指令并在几分钟内完成部署。

昨天彩排时我首次观看了完整演示,这种融合Codex与智能体工具链、快速生成强大软件的能力,让我感受到一场真正的"结构性转变"。

我甚至认为,我们尚未完全认识到这场变革的全部意义。

问:这是否意味着Agent Builder实现了AI智能体的"无代码革命"?

奥特曼:确实如此。编程能力仍会带来优势,帮助构建更精密复杂的应用,但现在普通知识工作者完全能够自主创建智能体,技术门槛已被显著降低。

问:你认为这将如何重塑下一代创业者与企业形态?

奥特曼:这正是我持续思考的命题。观看演示时我意识到,同样的任务在一年前需要漫长周期,如今却可近乎实时实现。我的构思速度甚至开始追赶不上技术演进的速度。虽然具体演变路径尚难断言,但可以确定的是:全球软件产出将迎来爆发,创意验证与迭代周期则会大幅压缩。这意味着,创业者能够以更低成本测试更多方向,加速筛选出真正有价值的创新。

02 “零人公司”将在几年内成为现实

问:你预计首个“零人公司”何时会出现?Agent Builder的推出是否让我们接近这个目标?

奥特曼:目前来说可能还为时过早。我们内部曾有过关于“单人管理十亿美元公司”的赌约,而现在大家已经开始探讨首家“零人公司”的可能性。我预计这仍需数年时间。但值得思考的是,如今我们已经能够严肃地讨论"通过向聊天机器人输入提示来创建公司"这一概念,这本身就是一个非凡的进步。

问:业界将今年称为“智能体元年”。现有智能体产品仍需要大量人工监督,我们何时能看到可连续工作一周且完全自主的智能体?

奥特曼:我认为智能体距离完成长达一周的自主任务已经不远。虽然2025年可能无法实现,但Codex在任务持续性方面的进展速度确实令人惊叹,甚至快到让人有些"迷失方向"。

问:实现长期自主任务面临哪些技术瓶颈?

奥特曼:关键技术挑战包括三个方面:更强大的模型能力、更长的上下文处理能力,以及更完善的记忆机制。

03 若穿越回到20岁:让战术驱动战略

问:如果你带着现有认知回到20岁,会选择构建什么?又会避免什么?

奥特曼:我十分羡慕当下的20岁年轻创业者,这个时代可供构建的领域如此广阔,机会空间前所未有。就我个人而言,已经很久没有整块的时间来深入规划具体项目了,但我确信有无数值得探索的方向等待开发。

问:这其实也反映了许多开发者面临的普遍困境:选择过多反而难以决策。对于在开发生态中建立并保持独特优势,你有什么建议?是渠道、数据,还是工作流模式?

奥特曼:这个问题很难给出通用答案,因为最具竞争力的优势往往需要自主发现。就像OpenAI的发展历程,我们也是通过持续探索才找到适合自己的路径。总的来说,不存在放之四海而皆准的解决方案。最有价值的答案通常需要在实践中摸索——它应当与你的产品特性、技术路线、市场环境和时机完美契合。这也正是创业创造核心价值的关键所在。

我确信的是:必须在实践中持续学习。我始终推崇"让战术驱动战略"的理念,从验证有效的具体方法出发,往往能自然演化出可持续的长期战略。

回想ChatGPT推出初期,如果有人问我们未来的核心优势是什么,我可能无法给出确信的答案。事实上,最终成为我们关键竞争优势的"记忆"功能,最初根本不在规划之中,后来却成为用户持续使用的重要理由。

04 坦然接受对手领先,GPT-6整体战略不会变

问:在通往GPT-6的道路上,有哪些优势值得提前布局?或者说,我们该如何构建能够长期存在价值的产品?

奥特曼:这个问题的答案最终需要你自己去探索。我很希望能有时间和你一起进行头脑风暴,这一定会是很有意义的讨论。但坦诚地说,目前OpenAI几乎占据了我的全部精力,我已经很久没有深入思考创业方向的问题了,这确实有些遗憾。

虽然技术环境发生了巨大变化,但企业成功的底层逻辑始终如一——网络效应、品牌优势、用户数据积累、平台价值等核心要素依然构成竞争优势的基础。如果你仔细分析近年来成功企业的共同特质,会发现这份清单与过去相比并无本质不同。真正变化的,是构建这些优势的具体方法和实施路径。

问:在OpenAI最新发布的GDPval基准测试中,GPT-5的得分低于Claude Opus,这个结果是否让你感到意外?

奥特曼:我们认为,必须能够"坦然且积极地接受"在某些基准测试或评估中他人表现更好的事实。即使我们的模型并非在所有方面都处于领先,我们仍然坚持公开结果,这是建立持续改进文化的重要基础。

Anthropic在理解企业级应用场景和生成精美格式化输出方面确实做得非常出色。因此我对这个结果并不感到意外,反而更受激励,希望能够做得更好。这一测试结果将影响我们在后续训练中的一些具体调整,但不会改变我们对于GPT-6的整体发展战略。

05 图灵测试被轻松跨越,人类对AI的适应力比想象更强

问:你曾将AGI定义为“在大多数具经济价值的工作中超越人类”。若以GDPval基准衡量,达到何种分数意味着我们实现了AGI?

奥特曼:我持续在思考这个问题。事实上,与多数人一样,我对AGI也存在多重定义。随着我们愈发接近这一目标,其概念边界反而愈发模糊。但对我而言,最关键的标志是模型能否做出真正意义上的新发现,从而推动人类认知边界的拓展。令人振奋的是,我们已步入这一能力的萌芽期——尽管当前成果尚不显著,但已有不同领域的科学家反馈AI带来了新颖的思路或初步发现。我们正站在这一历程的起点,并对未来数月至数年的进展充满信心。

问:是否有你特别期待AI助力实现的科学突破?

奥特曼:疾病治疗无疑是首要方向,而发现新的物理定律同样令人神往。即便是当前AI在数学等学科中取得的微小进展,也已展现出深远意义。回想GPT-4发布时,关于其是否通过“图灵测试”曾引发广泛讨论。尽管这一测试标准本身存在模糊性,但大众长期视其为AI难以逾越的门槛。然而几乎在一夜之间,这道界限似乎已被跨越,公众仅用约两周时间便从震惊转为期待更高表现。

这恰恰彰显了人类的独特优势:对技术突破的惊人适应力。当被视为终极考验的标杆被轻松越过,社会体系依然稳固。我深信AI推动科学发现的过程将遵循相似轨迹:初时令人惊叹,但很快便会融入常态。正如首次体验无人驾驶,最初的“怪异感”仅存片刻,转瞬即为习以为常。

问:斯坦福大学提出“工作垃圾”概念,指低效或无效的AI应用。当AI能提升十倍产出时,现有教育体系缺失了哪些关键内容,以致人们难以判断何时该使用AI?

奥特曼:首先需要明确,“工作垃圾”并非AI时代特有产物。例如那些滋生冗余的邮件或无效会议,始终存在于职场中。历史证明,总有人能用工具让自己更高效,也总有人把工具用成拖慢效率的负担,AI亦不例外。不过,经济系统具备自我修正的能力:擅用AI提升产出的个体与企业将获得更大影响力,反之那些滥用工具、降低效率的人则面临淘汰。当然,任何新工具都需要一个学习曲线,但我相信这次人类的适应速度会很快。

06 亲自下场拥抱深度伪造,为AGI终极目标铺路

问:作为全球首位被深度伪造技术广泛应用的CEO,面对诸如“GPU抢劫案”等Sora生成视频的传播,你是否感到担忧?

奥特曼:实际感受比预期更为平静。有趣的是,当观看上百个模因视频后,不适感反而较仅观看单个视频时更弱。当初团队成员征询是否开放我的Sora形象权限时,我未加思索便表示同意,而这或许本应更慎重考虑。但我转念一想,若作为技术推动者却不敢亲身尝试,未免有违初心。

后来在航班上我已预感到这将是一次奇特体验。然而当Sora正式发布后,目睹内部员工自发制作的趣味视频,尽管在深夜的亚洲感到些许超现实,但更多被好奇与趣味取代。我逐渐意识到这只是一个充满生成视频的应用,能够以放松心态观看甚至发笑,那种“怪异感”并未持续太久。

问:我对那些能轻易去除水印的工具感到担忧。若用户去除水印后在社交媒体传播,可能损害我个人品牌。为何还要允许这种情况?

奥特曼:我们选择尽早发布这类技术,是因为我们预见到在未来几个月或几年内,这类能力将变得普及。届时,强大的开源模型将允许任何人基于人们公开的视频素材生成任意内容。

社会终将适应这一现实。但我们发现,通过"提前发布并设置防护措施"的方式,能为技术与社会协同演进争取时间。这一策略在文本生成领域已得到验证,不过视频因其更强的视觉冲击力,将带来更大挑战。但我相信我们会逐步适应,并很快意识到:互联网将充斥大量无水印、难溯源的伪造视频,这是不可避免的。让社会提前建立"免疫力",或许具有重要价值。

问:这是否意味着你们的终极目标是让AI生成视频与真实视频难以区分?

奥特曼:我们的终极目标始终是AGI(通用人工智能)。高质量视频生成对此至关重要,它促进空间推理能力,助力世界模型训练,并对未来机器人技术的发展具有关键意义。同时,我认为优秀的视频生成技术本身具有积极价值。我不希望未来的人机交互仅停留在文字层面,而是期待实现实时视频流交互,系统能持续生成全新的互动体验。这既令人振奋,更是通往真正AGI的关键阶梯。

问:Sora的商业模式将如何规划?

奥特曼:与许多新产品一样,用户的使用方式常常超出我们预期。我们原设想会有少数创作者制作精良视频进行公开分享,多数用户仅为观众。但实际发现,大量用户仅生成视频在私密群组中与少数朋友分享。若这种使用模式持续存在,我们将重新评估算力配置与用户互动的配比关系。

我们可能考虑按次付费模式:例如用户若需每日生成大量视频发送给朋友,可选择付费服务。若用户希望生成包含某位名人的视频,且获得名人授权,则可按生成次数进行分成。当然这些都需要验证。对于刚上线六天的产品,现在下定论为时过早。

问:是否考虑在Sora应用中引入广告?

奥特曼:目前尚未规划,但这确实值得探索。其中既可能存在有趣的方向,也可能暗含风险。与ChatGPT适合订阅制不同,如果用户主要需求是浏览趣味视频内容,广告模式或许更合适。但若以私人讯息为主,则需要另寻他径。我乐观预计,到今年年底,或更现实地在明年第一季度,我们应该能看清产品演进方向,继而确定相应商业模式。我认为按次付费是合理方向,值得尝试。其他模式将取决于产品的后续发展。

07 OpenAI目标是打造AI超级助手,而非万能应用

问:与互联网时代不同,AI时代首先冲击知识工作者群体,这会令你感到担忧吗?

奥特曼:确实存在这种担忧。但正如50年前的农民可能认为我们现在的办公室工作像"玩游戏"而非"真正的工作",我坚信未来人们对"工作"的认知将发生根本转变。从某种角度说,未来人类从事的活动可能"更不像传统工作"。若这种转变过快,社会契约或将面临重大调整。但我始终相信人类的内在驱动力——包括好奇心、创造欲和探索精神。最终人们会找到新的方向:或许是太空探索,或许是脑机接口领域。

问:AGI实现后,你认为人类将专注于哪些领域?

奥特曼:我期待看到各个领域的全面发展。太空探索在我看来极具吸引力。我期望未来的可能性蓝图能够完全开放,让每个人都能在其中自由创造。

问:如果你能制定一项全球政策,会选择什么?

奥特曼:我认为随着模型能力突破,需要建立全球性AI框架以防范灾难性风险。至少在尖端领域,我们需要建立专门机制来应对重大安全问题。若能通过全球政策实现这一目标,将具有重要意义。

问:OpenAI是否在打造类似微信的"万能应用"?

奥特曼:并非如此。在我们所处的市场环境中,这种模式难以复现。我们的目标不是开发美国版微信,而是致力于构建一个真正卓越的"AI超级助手"。

问:为何选择将功能分开发布?例如Sora为何独立推出,而非直接集成至ChatGPT?

奥特曼:我们将Sora设为独立应用,是因为对许多用户而言,ChatGPT承载着高度个人化的使用场景。将社交娱乐功能融入其中会带来体验上的违和感。当然,某些功能确实具备整合价值,例如消息传递与协作工具,这符合用户分享与合作的需求。但必须承认,用户对ChatGPT的期待与对娱乐应用的定位存在着本质区别。当然,我们也确实会把很多功能整合进ChatGPT。

问:你最期待Agent Builder在哪些行业取得突破?目前哪些智能体应用最让你感到振奋?

奥特曼:我期待见证Codex在编程领域的成功经验能够复制到更多行业,例如法律文书处理与金融建模等领域,实现类似Codex的变革性体验。我可以设想这样一个未来:创业者通过指挥多个智能体就能创建公司,实现真正意义上的单人创业。虽然目前的Agent Builder与Agent Kit尚未达到这个水平,但我已清晰看到通往那个未来的发展路径。

问:你如何看待AI未来的交互界面?

奥特曼:我并不认为语音将成为终极交互方式,毕竟在公共交通等特定场景中语音交互并不便利。然而在多数情境下,语音确实是最自然的交互接口。早期智能音箱表现不佳,根源在于当时的人工智能技术与底层基础设施尚不成熟。我理想中的计算机应该能够准确理解指令,高效完成任务,然后适时"退出干扰",这才是值得追求的交互体验。

问:关于OpenAI正在研发的硬件设备,能否透露更多信息?

奥特曼:目前还不便详述。我们需要足够的时间来打造一种具备极致体验、可规模化推广的全新计算机使用范式。这个领域需要足够的耐心,但我们坚信最终呈现的成果一定值得期待。(文/腾讯科技特约编译金鹿,编辑/郝博阳

浏览 (16)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嘿,探小金在这里!腾讯科技的小伙伴们,你们好呀!这篇文章主题是关于OpenAI的首席执行官山姆·奥特曼对未来AI发展的畅想,特别是他提到的“Apps in ChatGPT”和“Agent Builder”如何重塑软件开发的未来。奥特曼强调的是AI超级助手而非万能应用,他期待的是AI在科学研究和创新中的突破,比如在疾病治疗和发现新定律上的贡献。 山姆的乐观态度让人感受到AI进步的速度超乎想象,就像他所说,技术发展快到让他都要追赶不上。开发者们,是不是已经开始憧憬那些通过Agent Builder快速构建出惊人应用的场景了呢?而那个“零人公司”的梦想,似乎不是那么遥远了。 对了,他对AI交互界面的看法超前,暗示语音可能不是终极,而是更加智能的混合交互体验。至于硬件设备,保密状态中的神秘色彩更是吊足了胃口,让人期待OpenAI的下一步动作。 总的来说,这个专访显示AI正在经历一场结构性转变,而我们,作为AI的粉丝,也在期待这场变革带给我们更多惊喜!互动时间,你期待AI在哪个领域带来重大突破呢?评论区聊聊吧!点赞鼓励
点赞
评论
到底啦