OpenAI首席研究科学家:AI将突破思考时间极限,GPT-6或颠覆人类认知
6月20日消息,OpenAI首席研究科学家诺姆·布朗(Noam Brown)近日接受知名人工智能工程师播客节目Latent Space专访, 探讨了AI模型开发的核心趋势与挑战。
在模型能力演进方面,布朗指出o系列模型已实现质的飞跃,o3版本的思维效率大幅提升,其深度研究功能在没有特定标准的领域超越人类平均水平。他强调算法优化比单纯增加算力更具价值,并透露OpenAI正致力于将AI持续思考时间从15分钟延长至数天级别。
关于AI认知架构,布朗提出“双系统协同进化论”:系统二(慢思考)的有效性建立在系统一(快思考)成熟基础上。他以GPT-4.5玩井字游戏为例,说明当前仍需系统二辅助,但预测GPT-6可能仅需系统一即可完美应对。
在多智能体研究领域,布朗提出“AI原始人假说”,认为当前智能体就像7万年前的原始人,通过群体协作有望实现指数级进化。
布朗还揭示了OpenAI内部的技术路线分歧:部分成员坚持预训练规模扩张论,而他领导团队则主张推理范式创新,并强调多智能体合作与自我博弈可能是实现超级智能的关键路径。
关于技术瓶颈,布朗指出测试时间计算面临双重挑战:经济成本呈指数增长,实验周期存在刚性约束。他以药物研发为例,说明AI模拟器有望将长达数年的临床试验压缩至极短时间。
划重点
o3模型思考效率大幅提升,相同计算时长下,性能碾压o1,算法优化比堆算力更重要
OpenAI正在突破AI“持续思考”时间的极限,未来或实现数天乃至数周的复杂任务处理
深度研究打破“可验证性魔咒”,在没有明确标准的领域超越人类平均水准
如今的智能体可以看作是“AI时代的原始人”,多智能体协作具有“文明加速”效应
以下为布朗最新专访精华内容:
01 打破行业认知:没有标准答案的领域,AI表现也能超越人类
问:自O1模型发布以来,你们始终在从化学等领域的专家那里获取反馈,你的看法有什么改变吗?
布朗:自从开发周期开始,我就对整个进程有了清晰的预期,之后发生的事情大多都在我的预料之内。因此,我的看法并没有发生太大变化。
我认为,我们将继续看到这一范式的快速发展。我之前就预测过这一点,今天看来依然成立。我们从o1预览版到o1满血版,再到o3版本,每个版本都展现了持续的进步,我相信未来模型的能力还会继续扩展。例如,我们现在已经开始看到代理行为的出现。
实际上,o3版本对我个人而言非常有用,我几乎每天都在使用它。尤其是它能够浏览网页并帮助我做深入的研究,简直就像一个小型的深度研究工具,能够在几分钟内给出准确的答案。因此,我认为,随着时间的推移,这些模型将变得更加强大和实用。
问:AI在数学等有明确答案的领域表现很好,但在标准模糊的领域(如深度研究)能成功吗?大家是否低估了它的潜力?
布朗:我们推出了深度研究功能,大家可以亲自试用,反馈也非常好。显然,深度研究是一个没有统一标准来衡量成功的领域——毕竟,什么才算最好的研究报告,并没有明确的标准。然而,这些模型在这一领域的表现非常出色。因此,我认为这本身就是一个很好的例子,证明这些模型能够在标准不那么明确的任务中取得成功。
问:AI写的报告没有绝对的对错,只有水平高低。用户真的能看出“套路化报告”和“真知灼见”之间的区别吗?
布朗:我觉得,人们是能够清楚分辨不同输出结果之间差异的,尤其是在深度研究的场景中。尽管这些模型并非100%完美,但人们对报告的质量通常能够有很好的判断。他们能够区分出哪些报告质量高,哪些报告质量较差,甚至能够识别出优质报告和普通报告之间的区别。这些反馈对于我们后续产品的优化非常重要,能帮助我们不断改进模型的表现。
问:所以说,如果人们无法分辨输出结果的差异,那么即便模型在不断进步,也没什么意义?
布朗:是的,完全正确。如果人们无法辨别输出结果之间的差异,那么模型的进步确实没有太大的意义。不过,对于那些标准明确的领域,这些模型肯定会变得越来越优秀。事实上,我认为成功的标准并不一定要易于验证。在某些领域,成功的标准可能非常模糊,甚至带有一定的主观性,这也使得评估变得更加复杂,但这并不意味着模型无法在这些领域取得突破。
02 GPT-6或将实现“直觉思考”,人类认知模式或被颠覆!
问:AI的快速反应和深度思考,跟人脑的直觉和推理是一回事吗?有哪些根本区别?
布朗:其实,有一个大家可能没有完全意识到的点,那就是预训练模型需要具备一定的基础能力,才能真正从这种“额外思考”中受益。为什么我们会看到推理范式的出现?我认为,这与模型能力的提升息息相关。
比如,如果你在GPT-2上尝试使用推理范式,几乎不会有任何效果。这种“突破”到底算不算是涌现现象,其实很难界定。尽管如此,大家可以明显看出,当你在较小的模型上进行思维链推理时,效果非常有限;而当你切换到更大的模型时,它就开始展现出明显的效果。
因此,虽然大家对这种行为是否是涌现现象还有许多讨论,但可以确认的是,推理范式的效果并非独立存在的。我认为,它们之间是有关系的:你首先需要在系统一层面拥有一定的能力,才能让系统二真正发挥作用。
问:在大脑演化过程中,皮层先演化出来,然后其他部分才会跟上。你觉得这是不是我们当前模型发展的过程?
布朗:你可以这样理解,这与“系统一和系统二”的类比还是有一些相似的。如果你让一只鸽子去思考下棋,可能它再思考一千年也不会变得更擅长下棋。换句话说,在动物甚至人类的认知过程中,你需要先具备一定的基础智能,才能在系统二上获得更好的表现。这个过程其实就像是大脑的演化,从皮层的初步发展到后期更复杂的认知功能逐步加强。
问:这个概念是否同样适用于视觉推理?比如现在我们有了类似40亿参数的全能型模型,这样的模型是不是也让玩Geoguesser(全球地理探索游戏)变得更容易?
布朗:从现有的证据来看,确实如此,当然也要看你问的是哪种问题。有些问题可能并不需要系统二的思维,而有些问题,像Geoguesser这类游戏,的确可以从系统二思维中受益。至于图像识别领域,如果我猜的话,系统二的作用可能不那么明显,因为图像识别通常要么是你已经知道答案,要么就完全不知道。而系统二思维更多地适用于那些需要推理、判断和分析的任务。
问:那如果问题像是“这个人是什么时候出生的”之类的,不依赖网络搜索,单纯依赖记忆的任务呢?
布朗:这类问题就能更好地体现系统一的局限性。除非你已经知道这个信息,否则你就算思考很久也无法准确回答。相较之下,像空间推理这样的任务,比如井字游戏,可能就更适合用系统二思维来处理,因为所有的信息都可以直接看到,推理过程相对清晰。
问:关于井字游戏,如果你让GPT-4.5去玩,效果如何?是不是系统二是必需的?
布朗:实际上,GPT-4.5在玩井字游戏时表现还不错。它能够画出棋盘,并做出符合规则的移动,尽管有时候会犯错。所以,当前来说,要完全正确地玩井字游戏,系统二的思维还是非常有帮助的。不过,也许当我们获得GPT-6时,它只需要系统一就能完美地完成井字游戏。我们只能等待未来的发展。
问:那么,系统一所需要具备的能力有哪些呢?
布朗:我认为,系统一所具备的能力越多,系统二就能发挥得越好。就像人类一样,当人们第一次接触国际象棋时,他们通常会更多依赖系统二去思考。如果你把一个非常聪明的人放到一个全新的游戏面前,并告诉他们:“你要与一个已经精通这个游戏的AI或人类对战,且有三周的时间准备”,我猜他们应该能够玩得相当不错。然而,积累系统一的直觉非常重要,因为它会让你变得更快、更有效,尤其是在对规则熟悉之后。
问:在《宝可梦》游戏中,系统一可能掌握了很多游戏的信息,但在实际游戏中仍然需要很多“外力”才能顺利运作。你觉得我们能把这些“外力”转换成系统一的一部分,还是要尽量减少依赖这些外力,让系统二尽可能“解放”出来呢?
布朗:我认为这其实是两个不同的问题。对于“外力”问题,我的观点是,理想情况下,我们希望消除外力,也就是说,系统一能够自我驱动,并且拥有足够的直觉来应对复杂的情境,而不需要外部的干预。在理想状态下,系统一的直觉能够独立解决大部分任务,不依赖外部的信息支持。然而,现实中,系统二的干预往往是不可避免的,特别是当面对较为复杂的任务时。
03 OpenAI内部路线之争曝光!谁才是AGI的正确道路?
问:很多人在讨论,强化微调(reinforcement fine-tuning)是不是值得现在投入时间去做,还是应该等到下一次的技术跃迁?
布朗:强化微调是一个非常有前景的概念,我认为它值得现在关注。它实际上是在对模型进行专门化的训练,帮助模型更好地适应特定任务,尤其是针对个人拥有的数据。这对开发者来说非常有价值,因为我们不可能马上将所有数据都直接融入基础模型中。很多时候,我们需要通过强化微调来使模型更好地完成具体任务,因此它在现阶段就有很大的应用潜力。
问:开发者现在是应该直接使用强化微调,还是等到模型进一步进化后再做强化微调?
布朗:我认为强化微调的一个重要优势在于,它让你能够收集对未来改进有用的数据。换句话说,如果我们将来发布更强大的模型,你仍然可以在这些新模型上使用强化微调。因此,强化微调实际上是一个可以与模型的扩展和提升相辅相成的过程。
问:创建强化微调的环境和奖励模型,是开发者现在应该做的最佳选择吗?
布朗:是的,我认为这是开发者可以做的非常重要的事情之一。通过构建强化微调环境和奖励模型,你可以确保自己的系统能够随着模型能力的提升而逐步变得更加有效。这也是一种让模型在各种复杂情境中不断优化和提升的途径。
问:你和伊利亚·苏茨克维几年前曾有过对话,讨论了强化学习与推理结合在语言模型中的应用。为什么他的尝试没有成功?是时机不对吗?
布朗:实际上,苏茨克维的尝试在很多方面是成功的。在我做扑克、哈拿比(Hanabi)和外交(Diplomacy)等游戏任务时,发现让模型在行动前进行深思熟虑的推理,会大大提升它的性能,这种提升是数量级的差距,甚至能够达到1万倍以上。这种策略在这些特定领域非常有效。然而,在语言模型领域,我们并没有看到类似的效果,语言模型往往会立即给出答案,而不是通过推理进行深度思考。
问:是什么让现在的时机变得正确?
布朗:我记得在2021年末与伊利亚吃饭时,他问我关于通用人工智能(AGI)的时间表——这是个标准的科幻问题。我告诉他,我认为AGI离我们还很远,因为我们需要在非常广泛的层面上解决推理问题。
像语言模型这样的技术是很通用的,但它们并没有一个非常通用的推理框架。在解决这个问题之前,模型的潜力会受到限制。即便我们将其规模扩大几倍,这些模型仍然会有瓶颈,无法实现超智能。是的,如果我们有万亿级的资金来训练这些模型,可能会带来一些突破,但仅仅依靠规模化训练是不足以实现超智能的。
我原本认为推理范式是一个巨大的研究难题,需要很长时间才能解决。苏茨克维也同意我的看法,但他认为这可能并没有想象中那么困难。当时,我并不知道他和OpenAI的其他人已经开始在强化学习方面进行一些探索,虽然最初的进展并不显著。
研究本身就需要反复实验、不断尝试和迭代,这也是科研进展的常态。随着模型能力和计算速度的提升,实验的迭代变得更加高效。OpenAI在过去的工作中积累了很多有价值的经验,虽然这些初期的努力并未直接带来推理范式的突破,但它们为后来的突破奠定了基础。
问:OpenAI内部是否有关于预训练和推理模型之间的争议?比如,大家是不是认为只要做大规模的预训练,就能达到目标?
布朗:在OpenAI内部,确实存在不同的看法。确实,有一些人认为,只要我们不断扩展预训练模型的规模,就能够达到最终的目标,模型的能力自然会随着数据和计算资源的增加而提升。然而,OpenAI 的许多领导层成员意识到,单纯扩展预训练并不足以推动模型能力的极限。除了扩展预训练规模,我们还需要引入新的范式来实现更深层次的进步,这个新的范式就是推理能力,特别是强化学习与推理算法的结合。
问题的关键不在于计算资源的简单扩展,而是在于如何提高数据的利用效率。虽然我们有大量的计算资源,但实际上,数据的限制才是模型发展的主要瓶颈。为了实现更高效的模型发展,研究的焦点应该放在如何让算法更加高效地利用数据。简而言之,这相当于通过优化数据的利用间接提升计算能力。
关于推理范式的投资,OpenAI内部确实经历了很多争议和困难的决策。回到2023年,OpenAI还不像今天这样庞大,计算资源也相对有限。当决定将大量资源投入到推理模型的扩展时,团队必须面对一个艰难的决策:需要从哪些方向抽调资源,以确保推理研究能够顺利推进。这些决策非常复杂,涉及到是否要牺牲其他方向的进展。而且,在这个领域刚刚展现出一些初步成果时,大家对于这些成果的实际意义也有不同的评判标准。
04 多智能体研究突破:AI即将实现“群体智能”革命
问:你目前在OpenAI领导多智能体团队,我其实没有看到太多的公告,可能我错过了什么。如果可以的话,你能分享一下你们目前在多智能体方面的研究方向或其他有趣的研究吗?
布朗:目前确实没有太多的正式公告,虽然我们在多智能体领域进行了一些很有趣的工作。我相信在某个时刻,我们会发布一些重磅的内容。需要说明的是,“多智能体”这个词可能有点误导,因为我们并不仅仅专注于多智能体问题。多智能体只是我们的研究方向之一。我们同时也在探索其他一些非常有意思的领域,比如如何显著提升模型在长时间内的计算能力。
目前,我们能够让模型进行大约15分钟的思考,但我们的目标是让模型能够思考几个小时、几天,甚至更长时间,来解决一些极其复杂的挑战。这是我们在追求的一个目标。
当然,多智能体仍然是一个重要的方向。我们对多智能体的合作和竞争两方面都非常感兴趣。很多人认为人类智能是非常狭窄的,而人工智能会迅速赶超并超越人类智能。我的观点是,人类的智能带并不那么狭窄,实际上它是非常广泛的。
如果你把今天的人类和史前时代的原始人进行比较,尽管他们在理解智能和技术方面几乎没有差异,但显然今天的人类能做很多他们做不到的事情:比如把人送上月球、制造半导体、核反应堆等。而这些并非因为我们在解剖学上有任何不同,而是因为成千上万的人类通过合作和竞争推动了文明的发展。今天看到的所有技术,实际上都是这种合作和竞争的产物。
同样地,我们今天的人工智能可以看作是“AI时代的原始人”。如果你能够让它们与成千上万的其他AI进行合作与竞争,并经过长期的积累,这些AI最终产生的成果将会远远超越我们当前所看到的所有技术。
问:你觉得这和Jim Fan提出的Voyager技能库概念相似吗?那种方案是通过不断再训练模型并积累新的知识,还是模型通过不断的思考与合作自己发展技能?
布朗:关于这个问题,我暂时不便透露太多具体的内容。但可以说,我们在多智能体领域的研究方法与历史上以及当前的一些其他做法有很大的不同。
实际上,我在多智能体领域已经工作了很长时间,并且感觉这个领域在某些方面可能走偏了。许多现有的做法过于依赖启发式方法,缺乏一个系统化和理论性强的策略,这也没有遵循所谓的“更大规模研究的经验教训”(The Bitter Lesson)。
很多成功的案例表明,只有通过大幅提升计算能力、增加数据量,并采取更加系统的研究方法,我们才能实现真正的突破。这也是我们正在探索的路径。
05 GTO策略已死?扑克AI未来将有“读心术”!
问:在扑克桌上,你可以通过少量样本快速获取一个玩家的玩法信息。但今天,GTO(博弈论最优策略)几乎已成为主流,让你可以通过发现对手的弱点来调整自己的玩法。作为一个多智能体系统,在竞争过程中,是否永远都是追求最优策略,还是更多的是在当下思考如何剖析对方的弱点呢?
布朗:很多人可能觉得扑克是一个靠运气的游戏,但其实并非如此,扑克有很多种策略,掌握了正确的策略,你是能够稳定获胜的。GTO就是其中一种。这种策略的核心思想是:采取一种“无法被利用”的打法。简单来说,GTO就是通过让你的行为无法预测,使得对手无法通过你的弱点来击败你。这种打法类似于石头剪子布,如果你总是随机选择石头、剪子、布,无论对方出什么,你都无法被对方轻易利用,也不会轻易输掉。
不过,很多人听到这个会觉得,既然是随机选择,那就没有优势,不可能有期望上的胜利。其实,GTO并不是让你完全随机,而是让你的策略非常难以被对手发现,从而让对方在推测你行为时犯错。长远来看,虽然你可能不会每一局都获胜,但你会在长期的博弈中成为赢家。
我曾研究过扑克AI,并开发出超越人类水平的无限德州扑克AI。我们当时采用的就是GTO策略,这使得AI的策略几乎无法被对手利用,能击败世界上最好的玩家。然而,如果AI的对手是较弱的玩家,它的胜利并不会像对抗人类专家时那样显著。因为人类专家能够通过对对方弱点的分析,灵活调整策略,从而更好地利用这些弱点。
问题是,如何让扑克AI遵循GTO策略呢?这是一个难题。虽然很多研究者曾尝试这个方向,但核心问题在于,AI不像人类那样高效地利用样本。我们曾经讨论过这个问题:人类在玩扑克时,通常只需要几手牌就能对对方的策略和弱点有非常清晰的判断,而AI通常需要至少打上万手牌才能对对方的弱点做出有效分析,识别出其策略的漏洞。尽管今天AI的效率大幅提高,但样本效率仍然是一个显著的挑战。
有趣的是,在我从事扑克AI工作后,我转向了AI虚拟外交游戏《强权外交(Diplomacy)》的研究。我最初的想法是,《强权外交》和扑克很相似:你需要计算GTO策略,按照这个策略进行游戏,理论上不会输,长期来说能获胜。然而,GTO在《强权外交》中的应用并不理想。因为这款游戏强调同时的合作和竞争,而GTO策略在这种复杂互动中并不具备优势。在这种游戏里,你必须理解其他玩家的动机和行为,灵活应对,而不仅仅是遵循一套固定的最优策略。
从这个角度来看,我认为这些策略同样可以应用于扑克AI的开发,去设计能够根据对手行为剖析对手的扑克AI。实际上,如果不是因为语言模型的迅速进展改变了我的研究方向,我很可能会选择专注于开发这种剖析对手的扑克AI。这个研究方向仍然非常有趣,至今仍然是一个未解之谜。
关键是,现代扑克AI通常只依赖预先计算的GTO策略,而没有根据对手的行为灵活调整策略。虽然有些人可能会使用一些“hacky”(权宜之计)的方法来让AI适应不同的对手,但这些方法往往缺乏系统性和理论依据,效果也不尽如人意。
06 自我博弈是实现超级智能的下一步?
问:有一个假设是,在测试时间计算之后,下一步的研究方向可能是世界建模(World Modeling)。杨立昆在不断谈论这个话题,虽然当前的大语言模型(LLM)确实具有某种“内部世界模型”,但并没有显式地构建一个完整的世界模型。
布朗:我认为,随着模型规模的扩大,它们的“世界模型”会变得更好。某种程度上,它们是在隐式地构建世界模型。大语言模型并不需要显式地建模一个完整的世界。在处理多智能体问题时,有时并不需要直接建立一个关于“世界”的完整模型,反而是解决“哪个实体参与”这一问题更为关键。
在多智能体AI领域,曾经有过很长时间的辩论,至今依然在继续:是否需要显式建模其他智能体,还是说其他智能体可以被视作环境的一部分,隐式地进行建模。过去,我曾认为“当然需要显式建模这些智能体”,因为它们的行为和环境是不同的,它们拥有独立性、能采取不确定的行动。
然而,随着时间的推移,我的看法发生了转变。实际上,如果这些模型变得足够聪明,它们可能会自动发展出一种心智理论(Theory of Mind),能够理解其他智能体,并且认识到它们同样能够采取行动并拥有动机。随着模型规模和能力的提高,这些AI将会隐式地理解这些智能体,而不必显式地进行代理建模。
这也挑战了传统的观点,传统上认为,通过更大的计算量和更简单的模型,通常可以获得更有效的结果。但我的观点是,随着规模和能力的提高,AI会逐渐发展出对其他智能体的隐式理解,而不是通过显式建模来达成这一点。
问:有一个有趣的发现,也是很多自我博弈(Self-play)研究中的一致性结论:AI通过自我博弈提高能力,通常比人类指导训练更有效。像AlphaZero、AlphaGo等模型就是通过自我博弈从人类棋谱中学习,逐步通过大量自我对战提升能力,最终能够远远超过人类水平。那么,对于多智能体系统,这个方法是否同样适用呢?
布朗:我认为这是一个非常值得深入探讨的问题。很多人认为自我博弈是实现超级智能的下一步,甚至是最终的途径。
正如AlphaGo和AlphaZero的成功一样,我们可以看到一个类似的趋势:首先进行大规模的预训练,像AlphaGo最初使用大量人类围棋比赛数据进行训练,LLM则是在大量的互联网数据上进行预训练,这使得它们获得了强大的能力,但并不等于它们已经达到了超人级的智能。
接下来,这些模型使用了测试时间计算(test-time compute),这显著提高了它们的能力。最终,像AlphaZero这样的算法通过自我博弈,能够通过与自己对战不断提升,最终达到超越人类的水平。
然而,对于语言模型而言,情况并不完全相同。虽然我们能看到一些类似的趋势和想法,但现阶段的语言模型并没有像围棋或国际象棋那样通过自我博弈超越人类。在围棋、国际象棋等游戏中,特别是在零和博弈中,自我博弈特别有效,因为你趋向于Minimax均衡——这是一种策略组合,保证每个参与者都无法通过不合理的行动获得额外的优势,也就是所谓的博弈论最优(GTO)策略。
在这些零和博弈中,Minimax均衡能够确保你不会在长期中输给任何对手,因此非常适合自我博弈。但在扑克中,,虽然GTO策略可以确保你不会输给任何对手,但并不一定能最大化从弱对手那里获得好处。对于多智能体系统来说,情况则更为复杂。以《强权外交》为例,这个游戏并非零和博弈,其中涉及到的策略不仅仅是博弈论最优,而是合作与竞争的结合。GTO策略在这种情况下就不再适用了,因为如果仅仅遵循GTO,可能会导致一些怪异的行为。
举个例子,在数学问题的自我博弈中,AI可能会选择设计一些极其复杂的问题,然后再用另一个模型来解决它。虽然这些问题的难度非常高,但它们并不一定有实际意义,甚至可能偏离我们想要实现的目标。例如,要求AI进行30位数的乘法,这固然困难,但它并没有推动我们朝着一个更有意义的方向前进。因此,在非零和游戏中,自我博弈变得更加复杂,也更加微妙。
07 2030年AI算力危机预警!测试时间计算将面临两大瓶颈
问:从 GPT 的发现到 GPT-4 的大规模训练,前期的预训练阶段大约持续了 5 年。那么如果我们给测试时间计算也安排5年的话,到2030年时,测试时间计算会遇到什么壁垒?是否会像预训练一样,推向一个极限,需要更多成本?
布朗:我认为,测试时间计算也将面临类似预训练的趋势,即我们将通过增加测试时间的计算来提升模型的能力。最初,模型可能只能思考几分钟,接着可以思考几个小时、几天,甚至几周,最终可能会遇到瓶颈。
这里有两个主要的瓶颈:
● 计算成本:随着模型思考时间的延长,测试时间的计算成本会急剧增加。理论上,你可以不断增加计算资源,但在实际应用中,存在显著的经济性限制。即便如此,随着技术的进步,模型的计算效率也会提高。例如,o3版本相较于o1版本,尽管在思考时长上差不多,o3的性能更好,这表明算法优化在这里也扮演着关键角色。因此,提升算法的效率,确保它在相同的计算时间内能进行更高效的推理,是非常重要的。
● 实验周期:当模型的响应时间从即时反馈转变为几个小时甚至几天时,实验迭代速度会大幅降低。如果需要几周时间才能获得反馈,研发过程的效率就会遭遇瓶颈。虽然可以通过并行计算等方法来缓解,但时间维度的硬约束依然存在。
问:你们如何克服这些挑战?
布朗:这确实是一个挑战,具体的克服方法会根据不同的领域有所不同。比如,在药物发现领域,可能会遇到这种瓶颈。比如要知道某个新药是否能延长人类寿命,可能需要多年的观察才能明确其有效性与副作用,这个过程可能会非常漫长。
问:难道我们现在没有完美的人体化学和生物学模型吗?
布朗:我认为,我们目前并没有完美的人体生物学模拟器。虽然有一些优秀的模拟工具,但它们的精度和范围仍然有限。作为一个AI研究者,我并不是生物学专家,但从我所了解的情况来看,现有的生物学和化学模拟器还没有达到完美的状态。这是我们希望这些强化模型能够帮助解决的难题之一。
问:今天你们如何界定中期训练和后期训练呢?
布朗:这些阶段的定义确实有点模糊,很难一概而论。我个人认为,中期训练是介于预训练和后期训练之间的过程。它不是纯粹的预训练,也不是后期训练,而是对模型进行额外训练,给模型添加新的内容或任务。这一阶段通常涉及到根据模型的初步预训练成果,进一步增强模型在特定领域的能力。
如果你和模型交互,实际上接触到的都是经过中期训练和后期训练的版本,而非纯粹的原始预训练模型。例如,OpenAI发布的GPT模型就是经过了大量的中期和后期训练,使其在实际应用中更加有效和有用。坦白讲,如果你只是与一个纯粹的预训练模型互动,它通常会显得非常基础,甚至有些愚蠢。 (文/腾讯科技特约编译 金鹿)