机器之心
发布于

遥遥无期的AGI是画大饼吗?两位教授「吵起来了」

编辑|冷猫

大模型的通用性和泛化性越来越强大了。


虽说一些新模型,比如说「差评如潮」的 GPT-5.2,在专业任务和智能水平已经达到了非常出色的水平,但离我们所认知的 AGI 依旧十分遥远。



不过,这也说明了大家对 AGI 仍然充满热情和信心,说不定下一款重磅的大模型就能够初步实现 AGI 的构想呢?


但是,近期卡耐基梅隆大学教授,AI2 研究科学家 Tim Dettmers 发布了一篇长文博客,标题为《Why AGI Will Not Happen》,认为由于物理原因,我们无法实现 AGI,也无法实现任何有意义的超


这篇文章着实给大家对 AGI 的热情泼上了一盆冰水,引发了广泛哗然。



为什么 AGI 不会发生


这篇文章涉及到了硬件改进、通用人工智能(AGI)、超级智能、规模法则、人工智能泡沫以及相关话题。



  • 博客链接:https://timdettmers.com/2025/12/10/why-agi-will-not-happen/


计算是物理的


许多思考 AGI、超级智能、缩放定律以及硬件进步的人,往往把这些概念当作抽象理念来看待,像哲学思想实验一样加以讨论。这一切都建立在对 AI 与规模化的一个根本性误解之上:计算是物理的。


要实现高效计算,你需要在两件事情之间取得平衡:其一,把全局信息移动到局部邻域;其二,将多份局部信息汇聚起来,把旧信息转化为新信息。虽然局部计算的复杂性几乎保持恒定 —— 更小的晶体管能够大大加速这一过程,但移动到局部计算单元的距离呈平方级增长 —— 虽然也受益于更小的晶体管,但由于内存访问模式的平方特性,改进效果很快变得次线性。


有两个要点需要记住:第一,缓存越大,速度越慢。第二,随着晶体管尺寸不断缩小,计算变得越来越便宜,而内存在相对意义上却变得越来越昂贵


如今计算单元在芯片中的占比已经微不足道,几乎所有面积都被用来做内存。若在一块芯片上实现 10 exaflops 的算力,但无法为它提供足够的内存服务,于是这些 FLOPS 就成了 「无效算力」。


正因如此,像 Transformer 这样的 AI 架构在本质上是物理的。我们的架构并非可以随意构思、随意抛出的抽象想法,而是对信息处理单元进行的物理层面的优化。


要有意义地处理信息,你需要做两件事:一是计算局部关联(MLP),二是将更远处的关联汇聚到局部邻域中(注意力机制)。这是因为,仅靠局部信息只能帮助你区分高度相近的内容,而汇聚远程信息则能让你形成更复杂的关联,用以对比或补充局部细节。


Transformer 架构以最简单的方式结合了局部计算与全局信息汇聚,已经非常接近物理最优


计算是物理的,这一点对生物系统同样成立。所有动物的计算能力都受限于其生态位中可获得的热量摄入。若大脑再大,人类将无法繁衍,因为无法提供足够的能量。这使得我们当前的智能水平成为一个由于能量限制而无法跨越的物理边界。


我们接近了数字计算的边界。


线性进步需要指数级资源


这里同时存在两种现实:一种是物理现实,另一种是观念空间中的现实。


在物理现实中,如果你需要在时间和空间上聚集资源来产生某种结果,那么出于物流和组织的原因,想要在线性尺度上产出效果,往往就需要线性规模的资源投入。但由于物理性的限制,这些资源在空间或时间上会产生竞争,使得资源的汇聚速度必然越来越慢。


在观念空间中,也存在着类似但不那么显而易见的现象。如果两个想法彼此完全独立,它们叠加后的效果可能比任何一个单独想法大上十倍。但如果这些想法彼此相关,那么由于边际收益递减,其总体影响就会受到限制。如果一个想法建立在另一个之上,它所能带来的改进幅度是有限的。很多时候,只要存在依赖关系,其中一个想法就只是对另一个的细化或打磨。而这种 「精修式」 的想法,即便极富创造性,也只能带来渐进式的改进。


当一个领域足够庞大时,即便你刻意去研究看起来非常不同的思路,它们仍然与既有想法高度相关。比如,状态模型和 Transformer 看似是两种非常不同的注意力机制路线,但它们其实都在解决同一个问题。通过以这种方式改造注意力机制,所能获得的收益都非常有限。


这种关系在物理学中表现得尤为明显。曾经,物理学的进展可以由个体完成 —— 如今基本不再可能。


观念空间的核心困境在于:如果你的想法仍然处在同一个子领域中,那么几乎不可能产生有意义的创新,因为大多数东西早已被思考过了。因此,理论物理学家实际上只剩下两条有意义的路可走:要么对现有思想进行渐进式的修补与细化,其结果是影响微乎其微;要么尝试打破规则、提出非传统的想法,这些想法或许很有趣,但却很难对物理理论产生明确影响。


实验物理则直观地展示了物理层面的限制。为了检验越来越基础的物理定律和基本粒子 —— 也就是标准模型 —— 实验的成本正变得越来越高。标准模型并不完整,但我们并不知道该如何修补它。大型强子对撞机在更高能量下的实验,只带来了更多不确定的结果,以及对更多理论的否定。尽管我们建造了耗资数十亿美元、日益复杂的实验装置,但我们依然不知道暗能量和暗物质究竟是什么。


如果你想获得线性的改进,就必须付出指数级的资源。


GPU 不再进步了


我看到的最常见误解之一是:人们默认硬件会一直不断进步。几乎所有 AI 的创新,都由 GPU 的效率提升所驱动。


AlexNet 之所以成为可能,是因为人们开发了最早的一批 CUDA 实现,使得卷积能够在多张 GPU 上并行计算。此后的大多数创新,也主要依赖于更强的 GPU 以及更多 GPU 的使用。几乎所有人都观察到了这种模式 ——GPU 变强,AI 性能提升 —— 于是很自然地认为 GPU 还会继续变强,并持续推动 AI 的进步。


实际上,GPU 已经不会再有实质性的提升了。我们基本已经见证了最后一代真正重要的 GPU 改进。GPU 在 「性能 / 成本」 这一指标上大约在 2018 年左右达到了峰值,此后加入的只是一些很快就会被消耗殆尽的一次性特性。


这些一次性特性包括:16 位精度、Tensor Core(或等价方案)、高带宽内存(HBM)、TMA(或等价机制)、8 位精度、4 位精度。而现在,无论是在物理层面还是在观念空间中,我们都已经走到了尽头。我在论文中已经展示过 k-bit 推理缩放定律 :在特定块大小和计算布局下,哪些数据类型是最优的。这些结论已经被硬件厂商采纳。


任何进一步的改进,都不再是「纯收益」,而只会变成权衡:要么用更低的计算效率换取更好的内存占用,要么用更高的内存占用换取更高的计算吞吐。即便还能继续创新 —— 而因为线性进步需要指数级资源 —— 这些改进也将是微不足道的,无法带来任何有意义的跃迁。


虽然 GPU 本身已经无法再显著改进,但机架级(rack-level)的优化依然至关重要。


高效地搬运 KV cache 是当前 AI 基础设施中最重要的问题之一。不过,这个问题的现有解决方案其实也相当直接。因为在这个问题上,基本只存在一种最优架构。实现起来当然复杂,但更多依赖的是清晰的思路,以及大量艰苦、耗时的工程工作,而不是新颖的系统设计。


无论是 OpenAI 还是其他前沿实验室,在推理和基础设施栈上都不存在根本性的优势。唯一可能形成优势的方式,是在机架级硬件优化或数据中心级硬件优化上略胜一筹。但这些红利同样会很快耗尽 —— 也许是 2026 年,也许是 2027 年。


为什么「规模化」并不足够


我相信缩放定律,我也相信规模化确实能够提升性能,像 Gemini 这样的模型显然是优秀的模型。


问题在于:过去,为了获得线性改进,我们恰好拥有 GPU 指数级增长这一 「对冲因素」,它抵消了规模化所需的指数级资源成本。换句话说,以前我们投入大致线性的成本,就能获得线性的回报;而现在,这已经变成了指数级成本


它意味着一个清晰且迅速逼近的物理极限。我们可能只剩下一年,最多两年的规模化空间,因为再往后,改进将变得在物理上不可行。2025 年的规模化收益并不亮眼;2026 年和 2027 年的规模化,最好能真正奏效。


尽管成本呈指数级增长,目前的基础设施建设在一定程度上仍然是合理的,尤其是在推理需求不断增长的背景下。但这依然形成了一种非常脆弱的平衡。最大的问题在于:如果规模化带来的收益不明显优于研究或软件层面的创新,那么硬件就会从「资产」 变成 「负债」。


像 MoonshotAI、Z.ai 这样的中小型玩家已经证明,他们并不需要大量资源就能达到前沿性能。如果这些公司在 「超越规模化」 的方向上持续创新,它们完全有可能做出最好的模型。


规模化基础设施面临的另一个重大威胁在于:目前,大模型推理效率与庞大的用户基数高度相关,这源于网络层面的规模效应。要实现高效的大模型部署,需要足够多的 GPU,才能在计算、网络通信以及 KV-cache 分段之间实现有效重叠。这类部署在技术上极其高效,但必须依赖庞大的用户规模才能实现充分利用,从而具备成本优势。这也是为什么开源权重模型至今没有产生人们预期中的影响 —— 因为大规模部署的基础设施成本,要求必须有足够大的用户群体。


目前,vLLM 和 SGLang 主要在优化大规模部署,但它们并不能在小规模场景下提供同样的效率。如果有一套超越 vLLM / SGLang 的推理栈,人们就可以用与 OpenAI 或 Anthropic 部署前沿模型几乎相同的效率,来部署一个约 3000 亿参数的模型。一旦较小模型变得更强(我们已经在 GLM 4.6 上看到了这一趋势),或者 AI 应用变得更加垂直和专用,前沿实验室的基础设施优势可能会在一夜之间消失。软件复杂性会迅速蒸发,而开源、开权重的部署方案,可能在计算效率和信息处理效率上都接近物理最优。这对前沿玩家而言,是一个巨大的风险。


在规模化放缓的背景下,以下三种因素中的任何一个,都可能迅速而显著地削弱 AI 基础设施的价值:


(1)研究与软件层面的创新;

(2)强大的开源权重推理栈;

(3)向其他硬件平台的迁移。


从当前趋势来看,这对前沿实验室并不是一个乐观的局面。


前沿 AI 路径与理念


美国和中国在 AI 上采取了两种截然不同的路径。美国遵循的是一种 赢家通吃」 的思路 —— 谁先构建出超级智能,谁就赢了。其核心信念是:把模型做到最大、最强,人自然会来。


中国的理念则不同。他们认为,模型能力本身并没有应用重要。真正重要的是你如何使用 AI,这个模型是否实用、是否能以合理的成本带来生产力提升。如果一种新方案比旧方案更高效,它就会被采用;但为了略微更好的效果而进行极端优化,往往并不划算。在绝大多数情况下,「足够好」 反而能带来最大的生产力提升。


我认为,美国的这种理念是短视且问题重重的 —— 尤其是在模型能力增速放缓的情况下。相比之下,中国的思路更加长期、更加务实。


AI 的核心价值在于:它是否有用,是否提升生产力。正因如此,它才是有益的。就像计算机和互联网一样,AI 显然会被用到各个角落。这使得 AI 在全社会范围内的经济整合 对其有效性至关重要。


AGI 不会发生,超级智能是一种幻想


我注意到一个反复出现的模式:当你问硅谷的人 AGI 什么时候会到来,他们总会说 「再过几年」,而且会带来巨大冲击。但当你进一步问他们 AGI 到底是什么,他们的定义里既不包含任何物理任务,也不考虑资源投入。


真正的 AGI—— 能够做人类能做的一切 —— 必须具备执行物理任务的能力。简而言之,AGI 必须包括能够在现实世界中完成具有经济意义工作的实体机器人或机器。


然而,尽管家用机器人或许能帮你把洗碗机里的碗拿出来,但你不会看到它们取代工厂里的专用系统。工厂中的专用机器人效率更高、精度更强。中国已经证明,「黑灯工厂」—— 完全自动化的工厂 —— 是可行的。在受控环境中,大多数机器人问题其实已经被解决。而那些尚未解决的机器人问题,往往在经济上也并不划算。比如,把 T 恤的袖子缝上去仍是一个未完全解决的机器人问题,但在大多数情境下,这件事并没有多大的经济意义。


机器人领域的根本问题在于:学习同样遵循与语言模型相似的缩放定律。而物理世界的数据收集成本极其高昂,且现实世界的细节复杂到难以处理。


超级智能的根本谬误


超级智能这一概念建立在一个错误前提之上:一旦出现与人类同等甚至更强的智能(即 AGI),这种智能就可以自我改进,从而引发失控式的爆炸增长。我认为这是一个对整个领域有害的、根本性错误的观念。


其核心问题在于:它把智能视为一种纯抽象的东西,而不是扎根于物理现实的系统。要改进任何系统,都需要资源。即便超级智能在利用资源方面比人类高效,它依然受制于我前面提到的缩放规律 —— 线性改进需要指数级资源。


因此,所谓超级智能,更像是在填补能力空白,而不是推动能力边界外扩。填补空白是有用的,但它不会引发失控式增长,只会带来渐进式改进


在我看来,任何以 「追求超级智能」为主要目标的组织,最终都会遭遇巨大困难,并被那些真正推动 AI 经济扩散的参与者所取代。



是的,AGI 完全能够发生


看了 Tim Dettmers 的博客心凉了半截,虽说有理有据,Dettmers 认为将 AGI 的发展建立在物理和成本限制的基础上的观点自然是正确的,规模扩大并不是魔法,智能的进化仍需要高昂的成本。


但我总觉得这个观点有些偏激和悲观。或许 AGI 并不等同于指数增加的算力,软硬件发展或许仍有空间。


加州大学圣地亚哥分校助理教授 Dan Fu 对于 Dettmers 的博客持反对意见,他认为 Tim Dettmers 的分析遗漏了关于目前效率以及如何充分利用系统的关键信息,现在的系统仍有巨大的发展空间,目前还不存在实际意义上的限制。



这篇博客将论证当今的人工智能系统在软件和硬件效率方面还有很大的提升空间,并概述几条前进的道路。并将论证我们目前拥有的人工智能系统已经非常实用,即使它们不符合每个人对 AGI 的定义。



  • 博客链接:https://danfu.org/notes/agi/


当今的人工智能系统被严重低估


Tim 的文章中一个核心论点是:当今的 AI 系统正在接近 「数字计算的极限」。这一论点隐含了两个前提假设:其一,当下的模型(主要是 Transformer)已经极其高效;其二,GPU 的进步正在停滞 —— 因此,我们不应再期待通往 AGI 的进展能够以同样的方式继续下去。


但如果你更仔细地审视实际的数据,就会发现情况并非如此。我们可以从训练和推理两个角度更深入地分析,这将揭示出截然不同的前景和潜在的前进方向。


训练:当前的训练效率远未达到上限


今天最先进模型的训练效率,其实比它 「本可以做到的」 要低得多 —— 我们之所以知道这一点,是因为它甚至比几年前的效率还要低。一个观察这一问题的方式,是看训练过程中的 MFU(Mean FLOP Utilization,平均 FLOP 利用率)。这个指标衡量的是计算效率:你到底用了 GPU 理论算力的多少。


举例来说,DeepSeek-V3 和 Llama-4 的训练在 FP8 精度下只达到了大约 20% 的 MFU(。相比之下,像 BLOOM 这样的开源训练项目,早在 2022 年就已经达到了 50% 的 MFU。


这种效率差距主要来自几个因素,其中一个重要原因是:DeepSeek-V3 和 Llama-4 都是 混合专家(MoE)模型。MoE 层在算术强度上不如稠密 GEMM(矩阵乘)—— 它们需要更多权重加载的 I/O、更小规模的矩阵乘操作,因此更难达到高 FLOP 利用率。结果就是:相对于计算量,它们需要更多通信。换句话说,当下的模型设计并不是为了在 GPU 上实现最高的训练 FLOP 利用率。


此外,这些训练本身也已经是在上一代硬件上完成的。Blackwell 架构芯片的 FP8 吞吐量是 Hopper 的 2.2 倍,并且还支持原生 FP4 Tensor Core。再加上像 GB200 这样的机架级方案,以及通过 kernel 设计来实现计算与通信重叠,都可以缓解当前模型中的通信瓶颈。如果我们能实现高效、高质量、且 MFU 很高的 FP4 训练,理论上可用的 FLOPs 将提升到 最多 9 倍。


推理:效率问题甚至更严重


在推理阶段,情况实际上更糟。最优化的推理实现(例如 megakernel)甚至不再使用 MFU 作为指标,而是关注 MBU(Maximum Bandwidth Utilization,最大带宽利用率)。


原因在于:自回归语言模型的瓶颈通常并不在计算,而在于从 GPU 内存(HBM)把权重加载到片上存储(SRAM / 寄存器 / 张量内存)。最顶级的优化实现,目标是尽可能隐藏这种延迟,目前大约能做到~70% 的 MBU。


但如果你把视角切换回 MFU,你会发现 FLOP 利用率往往是个位数(<5%)。


这并不是物理或硬件层面的根本极限。仅仅因为我们最早规模化的是自回归架构(因此遇到了这些限制),并不意味着它们是唯一可行、也必须用来构建通用 AI 的架构。这个领域还很新,而我们几乎可以控制所有变量 —— 无论是软件(模型架构、kernel 设计等),还是硬件。


前进方向:还有大量可挖掘的空


一旦你真正理解了当前所处的位置,就会发现有几条非常清晰的前进路径,可以让我们更充分地利用硬件。这些方向并不轻松,但也并非天方夜谭 —— 事实上,每一条路径上都已经有实际进展正在发生:


1. 训练高效的架构协同设计(co-design)


设计能更好利用硬件的机器学习架构。这方面已经有大量优秀工作。例如,Simran Arora 关于硬件感知架构的研究,以及 Songlin Yang 关于高效注意力机制的工作,它们表明:


  • Transformer 并非只有一种形态,很多变体都能保持高质量;

  • 我们完全可以设计出在硬件利用率上更高、且能良好扩展的架构。


2. 高质量、 高效率的 FP4 训练


如果能够在 FP4 下完成训练,我们就能获得 2 倍的可用 FLOPs(推理侧已经开始看到 FP4 带来的加速)。目前已经有论文沿着这一方向展开探索,其中包括 Albert Tseng 和 NVIDIA 的一些非常出色的工作。


3. 推理高效的模型设计


如果我们能设计出在推理阶段使用更多 FLOPs 的模型架构,就有可能显著提升硬件利用率。这里值得关注的方向包括:


  • Inception Labs 和 Radical Numerics 的扩散式语言模型(diffusion LMs);

  • Ted Zadouri 关于 「推理感知注意力机制」 的研究。

  • 巨大但尚未被充分利用的算力来源:分布在全国乃至全球的手机和笔记本电脑上的计算资源 —— 能否找到办法,把这些算力用于推理?


当下的 AI 训练和推理范式中,仍然存在大量未被利用的余量。上述每一条研究方向,都是在尝试填补这些空隙,让我们用更高的硬件利用率训练出高质量模型。


模型是硬件的滞后指标


第二个重要观点是:模型的发布与能力水平,本质上是已经启动的硬件建设以及新硬件特性的滞后反映。


这一点从第一性原理出发其实并不难理解 —— 从一个新集群上线,到有人在其上完成预训练,再到后训练结束、模型真正能够通过 API 被使用,中间必然存在时间滞后。


集群规模(Cluster Size)


这里我再次以 DeepSeek-V3 为例 —— 我们非常清楚它使用了多少硬件、训练了多长时间。DeepSeek-V3 的预训练发生在 2024 年末,只使用了 2048 张 H800 GPU。即便在一年之后,它依然是开源模型生态中的重要参与者。


而我们也清楚,今天正在进行的集群建设规模要大得多:从初创公司部署的 4 万卡集群,到前沿实验室正在建设的 10 万卡以上集群。仅从纯粹的集群规模来看,这意味着高达 50 倍的算力建设正在发生。


新的硬件特性(New Hardware Features)


我们今天使用的大多数模型,在某种意义上也都是老模型,因为它们是在上一代硬件上训练的。而新一代硬件带来了新的特性,模型需要围绕这些特性进行(重新)设计。


FP4 训练,如果可行,是一个非常明确的突破方向;


GB200 的机架级通信域(NVL72 通过高速 NVLink 将 72 张 GPU 连接在一起)也是另一个极其清晰的突破点 —— 它们既能缓解第一点中提到的低 FLOP 利用率问题,也为探索全新的模型设计提供了杠杆。


我们目前仍然处在 Blackwell 硬件周期的非常早期阶段。就在最近发布的 GPT-5.2,是最早一批使用 GB200 训练的模型之一(尽管它似乎也同时使用了 H100 和 H200)。


此外,还有一些不那么显眼、但同样关键的硬件改进。一个例子是:在 B200 上,注意力计算是受限的,但瓶颈并不在 Tensor Core,而是在指数运算上。原因其实很简单 ——Tensor Core 在代际升级中快了 2.2 倍,但超越函数单元(transcendental units)的数量或速度却没有同比增长。好消息是,这类问题相对容易解决。B300 将超越函数单元数量翻倍,这在一定程度上可以缓解这一瓶颈。


这些硬件改进当然需要工程投入,但再次强调 —— 这并不是什么火箭科学。这里存在大量唾手可得的低垂果实。


前进路径


在理解了上述背景之后,我们可以给出一些具体且现实的前进方向,来进一步提升驱动顶级模型的有效算力:


1. 「加速等待」


在很大程度上,我们当前仍然是在观察那些基于上一代集群预训练的模型表现。而一些团队已经完成或正在完成新一代超大规模集群的建设。这很可能只是一个等待模型发布的阶段性问题。


2. 面向硬件的专项优化


还有大量工作可以围绕新一代硬件特性展开:例如我们前面提到的 FP4;再如围绕完整的机架级通信域来设计模型;或者针对 B200 / B300 上指数运算瓶颈的特性,对注意力机制进行适配和重构。


3. 新硬件与新的算力来源


最后,还有大量新硬件平台正在涌现,以及配套的软件栈,使它们能够被 AI 所使用。如今的新硬件平台几乎层出不穷,许多都专注于推理场景,这里我不点名任何具体方案。但只要其中任何一个真正产生重大影响,整个局面都会被彻底改写。


距离有用的 AGI 到底还有多远?


最后一个观点,关注点已经不再主要是系统层面或算力层面的 AI,而是 AGI 究竟意味着什么,以及要产生真实、可观的影响究竟需要什么。


理解这一部分的一个角度是:即便世界上所有系统层面和效率层面的进步都突然停滞,那么距离 「有用的、类似 AGI 的能力」 真正落地,我们还差多远?


如果你把 AGI 理解为一种 「魔法棒」—— 可以挥一挥就完成地球上任何一个人能做的任何事情 —— 那显然我们还远远没有到达那个阶段。


但如果换一种更务实的定义:一套在某些任务上比大多数人做得更好、并能产生巨大经济影响的通用工具体系,那我们或许并没有想象中那么遥远。


在这里,我认为有必要回头看看仅仅两三年前的状态。无论是开源模型还是前沿模型,今天所能做到的许多事情,在当时几乎都像是魔法。就我个人而言,像 Claude Code、Cursor Composer 这样的工具,已经越过了一个关键阈值 —— 我写的大多数代码,已经是由模型生成的(这篇博客本身我倒还是用 「传统方式」 写的)。


在 GPU 内核工程这个领域,大模型带来的影响,有几点尤其让我感到惊讶:


  • 在人类参与的前提下,这些模型已经非常擅长编写 GPU 内核代码。它们还没到完全零样本(zero-shot)的程度,但只要提供足够的上下文和引导,就可以实现跨越栈中多个部分的复杂功能。这本身就是一种极具挑战性、且在现实中非常稀缺的工程能力,即便对资深程序员来说也是如此。

  • 这些模型在编写工具链和构建可视化方面表现极佳,帮助我们理解下一步性能优化该往哪里推进 —— 从日志系统,到工作负载模拟,再到性能瓶颈的可视化分析。

  • 即便只在现有能力基础上小幅前进,也不难想象模型能接管更大比例的技术栈,尤其是在人类参与的控制模式下。事实上,这一代模型已经好用得离谱了。


即使假设我们无法获得任何更高效的新算法或新硬件,我们可能已经掌握了一种方法,可以构建在特定领域中解决或加速 95% 问题的通用 AI 智能体或模型


至少可以肯定的是,我们已经拥有了一整套工具,只要配合合适的数据收集方式(例如 RLHF、构建强化学习环境)以及领域专家知识,就能被迁移到各种不同问题中。编程之所以最先被攻克,一个很自然的原因是:几乎所有 AI 研究者都会写代码,而它本身又具有极高的经济价值。


当然,这里也正是 AI 研究的 「主战场」。在上述约束条件下,我们仍然可以设想多种推进 「有用 AI 工具」 的方式:


1. 新的后训练范式(Post-training formulas)


今天我们所说的后训练,既新也旧 —— 新在具体实践方式(大规模 RLHF、构建环境测试模型等),旧在其核心思想本身。市面上之所以会出现诸如 Tinker 以及各种微调 API 平台,并非偶然。


2. 更好的样本效率(Sample complexity)


构建在更少数据、更少样本下也能学得更好的训练系统,或者设计更优的数据筛选算法,以提升样本效率。总体而言,「以数据为中心的 AI(data-centric AI)」这一研究群体,正持续在改善这一局面。


3. 传统意义上的 「硬功夫」和领域经验


最后,即便我们自缚双手,假设模型能力完全不再提升 —— 仍然有大量应用场景和垂直领域,今天的 AI 模型就已经可以产生巨大影响。即使模型质量被冻结,系统层面的效率改进,也足以让许多高影响力应用真正落地。


我们仍然处在理解和构建这项新技术的非常早期阶段。从如何将其用于真实世界的影响,到如何让它更好地为人类服务,还有大量工作要做。这是一个令人兴奋的时代。


结论:通往 AGI 的多条道路


这篇博客的核心观点是:当前的 AI 系统仍然存在巨大的提升空间,而通往更强 AI 的道路也远不止一条。只要仔细观察,你会发现通向至少一个数量级(10×)算力提升的具体路径和研究议程。


回到这篇文章最初的动机:我非常欣赏 Tim 那篇博客的一点在于,它愿意直面从今天走向未来所必须跨越的具体障碍。我们可以共同设计更好地利用现有和未来硬件的新模型,也可以沿着多条路径推进,构建更强、更有用的模型。而将潜在路障如此清晰地摊开讨论,本身就为 「接下来该做什么、如何去做」 提供了一张路线图。


三点总结


1. 当前 AI 系统对硬件的利用率极低。通过更好的模型–硬件协同设计,我们可以实现更高的 FLOP 利用率,获得更多 「有用的 FLOPs」。


2. 当前模型是硬件建设的滞后指标 —— 无论是 GPU 的绝对数量,还是新硬件特性的利用程度。


3. 即便不依赖系统层面的进一步改进,我们仍然可以通过更好的算法,让今天的模型在更广泛的领域中变得极其有用。事实上,今天的模型已经非常有价值了。


当然,前方一定会有技术挑战。但我个人非常欢迎这些挑战,也期待看到研究者和工程师们接下来会给出怎样的答案。从事 AI 与系统研究,从未有过比现在更好的时代,也从未如此令人兴奋。


完整内容,请参阅原始博客。

浏览 (12)
点赞
收藏
评论
到底啦