发布于 12小时前

“人类考题被AI刷爆！” 陶哲轩、马克·陈对谈：大模型已不是“数学学渣”

陶哲轩与Mark Chen炉边谈话：探讨AI对数学研究、科研范式的重塑

文丨苏扬

编辑丨徐青阳

日前，在纯数学与应用数学国家研究所（IPAM）举办的研讨会上，菲尔兹奖得主陶哲轩以及OpenAI首席研究官马克·陈（Mark Chen）参加了“炉边对话”，两人谈到了AI在过去一年中的飞跃式进展，以及它将如何从根本上改变数学研究的方式。

在对话中，陶哲轩与马克·陈讨论了AI能力的关键变化：一年前，陶哲轩曾评价GPT在数学上的表现“像一个非常低效的研究生”，而今天，AI已在IMO竞赛中斩获金牌级成绩，人类编写的基准测试正被迅速“刷爆”。

可以说，在数学领域，大模型基本摘掉了“学渣”的标签。

在陶哲轩看来，数学是实验便宜的地方，也是试错便宜的地方。“如果你是工程师，桥塌了，那是昂贵的错误；如果你是外科医生，切错了器官，那是昂贵的错误。”

随着AI开始快速解决部分长期无人问津的Erdős问题，数学界也在重新思考研究分工、人机协作以及教育体系的变化。当计算与验证可以外包给机器，数学研究的形态可能正悄然发生转变。

以下是陶哲轩与马克·陈“炉边对话”精炼版：

问：一年前你们对AI在数学中的表现有何评价？过去一年发生了哪些变化？

陶哲轩： 变化非常大。AI本身在进步，但更重要的是，它已经开始融入我们的日常研究。现在的深度研究和文献搜索，效果已经远超传统方式，代码生成也相当可靠。

菲尔茨奖得主、华裔数学家、加州大学洛杉矶分校教授陶哲轩

作为纯数学家，我并不重度依赖AI，但它确实改变了我处理问题的习惯。比如想验证某个猜想，我会先让AI试试；知道怎么证明但懒得动笔的“引理”，就扔给它做。不过，真正攻关最棘手的问题时，还没法和它深入对话，至少现阶段还不行。

从更大的层面看，数学界开始意识到AI已经落地，我们的工作方式必须调整。以前推给研究生做的那些繁琐事，现在可以交给AI，这为以前不敢想的大规模研究项目打开了可能性。

所以，虽然用AI辅助现有流程还有点生硬，我更看好的是为AI重新设计一套工作流程。这就像汽车发明后，城市不能只为骑马的人规划道路，我们现在就处在这个过渡期。

马克·陈： 我不怪陶一年前说AI像低效研究生，当时确实如此。我们内部有个指标叫"自主工作时长"，用来衡量模型能连续工作多久不崩溃。去年还在"分钟级"，动不动就产生幻觉，任务一多就乱套。

OpenAI首席研究官马克·陈

但对很多人来说，过去一年是个转折点：错误减少了，可以放心让AI做更长时间的工作。这就让我们摆脱了过去那种大量的"脚手架"式辅助，开始真正碰更大的问题，和模型形成协作。

打个比方：一年前，AI大概能在IMO里拿铜牌；今年夏天，在所有高中数学和编程竞赛里，它已经在拿金牌了。人类编写的那些基准测试，快被我们跑穿了。所以大家开始把目光转向数学研究领域，这才是我们的目标。

OpenAI不是为了解几道奥数题，真正的野心是推动科学前沿发展。现在，任务的时间跨度已经很长，我们真的可以开始做这件事了。虽然还没完全做到，但趋势已经很明显。

问：Erdős问题的解决情况是否代表了AI当前的能力？

陶哲轩： 我一直在关注Erdős问题集。这些问题难度差异很大，有些困扰了学界几十年，我自己也发过论文只取得一点点进展，这些难题AI确实帮不上忙。

但Erdős提出了上千个问题，其中不少属于"长尾问题"，长期无人问津，几乎没有后续研究。这正是AI取得突破的地方：大概有二三十个这样的问题，在极少人类监督下被AI解决了，而且通常可以用其他AI工具来验证。这说明我们已经摸索出一套工作流程，不会被AI的错误答案淹没。

这件事让我看到一种文化转变的可能：数学家不应该只盯着那几个极难的问题，而应该开始发布自己真正想要答案的问题清单，比如列出一百个问题，也许AI能解决10%，某个高中生能解决另外5%。用这种社区驱动的方式推进数学研究。

问：数学会像生物学那样变成大团队协作吗？

马克·陈： 趋势很明显。在其他科学领域，论文合作者数量随时间指数增长，数学和理论物理是例外。但现在我们看到了变化。像"首次证明"和Erdős问题这样的项目，正是通过与社区深度互动，找出真正值得攻克的问题。

我们在物理学也做过类似尝试，请来顶尖物理学家制定AI可处理的重要问题清单，这反过来帮助我们改进模型。我们想做的是搭建一个平台，让全球科学家加速自己的研究，赋能整个数学社区。

现在已经能看到20出头的年轻人在用模型自主解决问题。虽然还不是重大突破，但这已经足以改变整个研究生态了。

问：AI能否实现数学研究的分工？

陶哲轩： 这恰恰是AI最有潜力的地方。传统上，数学家要包揽所有环节：提出问题、想策略、选策略、执行策略、验证结果、写成论文。我们训练每个人在每个环节都还行，最多是按领域专精。但没法像工业那样真正分工，不能有人专门做技术，有人专门做项目管理。

现在有了AI和形式化验证工具，就有可能让数学项目像现代工业一样运转：每个人只专精一个环节，合作中某个环节没人会做，就让AI顶上。当然，目前AI的能力还参差不齐，不能全盘自动化。比如你让AI批量生成策略，但验证跟不上，就会收到成百上千个策略却无法处理。等哪天验证能力也跟上了，就会出现一种全新的、极其高效的做数学的方式。

马克·陈： 我想补充一点。AI能力确实参差不齐，所以人机协作很有效。但有意思的是，AI在某些方面比你想的更接近人类，你得用大量强化学习训练，才能避免它像人一样轻易放弃。

例如，给太难的题目，模型跑几个测试就会想："太难了，我做不到，假装努力一下吧。"我们在Erdős问题上就见过：让AI解题，它第一件事是去网站查，发现是开放问题，直接放弃。你得告诉它：别上网，自己解，其实没那么难。

问：未来会是人类与众多AI智能体协作，还是AI主导？

陶哲轩： 我觉得是，也不是。我们现在做的这类数学可能会慢慢朝那个方向发展，但同时也会出现全新的、现在无法想象的数学形式。数学是无限的，难度没有上限，有些问题甚至不可解——AI不可能挖出所有比特币。总会有前沿存在。人类和当前大语言模型的能力正好互补，我相信最好的组合永远是复杂的"人+机"组合，只是这种组合的性质会随着时间改变。

问：要到达更高智能，靠算力还是靠算法？

马克·陈： 二者缺一不可。OpenAI的整体研究思路，本质上是如何改进算法，让算法能扩展到我们明年、后年拥有的算力规模。我们知道的算法都很基础，也能扩展，但需要大量工程和微调，才能确保它们真正适应下一个数量级。

好消息是，这是个多维问题。我们可以扩大模型规模，构建更大的"大脑"，装进更多知识。知识越广泛深入，就越容易建立联系、实现跳跃。我们也可以扩展推理维度，让模型把知识串联起来创造新见解。还可以让模型为自己生成新知识，在特定领域放大能力。所有这些维度一起发力，推动模型向更自主、更长周期的任务迈进。

问："首次证明"项目代表了未来数学的形态吗？

陶哲轩： 它会是未来数学图景中的一个点。"首次证明"是个很有意思的实验，AI生成的各种证明质量不错，但我们也确实看到了明显的"验证瓶颈"。我们生成了很多证明，有些很糟糕，有些还不错，有些和文献里的差不多。但要仔细评估每个证明有多新颖、多有趣，目前还没有有效的方法。

为了用好AI的新能力，我们需要设计容易验证的挑战。某种程度上，你能用多少AI、能实现多少自动化，取决于你验证能力有多强，两者是成正比的。所以进展会先在那些容易形式化的领域出现，比如组合数学，或者那些找到答案就能轻松验证的数值型问题。

但数学的其他领域就不一样，比如要找一个全新的理论、一个新的猜想、一个新的解题策略，这些东西验证起来就难得多。AI生成一百个策略，最后只能靠人类专家来评估，这就是一个瓶颈。

问：目标设定不当会有什么问题？

陶哲轩： 这是个很微妙的问题。AI几乎太擅长不折不扣地执行目标了。你让它解一道题，想要一个定理的证明，也许未来某天AI真能直接给你一个答案。但你真正想要的，其实是人们努力的过程：尝试、失败、找反例、查文献、交流阶段性成果，这些才是解决一个问题的真正价值所在。如果你把目标定义得太窄，很可能就把这些价值全丢了。所以我们必须更小心地设定目标，要保留研究过程中的偶然性和探索空间。

马克·陈： 这让我想起一个有趣的思维实验：你可以训练一个模型，让它只掌握截止到某个具体时间点的知识，然后想象在那个时间点做"首次证明"会是什么样子。现在我们有了后见之明，知道哪些技术值得追求，也知道模型的创造力大概在什么水平。为了获得最大信号，你会选择哪一天作为知识截止日期？这个问题值得琢磨。

问：数学的验证能力是否应该复制到其他科学领域？

陶哲轩： 我坚信一点：在一个工作流程里，你能用多少AI是有上限的。超过了这个上限，就会变成净损失，也就是带来的错误比解决的问题还多。而这个上限很大程度上取决于验证能力。

数学最有条件实现高水平的自动化，因为我们的验证标准很严格，至少在证明具体问题时是这样。但验证本身也有弱点：自然语言可以被恶意利用。一个AI可能表面上表现很好，勤勤恳恳地证明问题，背地里悄悄在形式系统里多加几条公理。你可以试着阻止它，但如果AI太强大，你可能不得不限制它的能力。

在其他科学领域，也可以用一些方法做验证，比如数值模拟在某些情况下就可以当验证器用。但你不能完全依赖它。比如你训练AI模仿数值模拟来预测天气，它可能会抓住模拟中的某些非真实特征，一开始效果还行，但迟早会失效。我们需要更清楚地了解验证器的局限性。

很多验证系统在正常使用时没问题，但如果你专门训练一个AI去利用这个验证器来最大化输出，它一定会找到漏洞。AI是个极其精明的作弊者。

问：OpenAI为何如此重视数学和物理？

马克·陈： 根本原因在于，我们已经用完了好的、由人类编写的评估标准。而科学本身，就是现在最好的评估标准。

数学尤其让人兴奋，因为你可以去攻克一个定理，在大多数情况下能够验证它是否正确，并且有把握自己确实在推动前沿。物理学也有类似的尝试，虽然有些问题（比如某个常数太小）听起来有点模糊，但你仍然可以构建出相当形式化的系统。这让我们能够在数学和物理这两个领域真正推动前沿。

但我们如此关注自然语言中的推理，还有一个更深层的原因：我们关心泛化能力。我们希望能够把推理能力延伸到像生物学这样的领域，并在那里创造突破。在数学里，突破很清晰：比如你解开了纳维-斯托克斯方程，那就是个重大突破。自然语言是表达这种能力的好方式，某种程度上也能帮我们避免掉进“只会在已知技术工具箱里打转”的陷阱。

问：数学作为AI试验场有何优势？

陶哲轩： 用大数学家弗拉基米尔·阿诺德 ( Vladimir Igorevich Arnold）的话说：“数学是实验便宜的地方。”它也是失败便宜的地方。

如果你是工程师，桥塌了，那是昂贵的错误；如果你是外科医生，切错了器官，那是昂贵的错误。但在数学里，你试图证明一个定理，证明策略走不通，这算不上昂贵错误。我们有一种从错误中学习的文化，比其他学科浓厚得多。对于AI实验来说，数学是一个安全得多的场所，比桥梁建设或者心脏手术要安全得多。

马克·陈： 这正是我们在OpenAI思考问题的方式。我们开发AI的终极目标，是用它来开发更强大的AI，形成一个“飞轮”。但构建更强的模型是非常昂贵的事情，一旦搞砸了系统，计算资源就危险了，跑错的实验会烧掉大量资金和算力。所以数学和物理确实是推动前沿的安全领域。

问：数学教学会因此改变吗？

陶哲轩： 改变是不可避免的。每周的家庭作业已经成为首当其冲的牺牲品，学生完全可以用AI完成。但换个角度看，现在我们可以推动学生去做更有雄心的事情。

我在小班教学里，已经更多地转向项目型评估和口头评估。未来需要教授的技能也会不同：独立验证AI输出的能力会变得至关重要，还有与人合作的软技能。过去我们在这方面做得并不都好，但必须改进。

变化的速度很快，教育系统并没有那么快地跟上。但迫于无奈，我们会被迫改变。新冠期间我们对课程做过紧急调整，还算管用，但体验不太好。希望这次我们能多做些规划。

问：你观察到学生分化吗？

陶哲轩： 是的，我注意到家庭作业成绩在上升，而现场考试成绩在下降，最弱的学生用AI也能达到中等水平。然而，最聪明的学生反而倾向于避免使用AI，担心过度依赖会让自己的技能萎缩。从某种意义上说，AI成了一个均衡器。

但一旦你拥有了一定的专业知识，这些工具就会变得很好用。也许未来的家庭作业不再是提交答案，因为任何人都可以把问题输入AI得到结果，而是提交"你用了什么提示词才得到这个答案"。这可能会成为一种更有趣的评估方式。我们必须想清楚：就像AI会优化我们给它的任何奖励函数一样，我们给学生的奖励函数也会产生很大影响。

问：完全依赖AI会失去什么？

陶哲轩： 我认为我们很快就会从经验中看到答案。我之前说过，AI让很多环节可以解耦，这对分工有好处，效率更高。但这也意味着，以前设定模糊目标是可行的，因为人类在朝着目标努力的过程中，会顺带触及很多周边的东西。

打个比方：你想去看山上的一个漂亮瀑布。你徒步旅行，路上可能会看到有趣的野生动物，或者瞥见一个更好的、将来想去的地方，也许还会遇到其他徒步者聊上几句。这种偶然性是自然发生的。过去我们说去看瀑布是个好主意，但并没有仔细分析我们为什么这么做，实际的好处是什么。现在有了AI直升机，直接把你空投到瀑布跟前，你拍了张照片——但也许那不是你唯一想要的东西。

不幸的是，我们只能通过经验来学习这一点。很难去浪漫化"旅程"本身，但只有当我们真正失去它时，才会明白错过了什么。

马克·陈： 我们确实在关注这个问题。就在今天，我们发布了学习成果测量套件，用来评估人类在使用模型时是否真的在学习。这是一个活跃的研究方向。

问：未来一年你们期待什么进展？

陶哲轩： 我真心希望能看到更多像"首次证明"那样的挑战性数学项目。比如某个数学家小组创建一个好的问题集，他们希望其中一定比例的问题能被解决，有清晰的难度梯度和验证流程，然后向整个社区开放。这样就能充分利用AI、互联网和梅特卡夫定律：如果有n个人能提出问题，有n个人能解决问题，就有n平方种可能的连接。

数学家们一直不太擅长利用这种大规模网络。所以我们会看到一种近乎"市场"形态的研究数学的方式。我觉得一年后可能就会开始出现。

马克·陈： 我在想，机器学习的发展某种程度上预示了数学的未来。看看今天前沿实验室的研究科学家是怎么工作的：他们能并行探索很多想法，真正扮演起"指挥者"的角色：想到一个点子，设计一系列实验变体，然后让模型去执行和实现。

我希望数学界也能出现类似的范式：让顶尖数学家能用很少的手把手指导，去探索相当广泛的想法和策略。任务的时间跨度会继续延长，一年前我们还在"分钟级"，一年后可能达到"多天级"，你可以放心让模型去做需要那么长时间的任务。再下一步，就是确保交互足够自然，让这些工具能和人类群体无缝协作。

最后，我真的希望我们能有一个真正的大突破，无论是在数学、物理学还是生物学领域。

问：世界模型能解决幻觉问题吗？

陶哲轩： 这是一个很有前景的研究方向。大语言模型确实很出色，甚至出色到我们把整个AI基础设施都围绕它来建造，力求让它变得更强大。但这样做可能会挤掉其他同样有价值的研究路径，比如那些以完全不同的方式、各有所长的智能辅助方法。

所以我非常支持对世界模型的研究。不过我觉得在相当长一段时间内，世界模型还是难以和大语言模型抗衡。毕竟后者已经积累了巨大的发展势能和完整的基础设施。就像我们的城市都是围绕汽车和汽油建造的，有了这套体系，替代交通工具就很难突围。

马克·陈： 如果你指的是纯粹的、能生成视频的世界模型，我们离那一步还很远。现有的视频模型确实是相当好的物理模拟器，但你给它们一点压力，它们也会崩溃。我相信随着时间推移它们会越来越强，但现在还没到那一步，虽然我们在这方面投入相当大。

世界模型有很多种。其实你也可以把大语言模型看作一种世界模型。但我特别关注的是数字世界模型，就是我们和计算机交互，有明确的规则和反馈的系统。这个领域非常重要也很有趣，我觉得我们很快就会攻克它，并从中获得巨大价值。

问：数学要求可验证，这是局限吗？

陶哲轩： 我不觉得是局限，反而会催生新的数学任务。举个例子：现在所有国际象棋棋手都用引擎训练。引擎会随时给出局面的分数，这对棋手来说是极好的信号，你能得到即时反馈。

可以想象一个AI数学教练：当你在试图证明时，每次你说"我想试着推导出矛盾"，AI告诉你"这个方向分数在下降，可能不是好主意"，你就可以退回去尝试别的路。

一个好的数学教练能做到这一点。所以我们必须有创造力。也许AI能帮我们完成一些今天根本想不到的任务。

马克·陈： 验证很重要，但它不一定是形式化的验证。我们真正想知道的是为什么某件事是真的。这其实是更深层的对齐问题的一部分：当AI在处理现实世界中重要的任务时，你想知道它为什么做出某个决定。

比如AI说这是发展业务的最佳策略，你肯定不希望它在没有合理解释的情况下就这么做。所以我们有很多对齐技术，比如"辩论"这种方法。即使你拿不到一个无懈可击的形式化证明，你也可以理解它的大致思路，和它互动、质疑它。所以对辩论、对齐这些技术的投入，未来会真正帮到我们。

问：功劳归属和激励问题怎么解决？

陶哲轩： 这是个重要的问题。一个可行的办法是推动挑战性问题，即让研究者主动创建他们希望被解决的任务数据集。这样做的好处是双赢的：创建数据集的人能获得部分问题的答案，而这些数据集对训练和校准AI也很有价值。所以某些情况下，双方都能受益。

但问题在于，有些人花费巨大代价建立数据集，初衷并不是为了训练AI。结果这些数据被吸收进各种模型后，贡献就难以追溯了。这涉及知识产权问题，非常棘手。

马克·陈： AI本身并不在意功劳归谁。我们推动"开放科学"计划，不是为了索取认可。我们当然有推进科学的雄心，但真正想做的是搭建一个平台，让全球数学家能加速整个领域的发展。

我们不知道正确的问题是什么，我们也不是OpenAI内部的指挥者，功劳应该属于在座的各位研究者。

另外还有一个公关层面的问题。比如DeepMind，他们本可以更努力地去宣传蛋白质数据库以及背后数十年的科研积累。有些事与AI模型本身无关，而在于我们如何通过公关和公告来讲述这些故事，把功劳还给那些长期耕耘的人。

问：从数学、物理还能产生什么协同效应？

马克·陈： 我们确实关心数学和物理之外的领域。比如生物学，我们让AI去优化湿实验室的实验流程，使其更高效。

与合作伙伴Ginkgo Bioworks一起，我们改进了他们的许多核心流程，成功将合成蛋白质的成本降低了40%。这只是能推动更多进步的基础性突破。

你可以想象，在材料科学和其他领域，类似的协同效应还有很多。

特约编译金鹿对本文亦有贡献

AI资讯

浏览 (2)