发布于 2026-01-21 10:38:47

上海人工智能实验室让AI像科学家一样在探索中发明工具

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

真正的科学发现不是在现成的工具箱里翻找答案，而是在面对未知时亲手锻造出那把开启真理之门的钥匙。

上海人工智能实验室、复旦大学、厦门大学、澳门大学、清华大学、杭州电子科技大学研究团队提出了推理时工具演化（Test-Time Tool Evolution，简称 TTE）框架，推动了人工智能在科学领域从被动选择工具向主动发明工具的范式转变。

通过在推理过程中动态合成、验证和精炼计算工具，解决了传统静态工具库在面对复杂、开放式科学问题时的匮乏与僵化问题。

实验证明，这种让智能体在探索中进化的模式，不仅显著提升了物理、化学、材料等学科的推理准确率，更赋予了 AI 跨学科的知识迁移能力，标志着通用科学人工智能迈出了关键一步。

智能体从使用者进化为创造者

科学研究的本质是一场向未知的远征，而工具则是探险者的武器。

在过去几年里，大语言模型展现了惊人的推理天赋，但它们在面对严谨的科学计算时，往往会陷入幻觉的泥潭。

为了给这些大脑装上手脚，研究者们为其配备了各种工具库，试图让 AI 学会调用计算器、搜索引擎或专业的化学模拟软件。

这种模式被称为静态工具范式。

它假设人类可以预先穷尽科学探索中可能用到的所有工具，并将其整齐地摆放在货架上供 AI 挑选。

然而，科学世界是开放且无穷无尽的。

面对一个全新的药物分子合成路径，或者一个从未被观测到的物理现象，现有的工具库往往显得捉襟见肘。

静态工具库面临着两个致命的瓶颈。

首先是科学工具的极端稀疏性与异构性。

与日常生活中订机票、查天气等标准化任务不同，科学计算函数散落在各个学科的角落，缺乏统一的标准，想要人工构建一个全知全能的工具库在计算上是不可行的。

更深层的危机在于，静态库无法预见未来的需求。

科学探索往往需要量身定制的计算原语，如果智能体只能在给定的选项中做选择，它就永远无法成为真正的发现者，而只能是一个高级的实验员。

这种局限性给 AI 的潜力设定了一道人工天花板。

为了打破这道天花板，研究者提出了推理时工具演化。

这是一种全新的思维方式，它主张工具不应该是固定的资源，而应该是随问题而生的产物。

在 TTE 框架下，智能体在接到任务的那一刻，不再去翻找旧的工具箱，而是开始思考：为了解决这个问题，我需要什么样的工具？如果没有，我就现场发明一个。

这种从检索到演化的转变，模仿了人类科学家在实验室里改进仪器、编写代码的过程。

这种进化的核心在于将工具的生命周期与推理过程深度融合。

当 AI 遇到一个复杂的物理难题，它会先将问题拆解成一个个微小的步骤。

如果现有的工具无法完成某个步骤，它就会利用自身的编程能力，即时合成一段可执行的代码。

合成并不是终点，严谨的科学不容许任何差错。

每一个新生的工具都要经过严格的审判。它必须通过语法检查、执行测试以及领域逻辑的验证。只有那些被证明准确无误的工具，才能进入智能体的武器库。

这种模式让工具库变成了一个活的生态系统。

随着解决的问题越来越多，工具库也在不断生长、迭代和精炼。它不再是一个死板的清单，而是一部记录着智能体成长历程的进化史。

这种转变带来的直接好处是极高的灵活性。

在传统的模式下，如果想让 AI 处理一个新的学科，研究者必须手动编写大量的接口和文档。

而在 TTE 模式下，AI 可以在解决问题的过程中，自动摸索出该学科所需的计算逻辑。

研究团队为此构建了一个名为 SciEvo 的基准测试。

它包含了 1590 个科学推理任务，涵盖了物理、化学、材料科学和数学四大领域。

在这个测试场中，AI 成功演化出了 925 个高效的工具，这些工具并非由人类预设，而是 AI 在实战中磨砺出来的。

实验数据展示了这种进化力量的威力。

在 SciBench 和 SciEval 等权威科学评测中，采用 TTE 范式的智能体在准确率上全面超越了现有的所有基准模型。

更令人惊讶的是工具的复用率，AI 发明出的许多工具在后续的任务中被反复调用，形成了某种意义上的科学常识。

这种能力的提升并非偶然。当 AI 能够自主创造工具时，它实际上是在构建一套属于自己的知识表示体系。

它将深奥的科学原理转化为了可执行、可验证的代码片段，从而跨越了自然语言与严谨科学之间的鸿沟。

动态合成范式重塑实验室逻辑底座

要理解 TTE 如何在推理时完成工具的自我演化，我们需要深入其内部的逻辑工厂。

这个工厂由五个紧密衔接的模块组成，它们共同构成了一个闭环的进化系统。

一切的起点是结构化任务分解。

科学问题往往像一座迷宫，直接寻找出口几乎是不可能的。

问题分析器（Problem Analyzer）扮演了向导的角色，它将复杂的查询拆解为一系列可执行的子目标。

这种拆解是具有工具意识的。

它不仅仅是逻辑上的分步，更是对计算需求的精准识别。

例如，当面对一个计算铁块在特定温度下熵变的物理题时，分析器会敏锐地察觉到，第一步需要将摄氏度转换为开尔文，第二步则需要应用热力学公式进行计算。

这种颗粒度极细的分解，为后续的工具调用打下了基础。

它将一个庞大的未知问题，转化为了若干个已知的或可解决的小任务。这种化繁为简的策略，正是科学思维的精髓所在。

接下来进入动态工具检索阶段。

系统会拿着拆解出的子目标，去现有的工具注册表（Dynamic Tool Registry）中寻找匹配项。

这种寻找不是简单的关键词匹配，而是基于语义相似度的深度检索。

如果库里已经有了现成的工具，系统会毫不犹豫地复用它。

这种对已有成果的尊重，保证了系统的运行效率。然而，真正的魔法发生在检索失败的时候。

当现有的工具库无法满足需求时，生成式工具合成（Generative Tool Synthesis）模块会被激活。

这不再是简单的代码补全，而是一次严谨的创造过程。智能体会根据当前的问题背景和子目标要求，利用思维链（Chain-of-Thought）推理，构思并编写出一段全新的 Python 代码。

为了确保这段代码不是空中楼阁，工具验证器（Tool Verifier）会对其进行全方位的体检。

首先是语法检查，确保代码能够跑通；接着是执行测试，验证其逻辑是否符合预期；最后是领域验证，确保其计算结果在科学上是合理的。

只有通过了这重重考验的代码，才有资格被称为工具。

这种严谨性确保了演化过程不会演变成错误的堆砌。

然而，仅仅合成出工具还不够。

为了让系统具备持续进化的能力，还需要进行原子化工具精炼（Atomic Tool Refinement）。这是一个去粗取精的过程。

很多时候，AI 合成出的工具是针对特定问题的复合体。

原子化分解器（Atomic Decomposer）会将这些复杂的工具拆解为最基础的细胞工具。

例如，一个计算特定分子热稳定性的复杂函数，可能会被拆解为分子量计算、键能求和等更基础的原子操作。

这种拆解极大地提升了工具的可复用性。基础的原子工具就像乐高积木，可以被灵活地组合起来解决各种不同的新问题。

为了防止工具库变得臃肿，冗余检查器（Redundancy Checker）会利用语义相似度算法，剔除那些功能重复的工具。

只有那些真正独特的、有价值的计算原语，才能最终在注册表中获得一席之地。

这种精炼过程让工具库始终保持着高度的活力和效率。它不仅在解决当前的问题，更是在为未来的挑战储备能量。随着处理的任务越来越多，这个库会变得越来越深邃，涵盖的科学规律也越来越丰富。

运行时执行引擎（Runtime Execution Engine）是这个工厂的最后一道工序。

它将检索到的和新合成的工具串联起来，像流水线一样依次执行，最终输出精准的科学答案。

这种闭环架构彻底改变了 AI 处理科学任务的方式。它不再是一个静态的知识库，而是一个动态的逻辑引擎。它能够根据环境的变化，实时调整自己的功能边界。

在实验中，研究者观察到了一个有趣的现象。

随着演化的深入，工具库中出现了一些高频调用的核心原语。这些原语往往对应着学科中最基础的物理定律或数学方法。

这种现象证明了 TTE 确实能够从海量的具体问题中，提炼出具有普遍意义的科学规律。

这与人类科学家的成长路径如出一辙：从解决具体的习题开始，逐渐掌握通用的公式和定理。

通过原子化精炼，AI 能够发现不同问题之间的内在联系，从而实现知识的跨任务共享。

这种能力的价值在处理长尾问题时体现得尤为明显。

在科学研究中，绝大多数问题都属于长尾分布，即每一个具体的问题都可能带有独特的约束条件。

静态工具库在面对这些千变万化的细节时往往无能为力，而 TTE 则可以通过动态合成，为每一个细节量身定制解决方案。

跨越学科边界的计算原语演化之路

科学的疆域虽然广阔，但其底层的逻辑往往是相通的。

物理学的能量守恒定律在化学反应中同样适用，数学的微积分方法则是所有自然科学的共同语言。

TTE 范式最令人振奋的能力之一，就是它能够实现跨领域的工具迁移与适配。

研究团队设计了一个极具挑战性的实验：让一个在材料科学领域磨砺出的智能体，去解决化学和物理领域的问题。这被称为 TTE-Adapt（跨领域工具适配）任务。

在传统的静态范式下，这种跨界几乎是不可能的。

一个专门为材料学设计的工具库，在面对有机化学的合成路径时，就像是拿着木工工具去修表，完全对不上号。

然而，在 TTE 框架下，智能体展现出了惊人的适应性。

它并不是简单地搬运旧工具，而是进行了一场深刻的自我重塑。

当智能体进入新领域时，它会启动一种自适应替换机制。

它会敏锐地察觉到哪些旧工具在新环境下是无效的，甚至是有误导性的。通过冗余检查和实时验证，它会果断地剔除这些负迁移的累赘。

与此同时，它会利用新领域的问题作为养料，演化出全新的计算原语。

这种过程就像是一个经验丰富的物理学家转行研究生物物理，他会保留那些通用的数学建模能力，同时迅速学习生物分子的特有规律。

实验数据显示，TTE-Adapt 在跨领域任务中的表现显著优于没有任何工具支持的基准模型，也优于那些死守源领域工具库的方案。这种性能的提升，源于它对知识的动态重构。

在从材料学向化学迁移的过程中，智能体成功保留了关于晶体结构计算的基础逻辑，并将其转化为分子几何构型的分析工具。这种对计算原语的重新赋能，体现了科学知识的深层流动性。

这种跨学科的迁移能力，对于解决当今复杂的交叉学科问题至关重要。无论是生物信息学、气候模拟还是新能源材料的开发，都需要智能体能够灵活地调用不同学科的知识工具。

为了量身定制这种进化过程，研究者引入了工具复用率（Tool Reuse Rate，简称 TRR）这一关键指标。它不仅衡量工具被使用了多少次，更反映了工具的质量和普适性。

在 SciEvo 基准测试中，TTE 演化出的工具展现出了极高的复用价值。在物理领域，一些核心的单位换算和常数调用工具被使用了数百次。这说明 AI 已经自发地识别出了学科中的基础构件。

更深入的分析发现，随着任务难度的增加，工具的演化呈现出一种层级化的趋势。简单的任务催生了基础的原子工具，而复杂的任务则促使这些原子工具组合成更高级的复合工具。

这种层级化的演化，实际上是在模拟人类科学知识的构建过程。我们从简单的加减乘除开始，逐渐构建出代数、几何，最终通向量子力学和相对论。AI 正在这条道路上加速奔跑。

实验还揭示了一个有趣的现象：工具库的容量并不是越大越好。在资源受限的情况下，一个精炼、高效的工具库往往比一个臃肿、杂乱的库表现更好。

TTE 通过严格的去重和精炼机制，始终将工具库维持在一个高效的规模。

在与 GPT-4o 等顶级模型的配合下，TTE 展现出了强大的协同效应。高能力的模型提供了精准的代码生成和逻辑推理，而 TTE 框架则为这些能力提供了落地的土壤和进化的闭环。

即使是像 Qwen2.5 这样参数量较小的开源模型，在 TTE 框架的加持下，其科学推理能力也得到了质的飞跃。这说明这种范式的普适性极强，能够赋能各种不同架构的智能体。

当然，这种进化并非没有代价。

推理时的工具合成和验证必然会带来额外的计算开销和延迟。但在追求真理的科学探索中，这种为了准确性和创新性而付出的代价往往是值得的。

研究者也坦诚地指出了当前框架的局限性。

例如，它对底层模型的编程能力有较强的依赖，在处理极其复杂的系统级安全验证时仍需谨慎。

但这些挑战正是未来研究的方向。

我们可以预见，未来的 TTE 框架将引入更轻量级的元模型来预测工具的需求，从而优化计算资源的分配。

同时，更强大的沙箱环境和语义级安全协议也将为 AI 的自由探索保驾护航。

科学的本质是不断推翻旧的工具，发明新的工具。现在，AI 终于加入了这场伟大的发明竞赛。

参考资料：

https://arxiv.org/pdf/2601.07641

https://github.com/lujiaxuan0520/Test-Time-Tool-Evol

AI资讯

浏览 (20)