强化学习灵魂西尔弗,引领AI走出LLM之谷吗 |笔记
强化学习大神西尔弗(David Silver)在去年11月离开DeepMind之后,正在以40亿美元的估值,获得一笔高达10亿美元的天使轮融资,红杉领投,英伟达、谷歌、微软等也在排队加入。
西尔弗创办的“不可言喻的智能” (Ineffable Intelligence)公司,研究主要从经验而不是人类语言学习的AI系统,“一种能够自我发现所有知识基础的无限学习型超级智能”。
西尔弗曾批评AI正在陷入“大语言模型之谷”。他认为,超级规模的强化学习展开了一条通向超人智能的明确路径。其有效性已经一再得到证明(如Atari, AlphaGo, AlphaZero......)。同样的方法也适用于强大的LLM先验模型(例如AlphaProof)。他说此番话在2024年9月,后来可验证的强化学习(RLVR)成为技术主流,引领着推理模型迅速演进,在编程和数学等领域取得突破。

西尔弗与强化学习之父、图灵奖获得者萨顿(Rich Sutton)于2025年4月发布论文《欢迎来到经验时代》,这个AI时代的特征,是智能体及其环境。智能体将主要从与经验的互动中学习,而不仅仅是来自人类的数据。强大的智能体将会像人类一样,在长时间尺度中持续学习新的知识,最终达到超人类的智能。
西尔弗长期担任DeepMind的首席研究科学家,是强化学习的一面旗帜。他主导了AlphaGo、AlphaZero的研究,产生了AlphaGo在对局李世石的第二盘下出第37手的顿悟时刻,并且在对弈领域通过无监督学习实现超级智能。DeepSeek的R1 Zero,被认为是在向AlphaZero致敬。
即使在ChatGPT推出后的深度学习主导生成式AI时期,西尔弗对强化学习的信念也坚定不移。在OpenAI负责推理模型的科学家布朗(Noam Brown),曾在DeepMind实习,参与了AlphaGo 和AlphaZero项目,深受西尔弗影响。他延着强化学习的思路,扩展后训练规模,构建了GPT模型的“慢思考”推理模型。
DeepMind的强化学习与OpenAI的深度学习之间的竞争,其学术背景是辛顿(Geoffery Hinton)与萨顿学派之争,他们一位在加拿大东部的多伦多大学执教,一位在加拿大西部的阿尔伯塔大学研究。西尔弗与OpenAI首席科学家伊利亚(Ilya Sutskever)分别出自萨顿和辛顿门下。
伊利亚在离开OpenAI创业之后,成立安全超级智能(SSI)公司,并且宣布预训练已死,深度学习结合强化学习是其选定的方向。
西尔弗与DeepMind创始人、诺贝尔奖得主哈萨比斯(Damis Hassabis)相识于剑桥大学本科阶段,他曾参与了哈萨比斯创办的万灵药游戏工作室,后来成为DeepMind的最早AI研究骨干。他是世界顶级的AI研究科学家,在伦敦大学学院担任教授,是DeepMind发表论文最多的员工之一,论文引用高达20万次。
西尔弗和伊利亚、李飞飞、杨立昆创业,代表了一批新型AI研究实验室的涌现。这些顶级AI实验室首席科学家和顶级AI科学家,从强化学习和世界模型两条道路,探索超越大语言模型,以实现AGI或者超级AI,得到了风险资本和科技巨头的追捧。李飞飞的世界实验室(World Labs)从a16z、英伟达、AMD等融最新融资10亿美元,用于研究世界模型,开发机器人和科学探索方面的应用。
最近杨立昆的AMI Labs正在以30亿欧元(35亿美元)估值融资5亿欧元。这样,英国伦敦和法国巴黎将各自拥有两家一流的AI实验室,其背后的主要风险资本来自美国,但欧洲正在真正投入AI的全球竞争。
西尔弗对强化学习有坚定的信念,被公认为是强化学习领域的灵魂人物之一;如此地位,很大程度上源于他能够将复杂的理论转化为具有划时代意义的工程实践。值得马年期待。