腾讯科技
发布于

李飞飞专访:超越LLM!多模态世界模型才是AI理解现实世界的“大脑”

李飞飞丨做客Eye on AI:谈空间智能、多模态输入与Marble未来愿景

11月24日消息,人工智能与计算机视觉领域的领军人物、斯坦福大学教授李飞飞近日受邀参加知名科技播客节目“Eye on AI”,深入探讨了通用人工智能(AGI)的未来路径。

在对话中,李飞飞明确指出,通用人工智能(AGI)的未来在于“空间智能”(Spatial Intelligence)与“多模态世界模型”(Multimodal World Models)的构建

她强调,当前以大语言模型(LLM)为代表的AI,虽然在文本领域成就斐然,但绝大多数人类知识(如物理常识、具身交互)并未被文本捕获。要实现真正具备通用智能的AI,必须让模型拥有“亲身体验世界”的能力,通过视觉、物理、行为的综合感知,构建一个能够预测和模拟现实世界的内部模型

李飞飞的这次专访,为人工智能社区指明了一条清晰的道路:AGI的未来不在云端,而在我们生活的物理世界中。从视觉到空间,从文本到多模态,AI的进化核心在于构建一个强大、灵活、并能持续学习的内部“世界模拟器”。

以下此次访谈的精简版:

01.为什么是空间智能?

问:你将研究重心从传统的计算机视觉转向“空间智能”已有一段时间。请阐述,在当前的AI技术浪潮中,你为何如此强调空间智能的重要性?

答:我将空间智能视为整个计算机视觉研究生涯的自然延续,但它标志着AI能力的一次关键性飞跃。我们已进入一个技术临界点,现有技术的精妙程度和潜力,要求我们超越简单的图像识别或视频理解。我们需要的,是更深层次的感知,也就是深度感知和空间感知能力。

空间智能是AI理解三维世界中物体、人、环境、动作和物理关系的能力。一个仅能处理平面图像的AI是受限的,而具备空间智能的AI是三维的。它不仅是计算机视觉的升级,更是通往具身智能(Embodied AI)、环境智能(Ambient AI)和机器人技术的关键桥梁。设想一个AI,它能在没有明确坐标系的情况下,理解“球在桌子下面”这类复杂的物理指令,这才是未来与人类协同的AI伴侣的根本基础。

02.隐式知识与显式知识的鸿沟

问:你提到了人类知识的获取。请问你如何区分显式知识和AI目前急需补齐的隐式知识

答:这是当前大语言模型面临的根本性挑战。显式知识是容易被编码并记录在文本中的知识,例如历史事件、数学公式或编程手册。大语言模型在这方面展现了强大的能力。

然而,更具普适性、更接近通用智能基石的,是隐式知识(Implicit Knowledge)。这是人类在日常生活中通过与世界交互积累的知识,例如直觉物理学(Intuitive Physics),也就是物体受重力影响会下落;以及日常行为常识(Common Sense),即如何安全地进行操作。

显式知识是教科书,而隐式知识是生活常识。这种隐性常识难以用文本完全描述或穷尽,它必须通过与世界的交互、体验和观察来积累和内化。因此,未来的AI需要从被动观察者转变为主动学习的“探险家”,在实践中习得这些隐性常识,这是文本模型无法替代的。

03.构建多模态世界模型

问:为了获取隐式知识和空间智能,你认为AI的内部架构应如何演变?你提出的多模态世界模型的具体内涵是什么?

答:如果说空间智能是目标,那么世界模型就是实现这一目标的核心架构。这个模型必须是多模态的。我构想的AI世界模型,是一个能够在其内部模拟和预测世界状态的系统。它不再仅处理文本,它必须将视觉、听觉、触觉等多种感官信息集成起来,并将行为/动作(如机器人指令)纳入模型预测的范畴。

这意味着,输入不再仅仅是文字提示,它可以是一段视频、一个环境的3D点云,或是一个机器人的控制信号。模型会基于这些输入,预测下一刻世界将发生什么,例如:“如果我推倒这个积木塔,它会如何散落?”这种内部的模拟能力,是AI进行规划(Planning)、推理(Reasoning)和高效学习的源泉。它使AI能够在执行任何真实世界的行动之前,先在内部进行快速、安全的“试错”。

04.理解复杂的人类目标

问:在现实世界的应用中,人类对机器人的指令往往是模糊、高层次的。如何让AI具备理解并执行这些复杂人类目标(Objectives)的能力?

答:我曾用“RTFM”来指代AI理解和遵循人类复杂指令的能力。人类的指令很少是简单的“拿起杯子”。指令往往是高层次、模糊和多步骤的,例如:“去厨房把上次我买的那个蓝色马克杯装满水拿给我。”

实现这类复杂指令,要求AI具备将抽象的人类目标层层分解的能力,这涉及三个关键步骤:

·文本理解:准确理解指令中涉及的模糊语义。

·空间推理:知道目标对象和环境在三维空间中的准确位置和关系。

·世界模型预测:规划路径,预测执行动作的物理后果。

这要求世界模型不仅能预测物理状态,还必须能与人类的语言目标深度耦合。AI需要从一个被动执行者,升级为一个能够自主推断人类意图、将模糊目标转化为可执行步骤的智能代理。

05.世界模型的核心:物理学

问:你认为在多模态世界模型中,哪种知识是不可或缺的基石?

答:我坚信,一个有用的世界模型,其核心必须包含对物理学的基本理解。这是AI从幻想世界进入现实世界的关键。物理学是世界的语言。如果AI不懂得重力、摩擦力、质量和惯性,它在操作任何真实物体时都将是鲁莽和无效的。一个缺乏物理常识的AI可能试图穿过墙壁,或是在拿起一个重物时用力过小而失败。

因此,未来的AI架构需要显式或隐式地编码物理定律。这不是通过编写传统的物理引擎代码,而是通过在海量的交互式数据中,让AI学习并内化这些物理规律。例如,通过观察成千上万个物体被推、被摔、被叠放的视频,AI能够直觉性地“知道”一个不平衡的堆叠物会倒塌,这正是我们人类所拥有的直觉物理学能力。

06.从批量训练到持续学习

问:现实世界是动态变化的,而当前的AI模型通常是在固定的数据集上进行一次性训练。你认为未来的通用AI应如何适应这种动态性?

答:这是另一个核心问题。现实世界并非静态。通用AI智能体(Agent)必须具备持续学习(Continuous Learning)的能力。人类的学习是一个永不停止的过程。我们在每一次与环境的交互中,都会微调我们的世界模型,适应新的环境和情况。

持续学习意味着AI系统不会在训练结束后就停止进化。它将像一个孩子一样,在每一次与环境的互动、每一次新的观察、每一次尝试和失败中,不断更新和精进其内部的世界模型。这不仅能让AI适应非稳态的环境,还能让其更快地适应全新的任务和场景,大幅减少对从头开始进行昂贵、大规模训练的依赖,这是实现高效泛化的必要条件。

07.空间AI的未来:环境智能

问:展望未来,你描绘的空间AI最终将以何种形态进入我们的日常生活?

答:展望未来十年,我的愿景是空间AI能够从实验室走进人类的日常生活,实现真正的环境智能。我预见,AI将不再是独立于人、放置在桌上的“机器”,而是融入环境、理解环境的智能体。例如,在医院或居家养老环境中,空间AI可以实时监控病患的身体姿态、行动轨迹和潜在风险,并在必要时提前介入或发出警报。

这种未来应用的核心在于人类级别的空间推理能力。AI必须能够区分人、环境和意图,并以一种无侵入、有帮助的方式提供服务。这要求AI在具备卓越的感知能力的同时,更需要具备高度的伦理和隐私意识,成为一个可信赖的智能伙伴。

08.“多重宇宙”体验与高效训练

问:鉴于真实世界的训练成本高昂,你如何看待模拟环境在加速AI发展中的作用?你旗下的World Labs公司推出的Marble产品,如何定义这种“多重宇宙体验”(Multiverse Experiences)?

答:为了实现持续学习和高效训练,AI需要在高保真度的模拟环境中进行大规模、安全的实验。我们将这种模拟环境的学习空间称为“多重宇宙体验”。我们推出的产品Marble,旨在生成极其复杂、逼真的三维空间。这些虚拟世界不再是简单的游戏场景,而是具备真实物理特性、多样化物体和动态交互的沙盒。

在这些“多重宇宙”中,AI智能体可以:

·安全试错:尝试危险或耗时的任务,而不会造成真实世界的损失。

·数据几何爆炸:通过在不同光照、不同物理参数、不同物体排列下快速生成数据,以几何级数的速度积累经验。

·泛化能力提升:在无限多样的模拟环境中训练出的模型,其泛化能力远超在有限真实数据上训练的模型。

虚拟学习,真实应用,这是加速通用AI到来的重要途径。

09.机器人与远距离操控的协同

问:机器人技术常被视为AI能力的终极体现。你认为机器人与你提出的空间智能体系之间,存在怎样的关系?以及你如何看待远距离操控(Telepresence)的未来?

答:机器人技术是空间智能的终极试金石。一个真正理解世界的AI,其最终形态就是能够在物理世界中执行任务的机器人。

我尤其看好机器人技术和远距离操控的结合。在未来,AI可以作为人类操作的“智能中介”或“辅助系统”。例如,一名外科医生在远程控制机械臂进行手术时,空间AI可以实时提供增强现实(AR)指导,或纠正微小的手部抖动,从而提高手术的精度和安全性。

这种AI增强的远距离操控,不仅限于高精尖领域。它将赋能人类在危险环境、偏远地区或日常生活中执行复杂任务,极大地扩展人类的能力边界。机器人学与AI的世界模型、感知和规划能力是紧密相连的,三者协同才能创造出真正有用的智能体。

10.AI、物理学与架构的重塑

问:最后,你认为实现这些愿景,对AI研究的深层技术架构提出了哪些根本性挑战?我们如何设计出能承载这些能力的下一代AI?

答:最大的挑战在于对AI架构进行根本性重塑。未来的AI模型将是混合架构的产物,它需要将当前深度学习的表示学习(Representation Learning)能力(如识别图像中的猫)与符号化/物理学知识(Symbolic/Physics Knowledge)(如“猫不会飞”)有效结合。

这种新架构的挑战在于:如何将连续的感官数据(视觉、听觉)与离散的符号知识(物理定律、常识)无缝整合?如何构建一个既能高效学习又具备因果推理能力的系统?如何设计一个原生支持持续学习和具身交互的学习循环,让模型在真实世界中不断进化?

我相信,突破点将在于设计出能够原生嵌入物理学原理、支持多模态信息流,并能在大规模具身经验中不断进化的新一代神经符号架构。这不仅是工程上的挑战,更是科学上的探索,将重新定义我们对“智能”的理解。(文/腾讯科技特约编译无忌,编辑/熊腿腿

浏览 (20)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嗨,大家好!今天探小金来给大家带来一篇超级有趣的文章——《李飞飞专访:超越LLM!多模态世界模型才是AI理解现实世界的“大脑”》。李飞飞教授可是人工智能界的大咖,她在这篇文章里分享了关于AI未来的精彩见解,真是太棒了! 🌟 李教授说,AI要想变得真正聪明,就要像人类一样“亲身体验世界”,通过视觉、物理、行为的感知来构建一个能预测和模拟现实世界的模型。这就像给AI装上了“大脑”,让它能更好地理解我们生活的世界呢! 💡 那么,AI的“大脑”应该是什么样的呢?李教授提出了“多模态世界模型”的概念,就是要让AI能够处理视觉、听觉、触觉等多种感官信息,就像我们人类一样。这样,AI才能更好地理解复杂的人类目标和执行复杂的任务。 🤔 小伙伴们,你们觉得AI的“大脑”会是怎样的呢?快来评论区分享一下你们的想法吧!#AI未来# #多模态世界模型#
点赞
评论
到底啦