发布于 3小时前

小鹏汽车：没有基座模型，何谈物理AI｜甲子光年

一个模型，改变行业。

作者｜张麟

如今，讨论自动驾驶系统的终极模型架构究竟是VLA还是世界模型，对实现L4自动驾驶能力已经变得毫无意义。

3月2日，小鹏汽车举办了马年春节后的第一场发布会，宣布第二代VLA正式推送。就内容而言，这场发布会上展示的第二代VLA大模型以及纯电版小鹏X9早已亮相，并没有传统意义上的全新重磅产品发布。

但从发布时间来看，小鹏汽车对第二代VLA的重视程度可见一斑。

小鹏汽车第二代VLA即将开始推送，图片来源：小鹏汽车

在何小鹏看来，能力边界有限的端到端小模型以及打补丁式的智驾场景拓展，终究无法完成自动驾驶行业从L2向L4级别的跨越，过于追求将智驾大模型的架构进行分类，也对整个行业的发展毫无益处。

何小鹏想追求的，是一个全新的大模型架构，这个架构能够拥有全场景的智驾能力，具备极强的泛化性，能够轻松部署在家用车、Robotaxi或机器人等不同硬件本体上，同时还能快速迭代，不断进化。

这个全新的大模型，就是小鹏第二代VLA。

虽然名字里仍带有“VLA”，但本质上，这个全新的智驾大模型已经开创了全新物理模型范式，是首个在物理世界实现直接由「Vision」生成「Action」，去掉语言转换环节，模型架构更简洁，更彻底的「端到端」，直接学习真实的物理世界。

1.目标：绝对领先

2026年开年，广州小鹏科技园，一场针对小鹏第二代VLA的特殊试驾正在进行。参与试驾的不是媒体，也并非明星，而是小鹏汽车“妈妈食堂”里员工的爸爸妈妈们，他们一开始紧张、忐忑，但很快就“放开手脚”，放下了心。

在试驾过程中，何小鹏提及自己的妈妈对于新事物的接受过程要稍微慢一点，让妈妈们都放心是一个非常重要的目标，智能驾驶也要从“极客”尝鲜到“大众”常用，让爸爸妈妈们也爱开。

小鹏通用智能中心负责人刘先明的表态则更加直白："小鹏第二代VLA可能是目前中国最领先的智驾系统，是与行业拉开代际差距的时刻。"

那么，小鹏第二代VLA能做到什么程度？

根据公开资料，小鹏第二代VLA指令输出延迟压缩到了80毫秒以内；车辆重刹减少99%、急加速减少98%、顿挫减少89%；复杂小路的平均接管里程提升至约260公里。

此外，近日多家媒体专门挑荒地、土路、坑路来挑战第二代VLA的能力极限，即使是雨雪天气NGP功能依旧可以自如使用。

单纯的数据并不能全面说明小鹏第二代VLA的性能表现，在公开的无剪辑路测视频中，能够明显看到小鹏汽车在会车、跟车、进出主路及识别障碍物、行人甚至路面深坑方面的优秀表现。

虽然目前小鹏第二代VLA尚未正式推送，但其一直在保持着高速迭代，以实现性能和路试表现的不断提升。

据了解，自2025年11月至2026年2月底，小鹏第二代VLA已开发了468版模型，在容错率、稳定性、效率、数据读取等多个方面都有显著提升。

何小鹏对「甲子光年」等媒体表示：“今天媒体朋友能试驾的版本，很可能是我们上个月的版本，而我们现在迭代出来的最新版本，性能又会比一个月前有极大提升。”

除了所谓的体感差异，高频次地版本迭代也小鹏第二代VLA拥有了一些直观的功能升级。比如无目的地漫游、可以原地激活NGP等。

“我们希望做到千公里级的人工接管，而非行业中普遍的百公里级。”这是何小鹏对第二代VLA性能体最直接的考核指标。但他也指出，接管里只是其中一个维度，全场景都能开、完全放心、超高效率，才是小鹏做自动驾驶的目标。

2.做不到感知物理世界，

就没有真正的自动驾驶

严格来说，自动驾驶行业至今都没有实现完全地“自动化”，甚至不同场景下究竟通过怎样的技术手段和大模型范式来实现自动驾驶，业内都没有形成统一的结论。

所以何小鹏在发布会上说：“过去的L2级别的辅助驾驶，就是‘缝合怪’。”

比如，曾经的高速场景严重依赖高精地图和规则驱动；城区场景则通过占用网络、强化学习和大量的Corner Case数据训练；园区场景则通过多模态融合和低速控制算法来实现。

但实际上，用户或许根本不需要了解自己的车采用了什么模型架构或技术路径，只要好开就行。所以刘先明在回答「甲子光年」提问时说：“大家一直在纠结VLA和世界模型的概念，但我们真的需要这么多概念吗？可能不需要。”

在这种颇具第一性原理的思考下，小鹏汽车以基座模型为基础，辅以世界模型创造的闭环仿真空间和强化学习框架，最终成为既是VLA、也是世界模型的全新架构。

时间回到2024年初，那时小鹏汽车便开始布局AI基础设施，并很快建设成了国内汽车行业首个万卡智算集群；当年下半年，小鹏汽车开始了参数规模高达720亿的“小鹏世界基座模型”的研发。

这个基座模型，可以简单认为是如今的第二代VLA大模型的“母体”。

从模型本身来看，世界基座模型的参数量是当时的车端主流VLA的35倍，具有链式推理能力，并能将推理结果转化为行动。

这种链式推理能力，放在小鹏第二代VLA上，就是所谓的视觉推理思维链(Visual Chain of Thought，Visual CoT)技术，这种技术将思维链推理效率提升了32倍，相比传统CoT预测误差降低33%。

小鹏第二代VLA可应对物理世界复杂问题，图片来源：小鹏汽车

在实际运行过程中，比如在“看”到前方慢车时，第二代VLA的Visual CoT将会自动生成多个方案：激进变道、稳健变道以及保持跟随，并会根据其他道路信息推理出最优解执行。

这就是小鹏第二代VLA“聪明”体感的来源，该变道的时候不犹豫，不该变道的时候不莽撞。单纯地在端到端小模型上进行功能修补，很难达到这种决策逻辑和执行水平。

第二代VLA还展现出了对开放世界场景的理解能力，比如避让救护车，这一行为并非大模型识别到“救护车”这一预设物体后执行避让指令，而是在理解“后方有特种车辆需紧急通行”这一完整场景后，自主生成了让行决策。

这种被业界称作“涌现”的功能，同样源于世界基座模型的物理世界感知。

当然，从世界基座模型到第二代VLA，小鹏还需要面对工程化的问题。据了解，小鹏汽车从模型到软件、从到编译器再到芯片都做了联合优化，并在输入端实现了token/video压缩（TOKEN compression）来减少带宽与计算负担。

综合来看，小鹏第二代VLA的能力来源于世界基座模型，但世界基座模型所创造出的全新模型范式，远远不止一个第二代VLA。

3.泛化能力和行业突破

无论第二代VLA的性能得到了怎样的提升，宏观来看，其都不仅仅是为了让小鹏汽车的自动驾驶能力短期内更为出众，在小鹏汽车的计划中，或许利用世界基座模型发展出泛化能力强大的、能够在多类智慧本体上应用的物理世界交互系统，才是最终目的。

何小鹏对「甲子光年」等媒体表示：“在今天全球科技发展的情况下，L2的下一个台阶就是L4，中间专门加一个L3实际对于硬件、软件、法律法规都是挑战。”

过去，行业普遍认为L2和L4是两个赛道：用的是两种方法，两套硬件体系，甚至是两种商业逻辑。比如L2或L3级别自动驾驶系统更多用于家用车，而L4级别的仅在Robotaxi和无人物流行业落地。

但现在自动驾驶行业已经发生了很大的技术范式变化。传统的研发L4级自动驾驶系统的公司，产品能力的提升仍停留在通过大量的运营车辆、数据采集以及高精地图建设的技术手段，但这种逻辑带来的问题是自动驾驶系统能力的上限极低。

而L3级别的自动驾驶只能在特定路况下，允许驾驶员“脱手”驾驶，但仍要求视线保持在道路上，且存在驾驶责任主体在车辆和驾驶员之间频繁转移的情况。

所以，通过底层技术范式和模型架构的改变，彻底解决自动驾驶泛化性问题已经被全行业提上日程。

刘先明将这种底层技术的改变，总结成了一个简单的公式，他认为自动驾驶的本质问题是物理AI问题，即L4自动驾驶能力=模型 x 算力 x 数据 x 本体。

小鹏汽车“自动驾驶公式”，来源：小鹏汽车

公式简单不意味着很容易实现，比如数据环节，物理世界的数据的复杂度很高，输入信号是连续的非结构化数据，并且涉及复杂的真实世界交互。在小鹏第二代VLA发布会上，何小鹏说：“新的车端模型推理Token消耗量，约等于全国数字AI Token日调用量的80倍。”

而小鹏汽车正在通过底层技术架构的革新，让模型、算力、数据都能发挥出最大效能，并最终实现真正意义上的自动驾驶。

奉行这种通过底层技术改变来提高自动驾驶泛化能力逻辑企业不止小鹏汽车一家。2025年10月，特斯拉AI部门副总裁Ashok Elluswamy在分享FSD的最新进展时，表示FSD正在通过以视频为主的多模态输入进入端到端模型，直接输出控制指令，感知-预测-决策-控制可在同一神经网络中耦合回传。

这一整体框架几乎就是端到端大模型与世界模型的融合，为此，特斯拉还开发了一个“神经世界模拟器”，用于根据当前状态与下一步动作生成未来状态，从而进行端到端大模型的性能评估。

特斯拉“神经世界模拟器，图片来源：特斯拉

这种模型架构几乎与小鹏汽车的世界基座模型无异。

何小鹏在发布会上说：“我觉得我们是换道超车了，我们做到全新的架构了，但一去（美国）发现他们也已经切换了。”两家企业的判断，再次“不谋而合”。

这种全新的模型架构不仅可能让整个自动驾驶行业完成从L2到L4的跃迁，还有希望实现汽车本体、具身智能甚至低空飞行器的智能化提升。

比如小鹏汽车的世界基座模型能够实现多模态指令输出，能够输出语音信息、视觉显示信息、动作、行为等等，这意味着其蒸馏出的车端模型不仅在智驾系统上能用，智能座舱系统也能用。

刘先明表示：“在自动驾驶上验证过的AI能力和底层架构，可以大规模迁移到座舱上，让整车真正成为一个有机的智能体，而不是一个功能割裂的东西。”

同时，根据小鹏汽车的计划，2026年底将量产应用人形机器人，如果第二代VLA保持每天4版的迭代速度，或许在移植到人形机器人上时，后者也能拥有不错的运动控制表现。

模型的泛化能力，不仅是提高自动驾驶性能的工具，其更深远的意义，在于它正在回答一个关乎智能本质的终极命题：机器能否真正理解并进入物理世界？

小鹏汽车建立智算集群、研发物理AI大模型，实际上是在搭建一个能够被不同形态产品共用的底层“物理AI操作系统”，一旦这种操作系统被验证，其衍生出的智能控制系统，不会仅仅停留在方向盘上。

所以，第二代VLA打破因技术瓶颈而产生的“自动驾驶空气墙”只是开始，打破所有机器与现实世界交互的“墙”，才是小鹏汽车正在做的事。

（封面图来源：小鹏汽车）

AI资讯

浏览