发布于 12小时前

性能超越李飞飞，他们把10亿高斯点的3D世界装进浏览器

编辑｜冷猫

我们知道，世界是三维的。

但互联网普及至今，受限于技术、硬件和传播载体，在几十年的时间里，都在把这个三维世界压成二维来表达。文字、图片、视频，这三种信息载体承载了我们今天在网上看到的几乎一切，都已经把这个世界降维。这是过去，互联网受限于带宽、硬件和计算能力后的「妥协」。

直到 3D 高斯泼溅（3D Gaussian Splatting, 3DGS）的出现，才第一次让「随手拍、即时重建、实时漫游」三维场景成为可能。但这项技术一直卡在「最后一百米」：怎么让普通人在浏览器里流畅地看？

今年 4 月，李飞飞领衔的 World Labs 开源了 3D 高斯渲染引擎 Spark 2.0，瞬间引起技术圈的关注。

就在刚刚，群核科技的空间智能平台 Aholo 又推进了一步：正式了开源 3D 高斯浏览器 Aholo Viewer，并且在渲染速度和大场景加载性能上超越了 Spark 2.0。它让任何设备的浏览器都能流畅运行 10 亿 + 粒子的超大 3D 场景。

简单理解，它可以让你像刷视频一样，在浏览器里流畅浏览超大的 3D 世界。就像 3D 版的抖音、B 站，超大 3D 世界也可以像视频一样快速传输。

主页链接：https://aholojs.dev/zh-CN/
Github 链接：https://github.com/manycoretech/aholo-viewer

从更大的意义来说，李飞飞与群核科技接连推出 3D 高斯浏览器，是一个时代到来的信号，代表着信息载体的范式跃迁：互联网信息载体从文字、图片、视频，第一次真正迈向可交互、可漫游的 3D 内容，而 3D 将成为互联网的基础语言之一。

十亿高斯点，手机浏览器也能流畅跑

在三维视觉领域，3D 高斯泼溅的出现是一个里程碑。

这是一种从 2023 年起在学界快速走红的三维场景表示方法。它把一整个真实场景显式地建模为数十万到数十亿个可学习的 3D 高斯椭球，每个椭球带有自己的位置、形状、颜色和透明度，再通过可微分光栅化做实时渲染。

但新技术的出现，并没有让 3D 内容变得像二维信息内容一样普及。因为 3D：

太大，传输难。一个完整的 3D 场景数据动辄几十 GB。
太重，加载慢。想要流畅漫游三维模型，设备性能门槛极高。

所以，Spark 和 Aholo Viewer 都在解决的一个核心问题是：—— 让 3D 内容也能流畅加载浏览，点开一个链接，就能「走进」任何一个真实或虚拟的三维世界。

这样，普通用户拿起手机用 3D 方式记录生活中的一切。商品的展示，也会逐步从静态图变成用户可以在手机里随意旋转的 3D 场景。日常生活如逛博物馆的线上展、看车看房等等，3D 交互体验会越来越无缝地融入到日常刷网页的过程中。

在性能上，我们上手测试了下，对一个 3 亿高斯点的场景，桌面端 Aholo Viewer 占用内存只有 Spark 2.0 的一半，加载速度快 1 倍、渲染速度快 3 倍，渲染效果也优于 Spark 2.0。最高可流畅加载 10 亿高斯点的场景，是 Spark 2.0 上限的 10 倍。

技术路线上，目前 Web 端 3DGS 渲染主流有两种 LOD 组织方式，Aholo Viewer 和 Spark 2.0 各自选了一个技术方向。

Spark 2.0 选用的是 Splat-based LOD Tree，从单个高斯点（splat）粒度自下而上做合并，构造连续的细节层级。

这种方案的好处是逐层加载细节，理论上能让层级切换感不突兀，但在实际体验中，Spark 2.0 的细节切换感仍然比较明显。代价则是内存和显存开销较大，同时后期扩展性偏弱，难以灵活结合其他优化手段。

Aholo Viewer 选用的是 Chunk-based LOD Tree：把原始 3DGS 数据先切成 N 个 chunk（数据块），再分别为每个 chunk 生成不同层级的 LOD，运行时以 chunk 为单位做层级切换。

这个差异看着不大，效果却很显著。

第一是内存与显存的开销更可控。当系统只需要为整个 chunk 选层级，无需为成千上万个 splat 各自决策，内存调度的颗粒度更粗、缓存命中更好，与常规加载方案相比基本不引入额外开销。

第二是可扩展性更强：chunk 是一个清晰的数据边界，未来要扩到城市级、街区级的超大场景，按区块拼接、按区块单独聊聊更新，会比 splat 粒度的方案更容易。

在渲染管线层面，Aholo Viewer 通过多精度数据结构降低显存占用，通过缓存预计算与按需 pass 压缩每帧 GPU 开销，通过 Morton Sort 和 detail culling 改善数据访问效率。这些优化叠加在一起，最终落到了一组用户可感知的数字：内存减半、加载快 1 倍、渲染快 3 倍、容量上限大 10 倍。

Aholo Viewer 在细节上做得比较周全，远比 Spark 2.0 做的更细更完善。比如格式上兼容主流 3DGS 格式，还有完整的工具支持，包括数据格式转换、3D 高斯碰撞体生成等能力。

Aholo Viewer 已经是一个非常完善的开源工作，已经做好被开发者落地产品应用的准备。

互联网的 3D 跃迁

3D 高斯的实时传输和查看的技术问题已经解决了，但这能用来做什么？

只是把 3D 场景放进浏览器让用户旋转观看，还不足以让 3D 内容像如今的短视频一样普及。

价值跃迁，发生在 3D 内容从「展示媒介」变成「生产力工具」的那一刻：当 3D 数据可以被编辑、被调用、被嵌入工作流、被下游系统消费，这才是从「能看」到「能用」的跨越。

其实，群核科技的 Aholo 跟李飞飞的 Marble 之间有一个比较大的差异。李飞飞走的是通过 AI 生成虚拟环境，而群核除了 AI 生成之外，更着重于现实世界的重建模拟。相比于创意表达，它更在意如何在物理世界做功：比如工业孪生、机器人训练、导向落地的空间设计，以及遵从物理属性的视频生成短剧制作等场景。

所以，除了推出 3D 高斯浏览器，Aholo 平台上还有一整套空间智能 API，解决的则是：「3D 内容怎么被大规模生产和使用」问题。

它开放了一整套空间能力 API，包括：

空间重建：拍一段视频，就能将物理世界 1：1 复刻到数字世界
云端渲染：无需本地 GPU，支持光线追踪与全局光照渲染，支持 3DGS + Mesh 混合渲染，支持以视频流方式传输至不同客户端。
3D AI 模型生成：支持图生 3D 和文生 3D 模型，具备更强的材质细节表现，可接入 3D 内容生产工作流。

除了工具，还有 3D 数据。Aholo 上也会持续开放 3D 高斯数据集，比如此前曾登顶 HuggingFace 趋势榜的 InteriorGS，专门用于机器人和智能体仿真训练的 3D 高斯语义数据集。

至此，一个完整的空间智能全链路已经形成：

重建 / 生成 3D 世界：通过 Aholo 完成对真实世界的 3D 重建，或根据文字、草图直接生成 3D 场景；
编辑 3D 资产：通过Aholo平台的多种 API，让 3D 世界像网页一样可编程;
浏览交互：通过 Aholo Viewer，让用户在任何设备的浏览器里实时漫游超大 3D 场景。

在硬件生态的共建上，群核科技也在探索与不同硬件方打通，包括影石创新、禾赛科技等硬件龙头，推出空间重建软硬件一体化解决方案，还有手机端 App 的推出，将原本只有专业人士才能掌握的 3D 空间记录与内容创作能力，下放到每一个普通人手中。

数字文旅是其中一个典型方向。文物古迹通过 3DGS 重建「活」在数字世界里，访客在浏览器里就可以走进一座数字博物馆，围绕一件文物 360 度查看与交互。

短剧制作是另一个有代表性的方向，让数字化短剧紧跟内容消费潮流。一个短剧制作人拿手机拍几段照片或视频，就可以在 Aholo 平台里快速重建出一个高度逼真的三维「虚拟片场」；然后通过 Aholo API 对场景元素做精准编辑、调整布光与道具。

基于黑神话取景地时思寺重建场景的AI短剧片段

在过去，图片和视频定义了移动互联网时代。

而未来，3D 内容会像短视频 App 一样普及。而 3D，也会成为下一代互联网的新内容形态。

通往物理世界的飞轮

不过，互联网从二维走向三维，更深一层的变化发生在人工智能本身。

让 AI 真正「看懂」三维世界，是过去两三年最被密集投入的方向之一，核心目标是让 AI 对物理世界的理解深入到足以预测下一步会发生什么、并据此采取行动。「世界模型」这个名词，变成了近两年大厂军备竞赛的关键词。

AI 能力进化的核心在于数据。我们知道，互联网上有数十亿张图片、数千亿条文字、数亿小时视频，AI 几乎已经彻底用尽了这些数据。

而当我们想要通向真正的 AGI，想让 AI 进入物理世界，或是构建完善的世界模型，最大的瓶颈之一其实是 3D 数据的稀缺。3D 内容的本质，是对物理世界的数字化复刻，它能以最直接的方式为 AI 提供空间结构、物体关系、环境属性等关键 3D 数据。因此，3D 不仅是一种内容形态，更是 AI 理解真实世界的最短数据路径。

不管是李飞飞的 Spark，还是群核科技的 Aholo Viewer，他们真正重要的地方在于：让 3D 内容具备了互联网级分发能力，就像过去分发的是图片和视频一样。而浏览器是这个数据飞轮的入口。

当 3D 浏览器普及，3D 内容开始进入互联网这条最大的分发管道，让更多贴近真实世界的 3D 数据进行循环，「更多人看 3D，更多 3D 被生产，更多 AI 训练数据，更智能的 3D 模型，更多人看 3D」这个飞轮才有可能真正转起来。

这也是为什么，3DGS 浏览器这件事不能仅仅当成一个前端工程的进展去看，它是通往世界模型的一个关键入口。

回到本文开头那句 —— 世界是三维的。

只是过去几十年，互联网逼着我们把世界压缩成二维。像 Aholo Viewer 这样的 3D 高斯浏览器，只是一个开始：未来一段时间，越来越多的网页内容、越来越多的 AI 应用、越来越多的机器人感知，会重新与三维世界对齐。

数字世界的内容向 3D 进化，与真实世界的认知对齐，是我们向物理智能，通用智能迈进的重要一步。

而空间智能，终将像今天的搜索、地图和短视频一样，成为下一代互联网的基础能力。

Aholo Viewer 开源链接：https://github.com/manycoretech/aholo-viewer

AI资讯

浏览 (4)