机器之心
发布于

性能超越李飞飞,他们把10亿高斯点的3D世界装进浏览器

编辑|冷猫

我们知道,世界是三维的。


但互联网普及至今,受限于技术、硬件和传播载体,在几十年的时间里,都在把这个三维世界压成二维来表达。文字、图片、视频,这三种信息载体承载了我们今天在网上看到的几乎一切,都已经把这个世界降维。这是过去,互联网受限于带宽、硬件和计算能力后的「妥协」。


直到 3D 高斯泼溅(3D Gaussian Splatting, 3DGS) 的出现,才第一次让「随手拍、即时重建、实时漫游」三维场景成为可能。但这项技术一直卡在「最后一百米」:怎么让普通人在浏览器里流畅地看?


今年 4 月,李飞飞领衔的 World Labs 开源了 3D 高斯渲染引擎 Spark 2.0,瞬间引起技术圈的关注。


就在刚刚,群核科技的空间智能平台 Aholo 又推进了一步:正式了源 3D 高斯浏览器 Aholo Viewer,并且在渲染速度和大场景加载性能上超越了 Spark 2.0。它让任何设备的浏览器都能流畅运行 10 亿 + 粒子的超大 3D 场景。


简单理解,它可以让你像刷视频一样, 在浏览器里流畅浏览超大的 3D 世界。就像 3D 版的抖音、B 站,超大 3D 世界也可以像视频一样快速传输。



  • 主页链接:https://aholojs.dev/zh-CN/

  • Github 链接:https://github.com/manycoretech/aholo-viewer


从更大的意义来说,李飞飞与群核科技接连推出 3D 高斯浏览器,是一个时代到来的信号,代表着信息载体的范式跃迁:互联网信息载体从文字、图片、视频,第一次真正迈向可交互、可漫游的 3D 内容,而 3D 将成为互联网的基础语言之一。


十亿高斯点,手机浏览器也能流畅跑


在三维视觉领域,3D 高斯泼溅的出现是一个里程碑。


这是一种从 2023 年起在学界快速走红的三维场景表示方法。它把一整个真实场景显式地建模为数十万到数十亿个可学习的 3D 高斯椭球,每个椭球带有自己的位置、形状、颜色和透明度,再通过可微分光栅化做实时渲染。


但新技术的出现,并没有让 3D 内容变得像二维信息内容一样普及。因为 3D:


  • 太大,传输难。一个完整的 3D 场景数据动辄几十 GB。

  • 太重,加载慢。想要流畅漫游三维模型,设备性能门槛极高。


所以,Spark 和 Aholo Viewer 都在解决的一个核心问题是:—— 让 3D 内容也能流畅加载浏览,点开一个链接,就能「走进」任何一个真实或虚拟的三维世界。


这样,普通用户拿起手机用 3D 方式记录生活中的一切。商品的展示,也会逐步从静态图变成用户可以在手机里随意旋转的 3D 场景。日常生活如逛博物馆的线上展、看车看房等等,3D 交互体验会越来越无缝地融入到日常刷网页的过程中。


在性能上,我们上手测试了下,对一个 3 亿高斯点的场景,桌面端 Aholo Viewer 占用内存只有 Spark 2.0 的一半,加载速度快 1 倍、渲染速度快 3 倍,渲染效果也优于 Spark 2.0。最高可流畅加载 10 亿高斯点的场景,是 Spark 2.0 上限的 10 倍



技术路线上,目前 Web 端 3DGS 渲染主流有两种 LOD 组织方式,Aholo Viewer 和 Spark 2.0 各自选了一个技术方向。


Spark 2.0 选用的是 Splat-based LOD Tree,从单个高斯点(splat)粒度自下而上做合并,构造连续的细节层级。


这种方案的好处是逐层加载细节,理论上能让层级切换感不突兀,但在实际体验中,Spark 2.0 的细节切换感仍然比较明显。代价则是内存和显存开销较大,同时后期扩展性偏弱,难以灵活结合其他优化手段。


Aholo Viewer 选用的是 Chunk-based LOD Tree:把原始 3DGS 数据先切成 N 个 chunk(数据块),再分别为每个 chunk 生成不同层级的 LOD,运行时以 chunk 为单位做层级切换。



这个差异看着不大,效果却很显著。


第一是内存与显存的开销更可控。当系统只需要为整个 chunk 选层级,无需为成千上万个 splat 各自决策,内存调度的颗粒度更粗、缓存命中更好,与常规加载方案相比基本不引入额外开销。


第二是可扩展性更强:chunk 是一个清晰的数据边界,未来要扩到城市级、街区级的超大场景,按区块拼接、按区块单独聊聊更新,会比 splat 粒度的方案更容易。


在渲染管线层面,Aholo Viewer 通过多精度数据结构降低显存占用,通过缓存预计算与按需 pass 压缩每帧 GPU 开销,通过 Morton Sort 和 detail culling 改善数据访问效率。这些优化叠加在一起,最终落到了一组用户可感知的数字:内存减半、加载快 1 倍、渲染快 3 倍、容量上限大 10 倍



Aholo Viewer 在细节上做得比较周全,远比 Spark 2.0 做的更细更完善。比如格式上兼容主流 3DGS 格式,还有整的工具支持,包括数据格式转换、3D 高斯碰撞体生成等能力。


Aholo Viewer 已经是一个非常完善的开源工作,已经做好被开发者落地产品应用的准备。


互联网的 3D 跃迁


3D 高斯的实时传输和查看的技术问题已经解决了,但这能用来做什么?


只是把 3D 场景放进浏览器让用户旋转观看,还不足以让 3D 内容像如今的短视频一样普及。


价值跃迁,发生在 3D 内容从「展示媒介」变成「生产力工具」的那一刻:当 3D 数据可以被编辑、被调用、被嵌入工作流、被下游系统消费,这才是从「能看」到「能用」的跨越。


其实,群核科技的 Aholo 跟李飞飞的 Marble 之间有一个比较大的差异。李飞飞走的是通过 AI 生成虚拟环境,而群核除了 AI 生成之外,更着重于现实世界的重建模拟。相比于创意表达,它更在意如何在物理世界做功:比如工业孪生、机器人训练、导向落地的空间设计,以及遵从物理属性的视频生成短剧制作等场景。


所以,除了推出 3D 高斯浏览器,Aholo 平台上还有一整套空间智能 API,解决的则是:「3D 内容怎么被大规模生产和使用」问题。


它开放了一整套空间能力 API,包括:


  • 空间重建:拍一段视频,就能将物理世界 1:1 复刻到数字世界

  • 云端渲染:无需本地 GPU,支持光线追踪与全局光照渲染,支持 3DGS + Mesh 混合渲染,支持以视频流方式传输至不同客户端。

  • 3D AI 模型生成:支持图生 3D 和文生 3D 模型,具备更强的材质细节表现,可接入 3D 内容生产工作流。


除了工具,还有 3D 数据。Aholo 上也会持续开放 3D 高斯数据集,比如此前曾登顶 HuggingFace 趋势榜的 InteriorGS,专门用于机器人和智能体仿真训练的 3D 高斯语义数据集。


至此,一个完整的空间智能全链路已经形成:


  • 建 / 生成 3D 世界:通过 Aholo 完成对真实世界的 3D 重建,或根据文字、草图直接生成 3D 场景;

  • 编辑 3D 资产通过Aholo平台 的多种 API,让 3D 世界像网页一样可编程;

  • 浏览交互:通过 Aholo Viewer,让用户在任何设备的浏览器里实时漫游超大 3D 场景。


在硬件生态的共建上,群核科技也在探索与不同硬件方打通,包括影石创新、禾赛科技等硬件龙头,推出空间重建软硬件一体化解决方案,还有手机端 App 的推出,将原本只有专业人士才能掌握的 3D 空间记录与内容创作能力,下放到每一个普通人手中。


数字文旅是其中一个典型方向。文物古迹通过 3DGS 重建「活」在数字世界里,访客在浏览器里就可以走进一座数字博物馆,围绕一件文物 360 度查看与交互。



短剧制作是另一个有代表性的方向,让数字化短剧紧跟内容消费潮流。一个短剧制作人拿手机拍几段照片或视频,就可以在 Aholo 平台里快速重建出一个高度逼真的三维「虚拟片场」;然后通过 Aholo API 对场景元素做精准编辑、调整布光与道具。


基于黑神话取景地时思寺重建场景的AI短剧片段


在过去,图片和视频定义了移动互联网时代。


而未来,3D 内容会像短视频 App 一样普及。而 3D,也会成为下一代互联网的新内容形态。


通往物理世界的飞轮


不过,互联网从二维走向三维,更深一层的变化发生在人工智能本身。


让 AI 真正「看懂」三维世界,是过去两三年最被密集投入的方向之一,核心目标是让 AI 对物理世界的理解深入到足以预测下一步会发生什么、并据此采取行动。「世界模型」这个名词,变成了近两年大厂军备竞赛的关键词。


AI 能力进化的核心在于数据。我们知道,互联网上有数十亿张图片、数千亿条文字、数亿小时视频,AI 几乎已经彻底用尽了这些数据。


而当我们想要通向真正的 AGI,想让 AI 进入物理世界,或是构建完善的世界模型,最大的瓶颈之一其实是 3D 数据的稀缺。3D 内容的本质,是对物理世界的数字化复刻,它能以最直接的方式为 AI 提供空间结构、物体关系、环境属性等关键 3D 数据。因此,3D 不仅是一种内容形态,更是 AI 理解真实世界的最短数据路径。


不管是李飞飞的 Spark,还是群核科技的 Aholo Viewer,他们真正重要的地方在于:让 3D 内容具备了互联网级分发能力,就像过去分发的是图片和视频一样。而浏览器是这个数据飞轮的入口。



当 3D 浏览器普及,3D 内容开始进入互联网这条最大的分发管道,让更多贴近真实世界的 3D 数据进行循环,「更多人看 3D,更多 3D 被生产,更多 AI 训练数据,更智能的 3D 模型,更多人看 3D」这个飞轮才有可能真正转起来。


这也是为什么,3DGS 浏览器这件事不能仅仅当成一个前端工程的进展去看,它是通往世界模型的一个关键入口。


回到本文开头那句 —— 世界是三维的。


只是过去几十年,互联网逼着我们把世界压缩成二维。像 Aholo Viewer 这样的 3D 高斯浏览器,只是一个开始:未来一段时间,越来越多的网页内容、越来越多的 AI 应用、越来越多的机器人感知,会重新与三维世界对齐。


数字世界的内容向 3D 进化,与真实世界的认知对齐,是我们向物理智能,通用智能迈进的重要一步。


而空间智能,终将像今天的搜索、地图和短视频一样,成为下一代互联网的基础能力。


  • Aholo Viewer 开源链接:https://github.com/manycoretech/aholo-viewer

浏览 (4)
点赞
收藏
1条评论
探小金-AI探金官方🆔
探小金来啦!哇哦,👀 看了《机器之心》这篇文章,简直是打开了新世界的大门啊!😍 10亿高斯点的3D世界竟然能在浏览器里流畅地装进来,这技术简直了!🎉 冷猫编辑,你的文字真带感,让小金对3D高斯浏览器产生了无限遐想呢!💡 话说,小伙伴们,你们想不想试试在浏览器里畅游超酷的3D世界呢?😉#3D世界 #浏览器新体验
点赞
评论
到底啦