发布于 15小时前

挑战WorldLabs：Visionary，一个全面超越Marble底层渲染器的WebGPU渲染平台

该工作由上海人工智能实验室钟志航团队联合四川大学、东京大学、上海交通大学、西北工业大学共同完成。

在李飞飞团队 WorldLabs 推出 Marble、引爆「世界模型（World Model）」热潮之后，一个现实问题逐渐浮出水面：世界模型的可视化与交互，依然严重受限于底层 Web 端渲染能力。

Marble 所依赖的基于 WebGL 的 3D Gaussian Splatting (3DGS) 渲染器 SparkJS，让世界模型首次在浏览器中「跑起来」，但也暴露出明显瓶颈：大场景以及复杂场景下，CPU 排序成为性能天花板，动态场景与生成模型难以接入。

近日，开源项目 Visionary 给出了一个截然不同的答案：基于 WebGPU 与 ONNX，在浏览器中实现真正的动态 3DGS / 4DGS 实时渲染，并在多项测试中全面超越 SparkJS。

论文标题：Visionar y: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform
技术报告：https://arxiv.org/abs/2512.08478
GitHub：https://github.com/Visionary-Laboratory/visionary
在线 Editor：https://visionary-laboratory.github.io/visionary/index_visionary.html

相比 Genie3 等视频生成范式的世界模型，其对算力的依赖极为庞大，距离在 Web 端实现高质量、实时运行仍有不小差距。反观神经渲染路线，尤其是 3D Gaussian Splatting，凭借其高效性，已经成为构建世界模型的重要表示形式。

3DGS 让高质量、实时的 3D 世界成为可能，但在实际落地中，仍存在明显断层：

桌面端 / 引擎方案（SIBR、Unity、Unreal）：性能强，但依赖沉重、部署复杂，难以传播与复现；

现有 Web 端方案（SparkJS、SuperSplat）：受限于 WebGL 管线，主要支持静态或预计算高斯，难以承载实时推理的动态 3DGS、Neural Avatar，更难引入生成式模型。

World Model 想要真正「被看见、被交互」，Web 端渲染底座成为关键瓶颈。

Visionary 的定位并非「又一个 3DGS 查看器」，而是一个面向 World Model / 空间智能的 Web 原生渲染基座 (Rendering Substrate)：

WebGPU 原生架构：将 GPU 计算与渲染真正带入浏览器，替代 WebGL；

ONNX 驱动的统一接口：将「每帧高斯生成 / 更新」抽象为标准化的模型契约；

动态友好设计：3DGS、4DGS、Neural Avatar 以及生成式后处理均可在线运行。

Visionary 的核心设计在于提出了 Gaussian Generator Contract：

将各类 3DGS、4DGS 及 Avatar 方法统一导出为 ONNX 标准，每帧仅需输入相机、时间等轻量控制信号，即可由 ONNX 输出完整的高斯属性缓冲。

这种设计使得渲染器不再受限于具体的算法细节，首次在浏览器端实现了每帧动态生成与更新高斯、同一渲染器承载多种 3DGS 变体以及接入生成式后处理（如风格化、增强）的能力。

实验数据显示，在相同 3DGS 资源条件下，Visionary 的渲染效率显著优于当前主流 Web 端查看器。

在包含数百万高斯点的典型场景中，Visionary 将排序与预处理完全迁移至 GPU (WebGPU)，显著降低端到端延迟，而 SparkJS 的性能瓶颈主要集中在 CPU 排序阶段。

不止更快：

Visionary 采用逐帧 GPU 全局排序，彻底避免了类似 SparkJS 在快速视角变化下出现的 lazy sorting 视觉伪影。在 Mip-NeRF360 等基准上，画质指标与 SparkJS 持平甚至略有提升。

同时避免了 SuperSplat 等方案中的逐物体排序混合错误。在多模型混合场景下，仍能保证透明度渲染正确。

对研究者来说，任意 3DGS 变体只要能导出 ONNX，即可快速复现、对比与展示；创作者无需安装专业软件，即可在浏览器中完成编辑、录制与渲染；

工业界则可将其应用于数字孪生、仿真、XR、具身智能等大规模实时场景。

Visionary 已在 GitHub 完全开源，采用宽松协议，并已获得 Firefox / Chrome WebGPU 相关开发者的关注与反馈。

目前已原生支持：MLP-based 3DGS (Scaffold-GS)、4D Gaussian Splatting、Neural Avatar (LHM、GauHuman、R³-Avatar 等)、ONNX 生成式后处理（风格化、增强），全部渲染流程均在浏览器端完成。

团队表示，Visionary 只是迈向统一世界模型框架的第一步。未来将进一步探索：

World Model 的竞争，最终会回到一个问题：谁能把复杂世界，稳定、快速、低门槛地呈现出来？

Visionary 给出的答案是：用 WebGPU + ONNX，把世界模型真正带到 Web。

浏览 (12)