Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城
机器之心编辑部
Meta 用一段文本构建可探索的 3D 世界。
谷歌、OpenAI 那边一个接一个上新,整个 AI 圈都卷得飞起。
与此同时,Meta 也没闲着,先是 SAM 3、接着 SAM 3D,现在干脆直接把生成式 AI 的玩法往前推了一大步:不光是画张图、生成一段视频,而是一句话就能生成一个能走进去的 3D 世界。
不是简简单单的场景截图,而是真・可漫游、可互动、能四处乱逛的那种。

你只需输入一句简单的提示词,比如「卡通风格的中世纪村庄」或「火星上的科幻基地站」,几分钟内就能生成一个可交互的 3D 世界。这个世界在风格和主题上是完全一致的,你的火星基地里不会出现中世纪现代建筑,你的中世纪村庄里也不会突然冒出维多利亚风格的家具。

中世纪村庄

赛博朋克贫民窟
同时,生成的 3D 世界还是结构合理的:不同区域之间会以可通行的方式连接,让角色可以在世界中自由漫步,而不会走着走着被卡住。


中世纪城镇广场,有石板路、木屋、钟楼和中央教堂。
这就是 Meta 最新公布的一项突破性研究 WorldGen:只需一段文本提示就能生成真正可导航、可交互、可以走进去探索的完整 3D 世界。
几年前,这听上去可能像是科幻小说,但随着生成式 AI 技术的快速发展,人们已经可以根据一句文本或一张图片生成令人惊叹的短片。
WorldGen 是一个先进的端到端系统,基于程序化推理、扩散模型 3D 生成技术,以及面向对象的场景分解组合而成。生成的结果是几何结构一致、视觉效果丰富、同时渲染高效的 3D 世界,可用于游戏、仿真和沉浸式社交环境。


一座沙漠小镇,拥有砂岩建筑、遮荫的市场遮阳篷和狭窄的小路。
方法介绍
现阶段,我们已经看到生成式 AI 在根据文本或图像提示生成高质量 3D 资产方面取得了巨大进展。WorldGen 将多项已有的 2D 与 3D 生成技术进行融合并创新:它首先生成 3D 场景的图像,然后再进行图像到 3D 的重建,主要包含以下阶段:
规划:程序化 blockout 生成、导航网格提取、参考图像生成;
重建:图像到 3D 的基础模型、基于导航网格的场景生成、初始场景纹理生成;
分解:使用加速版 AutoPartGen 进行场景部件提取、场景分解数据整理;
精修:图像增强、网格 - 精修模型、纹理生成模型。
其他已有的方法虽然也能从图像或文本提示生成可交互的三维世界,但它们通常从单一指定的视角出发向外扩展,而不是基于全局参考图像或完整布局进行生成。
这样的方式意味着:在中心视角附近,几何结构和纹理质量尚可,但一旦你向外移动 3 到 5 米,质量就会迅速下降。
相比之下,WorldGen 能够生成覆盖 50 x 50 米的完整纹理化场景,并在整个区域中保持风格与几何的一致性。
未来,Meta 还计划支持更大规模的世界生成。

古代寺庙群,以红塔式建筑为特色,有层叠的屋顶、石阶和庭院。
Meta 表示,这项工作目前仍处于研究阶段,尚未对开发者开放,但 WorldGen 生成的内容已经可以直接兼容 Unity、Unreal 等主流游戏引擎,无需额外的转换流程或渲染流程。
不过,Meta 也强调,尽管 WorldGen 在生成多样化、可交互、可导航的世界方面取得了重要进展,但当前模型仍存在一些改进的地方。例如,未来版本将支持更大空间规模,并降低生成延迟。
在传统工作流中,三维内容的制作往往既复杂又耗时,对许多人来说甚至难以踏入。WorldGen 的出现让情况开始发生变化,它展示了跨行业节省时间和成本的巨大潜力,并让普通人也有机会参与到 3D 世界构建中来,推动内容创作真正走向大众化。这也呼应了 Meta 在 Connect 大会上描绘的愿景:未来,每个人都能在无需编写任何代码的情况下,从一个简单的文字提示开始,创造出属于自己的完整虚拟世界。

一个以万圣节为主题的村庄,有歪斜的黑色屋顶房屋、发光的窗户、南瓜和扭曲的树。
与此同时,Meta 还放出了相关论文,感兴趣的读者可以阅读论文,了解更多内容:

论文标题:WorldGen: From Text to Traversable and Interactive 3D Worlds
论文地址:https://scontent-sea1-1.xx.fbcdn.net/v/t39.2365-6/586830145_834419405978070_3937417229378696315_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=d65b48&_nc_ohc=KjIRxfgDxfAQ7kNvwEUbcRV&_nc_oc=AdkyeBfeCoX5Y2sIxaeN_wzTJOo3BvhPhYFDsCuN2XdGW60PPHW5-cPauGTZ7kjcmN6LymJ7ZXAcfyjoy5mlGra1&_nc_zt=14&_nc_ht=scontent-sea1-1.xx&_nc_gid=3tX278lz5_LpF7k9qDsxvQ&oh=00_Afjv87PRMbBTzjkRBOHUekl_YD8a0iIEvaJu8RrnvKr7vg&oe=6926DA80
与其他新兴技术的对比:WorldGen 的优势
前段时间,斯坦福大学教授李飞飞的创业公司 World Labs 推出了 Marble ,该系统使用的是 Gaussian Splatting 技术,能实现高度写实的视觉效果。虽然画面非常逼真,但这类基于 splat 的场景存在一个明显短板:一旦摄像机从中心视角稍微移动,仅仅 3 到 5 米,图像质量就会迅速下降。
相比之下,Meta 选择以网格(mesh)为基础输出几何结构,使 WorldGen 成为一个真正面向功能开发的工具,而不仅是用于渲染视觉内容。这种结构原生支持物理模拟、碰撞检测和导航,对于任何交互式软件而言,这些功能都是不可或缺的。也因此,WorldGen 能生成面积达到 50×50 米的完整场景,并且在整个区域内保持几何的一致性与完整性。
对技术或创意领域的从业者来说,WorldGen 的出现意味着 3D 工作流程将迎来新的可能性。
与此同时,技术美术和关卡设计师的工作方式也将发生转变,从手动摆放每一个顶点,转向使用提示词驱动 AI 并对其输出进行筛选与编辑。
当然,尽管 WorldGen 输出的场景可以无缝接入现有游戏引擎(如 Unity 和 Unreal),但生成过程本身对算力的需求依然很高。因此,开发者也需评估本地渲染和云端渲染的能力,以决定最合适的部署方式。
参考链接:
https://www.meta.com/blog/worldgen-3d-world-generation-reality-labs-generative-ai-research/
https://www.artificialintelligence-news.com/news/worldgen-meta-generative-ai-for-interactive-3d-worlds/