机器之心
发布于

万帧实时!流式3D重建天花板,被国产开源模型打破了

编辑|杨文

蚂蚁灵波,下了盘大棋。

今年 1 月,蚂蚁灵波一口气开源了 4 款大模型,包括高精度空间感知模型 LingBot-Depth、具身大模型 LingBot-VLA 与具身世界模型 LingBot-VA,以及世界模型 LingBot-World。

其中,LingBot-Depth 负责从图像中估算深度、感知空间距离,LingBot-World 负责对环境进行模拟和理解,LingBot-VLA/VA 负责机器人的决策和动作控制。

这四款模型「各司其职」,分别覆盖感知底层、环境理解和行动输出,但中间一直缺少一个关键环节,就是如何把连续的感知数据实时构建成稳定的三维空间模型,让后续模块有据可依。

现在,这个空缺被填上了。

最近,蚂蚁正式开源 LingBot-Map,一个基于几何上下文 Transformer(Geometric Context Transformer,GCT)的纯自回归的流式 3D 重建基础模型

它能在几近恒定内存约束下,实现超万帧长视频的实时三维重建,处理速度约 20 FPS,并在多个基准测试中超越了现有流式方法。

LingBot-Map 与最先进的流式重建方法的比较

给定连续视频流,LingBot-Map 可同步输出精确的相机位姿估计与高质量点云。比如真实世界航拍俯瞰,LingBot-Map 保持稳定的定位能力与高精度 3D 重建效果:

即便在穿越多房间的长序列中,面对环境剧变与大幅视角变换,模型依然能表现出极强的鲁棒性:

在生成视频建模场景中,LingBot-Map 与主流生成视频高度兼容,实现稳定的位姿锁定:

针对长序列户外场景,模型在快速运动与频繁视角切换下同样维持了可靠的位姿精度:

建筑环绕场景中,LingBot-Map 则进一步强化了回环重建能力,确保全局一致性:

此次开源内容包括技术报告、核心代码和模型权重,已同步上线 Hugging Face 和 ModelScope 平台。

  • 论文链接:https://arxiv.org/abs/2604.14141

  • Hugging Face 链接:https://huggingface.co/robbyant/lingbot-map

  • ModelScope 链接:https://www.modelscope.cn/models/Robbyant/lingbot-map

  • GitHub 链接:https://github.com/Robbyant/lingbot-map

至此,从单帧深度估计,到纯自回归的流式 3D 重建,再到场景理解和控制输出,一条更为完整的技术链路就此贯通。

机器的空间记忆,为什么这么难?

如果我们在一栋陌生的大楼里转悠二十分钟,能大致描述出刚才走过的路线和空间结构吗?大概率可以。这是因为人类大脑会在行走过程中持续建立空间记忆,把一帧一帧的感官信息整合成一张动态地图。

不过,机器要做到同样的事,难得多。

摄像头可以拍下连续的画面,但把这些二维图像还原成准确的三维空间模型,同时保持实时更新、实时可用,是具身智能和自动驾驶领域长期悬而未决的难题。其难点在于,视频流是没有终点的,历史帧的信息不能丢,当前帧又必须即时处理,而内存还是有限的。

现有方案,大多只能顾一头。

传统 3D 重建方法,比如经典的 SfM(运动恢复结构),通常需要收集完所有帧之后,再进行离线的全局优化。这种离线处理方案精度高,但要等视频录完才能开始算,难以满足实时运行需求。

于是就有了流式重建的思路,让模型在接收每一帧画面的同时,持续更新三维理解,不做事后处理,但现实中有两道坎难以逾越。

一是「灾难性遗忘」。神经网络在处理新输入时,会倾向于覆盖旧有信息。视频越长,模型越容易忘记早期建立的几何关系,导致重建结果在时间维度上前后矛盾、全局漂移。

一是「内存膨胀」。如果想对抗遗忘,最直觉的做法是把历史帧全部保存下来,随时参考。但视频帧数一旦过多,内存就会爆炸。万帧以上的长视频,现有流式方法普遍难以稳定应对。

在这个两难困境里,LingBot-Map 给出了一条不同的路径。

LingBot-Map 流程。该框架处理相对于初始化集 [T, T) 的当前视图。DINO 骨干网络提取图像特征,然后通过交替的帧注意力层和 GCA 层进行细化。在 GCA 模块中,输入视图聚合来自锚点上下文、局部姿态参考窗口 [T, T] 和轨迹记忆上下文的信息。最后,特定任务的头部预测相机姿态和深度图,从而实现对长序列的鲁棒、内存高效的流式 3D 重建。

它是怎么解决「记忆」问题的?

让机器实时看懂三维世界,本质上是个记忆问题,比如记什么、怎么压缩、如何在需要时快速调取。

那么,LingBot-Map 是如何解决这一难题的?这就不得不提一个名为几何上下文注意力(Geometric Context Attention,GCA)的核心机制。

核心机制:几何上下文注意力(GCA)

GCA 的设计灵感,来自机器人领域的经典算法 SLAM。

传统 SLAM 告诉工程师,要让机器人在未知环境里边走边建图,至少需要维护三类空间记忆:锁定坐标系原点的参考帧、捕捉近邻帧几何细节的局部窗口,以及记录全局行走轨迹的稀疏地图。

不过,传统 SLAM 依赖工程师手动编写复杂的几何约束代码,灵活性有限。LingBot-Map 研究团队换了条路,将这些空间规律内化到 Transformer 的注意力机制中,利用因果注意力(Causal Attention)确保模型只利用过去和当前的信息,完全符合机器人边走边看的实时逻辑。

几何上下文注意力(GCA)在处理视频流时,同时维护三类记忆。

第一类是锚点(Anchor),负责记住「我从哪里出发」。它为整个三维坐标系提供稳定基准,空间重建最怕坐标漂移,有了锚点,模型在处理第一万帧时,仍然清楚第一帧发生在什么位置。

第二类叫位姿参考窗口(Pose-reference window),负责捕捉当前位置附近的局部几何细节。这相当于对「我身边有什么」保持清醒的即时感知,保证了逐帧重建的精度。

第三类为轨迹记忆(Trajectory memory),这是整个架构中较为关键的设计。它把庞大的历史信息压缩成极其紧凑的逐帧 Token,以较低的存储代价保留对过去路径的「印象」。正是这一机制,让 LingBot-Map 的内存消耗几乎不随视频长度增长,处理 100 帧和处理 10000 帧,总的计算量和内存占用维持在几近相同的水平。

三类记忆协同工作,让模型在处理当前画面时,能同时调取空间基准、局部细节和历史轨迹。整套机制端到端可学习,模型在训练中自动习得如何分配和压缩信息,不依赖人工设计的规则。

这种设计带来的效率提升相当可观。以一段万帧视频为例,如果采用朴素的因果注意力缓存所有历史,模型需要维护约 500 万个 token,而 GCA 只需要约 7 万个,足足压缩了近 80 倍,且每处理一帧新画面,计算量和内存消耗几乎不随总帧数增长。

注意力掩码比较。每个方框代表一帧的 Token,由一小段上下文 Token 和一段较大的图像 Token 组成。(a) 全注意力(Full attention)会关注所有帧。(b) 因果注意力(Causal attention)支持流式处理,但计算开销随序列长度线性增长。(c) 滑动窗口注意力(Sliding-window attention)虽然限制了计算成本,但会丢失长程上下文。(d) GCA 将流式上下文划分为锚框 (n=2)、局部窗口 (k=2) 和轨迹记忆,在保持计算成本随序列长度增加而近乎恒定的同时,保留了丰富的长程上下文信息。

如何教会机器「有选择地记忆」?

有了 GCA 机制,还需要配套的训练与推理策略,才能让模型学会在长序列中稳定工作。

直接在长序列上进行训练极具挑战性。早期帧的位姿误差会沿轨迹传播,破坏损失函数的稳定性,导致优化速度缓慢甚至发散。为此,LingBot-Map 采用渐进式视图训练策略:模型从短子序列开始,并在训练过程中逐步增加视角数量,训练视图数量从 24 帧线性递增至 320 帧,让模型先在短序列中获得可靠的局部几何估计,再学习如何在逐渐延长的轨迹上保持全局一致性。

随着训练序列长度的增加,跨帧注意力的计算复杂度呈平方级增长,GPU 内存成为主要瓶颈。对此,LingBot-Map 引入了上下文并行策略,将不同视图分布至多张 GPU,通过高效的全局通信实现并行注意力计算,从而在不牺牲序列长度的前提下完成大规模训练。

损失函数同样经过精心设计,LingBot-Map 采用一个复合损失函数来训练,该函数由深度损失、绝对位姿损失与相对位姿损失组成。模型采用相机到世界坐标系的变换进行监督,规避了世界到相机参数化中旋转与平移耦合带来的误差放大问题。此外,视频时序位置编码将帧序信息注入轨迹记忆 Token,使模型能够感知历史帧之间的时间距离,更有效地抑制长程漂移。

推理层面,LingBot-Map 借鉴自回归大语言模型的 KV 缓存机制,并通过分页 KV 缓存布局避免频繁内存重分配的开销,配合 FlashInfer 框架的稀疏注意力优化,最终在 518×378 分辨率下实现约 20 FPS 的实时推理,相比 PyTorch 基线提速近一倍。

在基准测试上,它表现如何?

LingBot-Map 团队建立了一个全面的评估基准测试,涵盖相机位姿估计与 3D 重建两大任务,横跨室内、室外及大规模场景,结果均显著优于现有流式方法。

相机位姿估计方面,Oxford Spires 是一个涵盖复杂室内外环境、场景变化显著的大规模数据集,是检验流式方法长序列鲁棒性的严苛标准。

轨迹对比。(a) 在 Oxford-Spires 场景中,LingBot-Map 甚至优于双向 (DA3-Giant) 和基于优化的方法 (ViPE),能够在复杂的室内外过渡和昏暗楼梯中准确地保持轨迹。(b) 在 Tanks and Temples 以及其他 Oxford-Spires 场景中,LingBot-Map 方法始终能够生成准确的轨迹,而其他流式方法则存在严重的轨迹漂移。蓝色为真实轨迹,橙色为预测轨迹;起点为圆点 (●),终点为叉号 (×)。

在稀疏设置(每隔 12 帧采样,共 320 帧)下,LingBot-Map 在几乎所有指标上取得最优成绩,AUC@15 达到 61.64,AUC@30 达到 75.16,绝对轨迹误差(ATE)仅为 6.42,这一数字不仅大幅领先所有在线方法,甚至超越了需要访问全部帧的离线方法,以及依赖迭代优化的方法。这一结果充分说明,GCA 机制在长序列中的全局一致性保持能力已不输于后处理优化。

Oxford Spires 数据集上的位姿与轨迹精度对比。在与先前的离线方法、基于优化的方法以及在线方法的对比中,LingBot-Map 的方法在绝大多数指标上均实现了最优性能。

在密集设置(完整 3840 帧序列)下,大多数流式方法因轨迹漂移而性能大幅劣化,比如 CUT3R 的 ATE 从 18.16 升至 32.47,Wint3R 从 21.10 升至 32.90。相比之下,LingBot-Map 始终保持较低的误差,ATE 仅从 6.42 小幅升至 7.11,在序列长度增加 12 倍的情况下,误差仅略微增加了 0.69,表现出极强的长程稳定性。LingBot-Map 还实现了 20.29 FPS 的极具竞争力的推理速度,同时在所有流式方法中保持了最佳的轨迹精度。

在 Oxford Spires 数据集上关于稀疏(Sparse)轨迹与稠密(Dense)轨迹的精度对比。研究者对比了在稀疏设置(320 帧)和稠密设置(3840 帧)下的绝对轨迹误差(ATE),衡量了从稀疏到稠密设置下的精度退化程度。LingBot-Map 保持了近乎恒定的精度,而其他方法则出现了明显的退化。

在 ETH3D、7-Scenes 和 Tanks and Temples 三个数据集上,LingBot-Map 同样全面领先。以 ETH3D 为例,其 AUC@3 达到 27.79,AUC@30 达到 86.20,ATE 低至 0.22;在 Tanks and Temples 上,AUC@30 高达 92.80,ATE 仅为 0.20,均为各方法中最优。

ETH3D、7-Scenes 和 Tanks & Temples 上的位姿与轨迹精度对比。在 ETH3D、7-Scenes 和 Tanks & Temples 数据集上的结果表明,LingBot-Map 方法在所有数据集上均取得了最佳性能。

除了数值指标之外,该团队还提供了重建质量的定性比较。在长时间间隔后重新访问场景时,LingBot-Map 的方法表现出最小的漂移,能够生成清晰一致的建筑结构重建结果。相比之下,其他方法由于记忆遗忘而出现严重的轨迹漂移和点云碎片化。这证明了 LingBot-Map 几何上下文注意力机制在保持长序列一致性方面的有效性。

点云重建的定性比较。

三维重建方面,在 ETH3D 上,LingBot-Map 的 F1 得分为 98.98,比次优方法 Wint3R 高出 22.7 个百分点;在 NRGBD 数据集上,F1 得分达到 64.26,同样大幅超过 StreamVGGT 和 TTT3R 等方法。精度与完整度的双重提升,表明模型在保持重建准确性的同时,对场景覆盖率也有更充分的保障。

ETH3D、7-Scenes 和 NRGBD 上的点云重建对比。LingBot-Map 方法在准确率、完整性和 F1 分数方面均取得了最佳结果。

消融实验进一步验证了各组件的贡献。

单独加入锚点初始化可将 AUC@3 从 9.80 提升至 13.63,ATE 从 8.59 降至 7.88;引入相对位姿损失对帧间旋转误差的约束尤为关键,去掉后 RPE-rot 从 2.26 恶化至 5.35;而上下文 Token 与视频 RoPE 的联合引入则进一步将 AUC@3 提升至 16.39,ATE 降至 5.98,说明对全局轨迹信息的精确编码是长程一致性的重要保障。

长序列姿态估计和轨迹精度的消融研究。所有组成部分均对最终性能有显著贡献。

效率分析方面,将位姿参考窗口限定为 64 帧而非保留全部历史,不仅将推理速度从 11.87 FPS 提升至 20.29 FPS,显存占用从 36.06 GB 降至 13.28 GB,ATE 也从 6.60 进一步下降至 5.98,这表明 GCA 所保留的精选几何上下文,其信息密度实际上高于不加筛选的完整历史缓存,在效率与精度上实现了双赢。

姿态参考窗口与全窗口的效率比较。姿态参考窗口(大小为 64)在显著提高速度和降低内存占用的同时,实现了更高的精度。

结语

纯自回归流式 3D 重建,是具身智能领域公认的技术难点之一。此前,业内方案普遍面临实时性与内存占用难以兼顾的困境,制约了具身系统在复杂、长时任务中的实际表现。

LingBot-Map 的开源,为这一问题提供了一个可复现、可验证的解法,也将相关技术门槛向下拉了一档。

从更大的视角来看,这也是蚂蚁灵波具身大脑平台趋于完整的一个节点。深度感知、场景理解、决策控制等模块此前已陆续开源,LingBot-Map 的加入,补上了实时空间建模这一关键缺口。一套具身大脑该有的模块,正在逐渐变得完整。

当然,具身智能真正成熟,还需要无数真实场景的打磨和验证,但这类基础能力的开放共享,或将对整体研发节奏产生实质性影响。

文中视频链接:https://mp.weixin.qq.com/s/w_Vt1AylNX9WH3NBaKmUwA

浏览 (2)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哇哦,探小金来啦!刚刚读完这篇《万帧实时!流式3D重建天花板,被国产开源模型打破了》,感觉蚂蚁灵波这次真的是下了大棋啊!🎲👍 机器之心大大,你的文章不仅介绍了LingBot-Map的强大功能,还深入浅出地解释了它的核心机制GCA,真是太棒了!👏🎉 探小金想问一下,这样的技术进步,未来会不会让我们的生活变得更加智能呢?🤔💡 期待大家的讨论哦!🤗👫
点赞
评论
到底啦