清华联手快手可灵,撞车谢赛宁团队RAE,用SVG再证明VAE已过时
AI图像生成正在告别沿用已久的VAE技术。
前脚谢赛宁团队刚刚宣告VAE时代结束:不再修补VAE,谢赛宁团队用RAE实现从8%到84%的飞跃,宣告VAE时代结束。
后脚清华和快手可灵又用SVG再证明VAE已过时。

长期以来,从Stable Diffusion开始,主流的扩散模型都依赖VAE来压缩图像,在一个低维的潜空间里进行训练,以此降低算力成本。
这个VAE+扩散的范式存在根本性缺陷。VAE构建的潜空间语义是混乱的,不同概念的特征(比如猫和狗)会纠缠在一起,导致模型训练和推理效率低下,并且这个空间除了生成图像,很难用于分类、分割等其他视觉任务。
清华大学智能视觉团队与快手可灵团队联合提出了一种名为SVG(Self-supervised representations for Visual Generation,自监督视觉生成)的全新方案,彻底绕开了VAE。
核心思路是,用DINOv3这类强大的预训练自监督视觉模型,直接替换掉VAE。这些模型本身就学习到了一个语义清晰、结构良好的特征空间,天然适合扩散模型的训练。
纽约大学谢赛宁团队也提出了思想高度一致的RAE(表征自编码器)模型。两大团队不约而同地指向了同一个未来:一个无VAE的,更高效、更通用的AI视觉生成新时代。
AI生图卡在了语义纠缠上
想象一下VAE创造的潜空间,就像一个杂乱无章的图书馆,所有书(图像特征)都胡乱堆在一起。当你想找一本关于猫的书时,你可能得翻遍整个图书馆。
扩散模型在这个空间里学习,就面临着同样的困境。由于不同语义类别的特征点严重重叠,模型需要花费大量的训练步数,才能理清这些混乱的特征,学习到数据的真实分布。这直接导致了训练和推理的效率双低。
t-SNE可视化清晰地揭示了这个问题。在VAE潜空间里,代表不同物体的特征点混杂一团;而在DINOv2这类自监督模型构建的特征空间里,不同类别则泾渭分明,边界清晰。
此外,VAE通过重建损失进行训练,本质上是一个像素复印机,它擅长生成,却不擅长理解。它的特征在分类、分割等核心视觉感知任务上,效果远不如专门的特征提取器。
这就带来了一个核心矛盾:我们能否找到一个空间,既能高质量地生成图像,又能精准地理解图像内容?
自监督视觉模型的崛起,恰好提供了答案。像DINOv3这样的模型,通过在海量无标签数据上进行训练,已经学会了提取具有强大语义判别能力的视觉特征,并且保留了足够的基础图像结构信息,具备很高的重建潜力。
SVG的核心洞察,正是利用这种现成的、结构化的语义空间,来彻底取代混乱的VAE潜空间。
SVG用骨架+细节重构了潜空间
SVG的设计目标非常明确:构建一个既有清晰语义结构,又能高保真重建图像的潜在空间。

为此,SVG自编码器由三个关键部件构成。
第一个部件,是一个冻结的DINOv3编码器。
它构成了整个系统的语义骨架。DINOv3由Meta AI在2025年8月发布,它通过自监督学习,已经掌握了强大的视觉表征能力。将其冻结并直接使用,可以确保潜空间拥有一个稳定且语义判别性强的底层结构。
第二个部件,是一个轻量的残差编码器。
DINOv3虽然能精准捕捉全局语义,但为了实现这一点,它会不可避免地丢失一些高频细节,比如精细的纹理和准确的色彩。如果只用DINOv3的特征来重建图像,画面会显得模糊且失色。
SVG设计的这个残差分支,就像一个细节画笔,它专门学习DINOv3忽略掉的那些高频信息,然后通过通道级拼接的方式,与DINOv3的主干特征融合在一起。
第三个部件,是一套分布对齐机制。
直接将语义骨架和细节拼在一起,可能会出问题。因为残差特征的数值分布和DINO特征差异很大,生硬的拼接会破坏DINOv3辛苦建立起来的语义结构。
SVG的解决方法是,在拼接前,先将残差特征进行归一化,再根据DINO特征的均值和方差进行缩放,让两者的画风保持一致。
消融实验证明了这一机制的必要性。去掉分布对齐后,模型的生成FID指标(越低越好)从6.12飙升至9.03。
最后,一个解码器负责将这个融合了语义与细节的全新latent特征,重新映射回像素空间,生成最终的图像。
这个过程最大的不同在于,传统扩散模型是在一个极低维(如16×16×4)的空间里训练,而SVG直接在一个高维(16×16×392)的特征空间里训练。
传统观念认为高维空间训练不稳定,但SVG证明了,只要这个空间结构足够好,高维训练不仅稳定,甚至效率更高。
SVG的性能表现全面超越了传统
SVG在ImageNet 256×256数据集上的实验结果,从质量、效率和通用性三个方面,证明了新范式的优越性。

在生成质量上,SVG-XL模型(675M参数)在仅训练80个epoch(周期)后,生成FID就达到了6.57(无分类器引导),远超使用传统VAE的同规模模型SiT-XL的22.58。

如果将训练延长到1400个epoch,SVG-XL的FID可以进一步降低到1.92,达到了当前顶级生成模型的水平。
在训练与推理效率上,SVG的优势更为惊人。
SVG-XL只用80个epoch的训练量,就超越了SiT-XL训练1400个epoch的生成质量(gFID 6.57 vs 9.35)。这意味着训练效率提升了17.5倍。
在推理时,SVG同样表现出色。在5步采样这样极端的少步数条件下,SVG-XL的gFID为12.26,而基于VAE的SiT-XL则高达69.38,几乎无法生成有效图像。这得益于SVG潜空间良好的结构,让扩散过程更平滑,可以用更少的步骤收敛到高质量结果。

最关键的突破,在于多任务的通用性。
SVG的潜空间因为继承了DINOv3的强大能力,所以可以直接用于图像分类、语义分割、深度估计等多种视觉理解任务,并且不需要对编码器进行任何额外的微调。
实验数据显示,SVG编码器在这些任务上的性能,与原始的DINOv3几乎完全一致。
这验证了一个长久以来的设想:AI的生成、理解与感知能力,完全可以共享同一个统一的表征空间。
SVG证明了统一视觉模型的可行性
SVG的定性分析也提供了很多有趣的发现。

在SVG空间中,对两个随机噪声点进行线性插值,可以得到一系列平滑过渡的生成图像。而在传统的VAE空间中,同样的线性插值可能会在中间产生扭曲、崩坏的结果。这直观地证明了SVG空间的连续性和鲁棒性。
此外,基于SVG的生成模型,同样具备零样本编辑的能力,可以像传统扩散模型一样,对生成图像的局部内容进行修改。
SVG的核心创新,在于它通过自监督特征的语义骨架+残差学习的细节补充这一精巧组合,成功构建了一个统一的视觉表征空间。
这个空间,既能满足生成任务对高保真重建的需求,又能满足理解任务对强语义判别性的需求。
它证明了语义判别性对于扩散模型训练的极端重要性,并为构建下一代通用视觉大模型提供了一条清晰可行的技术路径。
SVG目前也存在一些局限,比如特征维度较高,在更大规模、更高分辨率和更复杂的文生图、文生视频任务上的潜力还有待挖掘。
一个能看懂世界,也能创造世界的统一AI视觉大脑,离我们越来越近了。
参考资料:
https://arxiv.org/abs/2510.11690
https://arxiv.org/abs/2510.15301
https://ai.meta.com/blog/dinov3-self-supervised-vision-model
https://howlin-wang.github.io/svg
https://github.com/shiml20/SVG