图像编辑新神器:英伟达用拍电影思维解决图像编辑与世界模拟一致性难题
AI图像编辑领域,编辑前后保持一致性,一直是非常棘手的难题,尤其是物理一致性。
例如:Change the vehicle in the picture to be set in a beach environment(将图片中的车辆更改为在海滩环境中)

FLUX.1 [Dev],OmniGen2,Qwen-Image得到的结果分别是这样的:

NVIDIA和多伦多大学的研究者们提出了一个绝妙的想法:假如我们不把图像编辑看作是修改一张静态图片,而是看作在拍摄一部只有两帧的微型电影呢?

这个想法催生了ChronoEdit框架。结果立马见效:

ChronoEdit框架将输入图像视为电影的第一帧,将编辑后的理想图像视为最后一帧。
通过这个简单的视角转换,图像编辑这个经典难题,瞬间变成了一个视频生成问题。
这使得模型可以借助大规模视频生成模型中早已学到的时间连续性知识,来确保编辑过程符合物理规律,让P图不再翻车。
图像编辑的物理学难题
今天的图像编辑技术,在生成模型的驱动下已经变得异常强大。我们可以用一句话让图片里的白天变为黑夜,或者让空无一物的桌子上出现一个蛋糕。
但这种强大背后,隐藏着一个深刻的缺陷:物理一致性的缺失。
物理一致性,通俗地讲,就是编辑结果必须尊重现实世界的基本规律。一个被编辑的物体,应当保持它原有的核心属性,比如几何形状、材质和颜色。更重要的是,编辑所引发的变化,必须是连贯且合理的。
比如,你要求模型将这辆车向前移动一点,一个缺乏物理常识的模型可能会拉长车身、扭曲轮胎,或者干脆生成一个不合逻辑的影子。它只是在像素层面理解了向前,却没有理解移动这个动作背后所蕴含的一整套物理约束。
这些失败的根源在于,现有方法大多是纯粹由数据驱动的。
它们学习了海量图像中的关联性,却缺乏一种内在机制来强制编辑过程的连续性。这导致它们很容易产生一些看似合理,实则违反物理定律的漂移编辑。
在娱乐应用中,这或许只是个小瑕疵。
但在自动驾驶、机器人技术或科学模拟等严肃领域,物理一致性是不可逾越的红线。一个错误的模拟结果,可能会直接影响下游系统的决策与安全。
大规模视频生成模型的出现带来了新的曙光。
这些模型在训练中看过了不计其数的视频,天生就具备在连续帧之间保持物体结构和外观一致的强大能力。这种能力,就是一种内隐的时间先验。
ChronoEdit正是抓住了这一点,它没有重新发明轮子,而是巧妙地将视频模型的这种时间感知能力,嫁接到图像编辑任务上,构建了一个为物理一致性而生的基础模型。
将编辑变成一部微型电影
ChronoEdit的核心设计,可以用一句话概括:将预训练的图像到视频(I2V)模型,重新用于图像编辑。

这个过程的第一步,是将编辑任务巧妙地重构为一个两帧视频生成问题。
当用户提供一张输入图像和一条编辑指令时,ChronoEdit并不直接去修改这张图。它将输入图像建模为视频序列的第0帧,而将期望的输出图像建模为序列的第T帧。
通过这种方式,模型的任务不再是修改,而是预测中间过程。它需要想象出一个从第0帧到第T帧的合理演变路径。当模型用精心策划的图像编辑数据进行微调后,这种两帧的设定赋予了视频模型强大的编辑能力,同时完美地保留并利用了其预训练中获得的时间先验,以确保物体保真度。
对于那些对时间连贯性要求极高的世界模拟任务,例如动作编辑(让这个人举起手),ChronoEdit更进一步,引入了时间推理机制。
这个机制让编辑过程在推理时被显式地引导。
模型不再是直接从第一帧跳到最后一帧,而是主动地去想象并生成一系列中间过渡帧。这些中间帧就像一个思维草稿,规划了编辑应该如何一步步展开。
这些中间帧在技术上被称为时间推理token。它们与输入帧、目标帧一起,在一个联合去噪的过程中被处理。这个过程强迫模型去思考一个物理上可行的变换轨迹,从而将解空间限制在合理范围内,最终产生更符合物理规律的编辑结果。
具体到技术实现上,ChronoEdit建立在一种名为整流流(Rectified Flow)的视频生成模型之上。
这类模型通常使用一个预训练的变分自编码器(VAE)将高维的像素视频压缩成紧凑的潜在表示。所有核心的训练和推理都在这个低维的潜在空间中进行,最后再由解码器重建为像素视频。
为了处理时间结构,ChronoEdit利用了一种因果视频VAE。它会独立编码第一帧,然后根据前一帧的潜在信息来压缩后续的视频块。
当处理一个编辑对(输入图像c,输出图像p)时,ChronoEdit会将它们重新解释为一个极短的视频序列。输入图像c被编码为第一个潜在帧zc。而输出图像p则被重复四次,以匹配视频VAE 4倍的时间压缩率,然后编码为潜在帧zp。
这样就得到了两个在结构上与视频模型完全对齐的时间潜在变量。为了让模型明确感知它们在时间上的分离,ChronoEdit还通过调整模型的3D分解旋转位置嵌入(RoPE),将输入图像锚定在时间步0,将输出图像锚定在预设的时间步T。
时间推理token的引入,是ChronoEdit超越传统输入输出映射的关键。模型的目标不再是单步内凭空生成目标图像,因为这往往会导致突兀和不连贯的变化。通过推理中间状态,模型能更好地保持物体的身份、几何形状和物理连贯性。
实践中,ChronoEdit在代表输入图像的zc和代表输出图像的zp之间,插入了若干个中间潜在帧。这些帧在初始时被填充为随机噪声,然后与输出帧的潜在变量zp一同参与去噪过程。它们扮演了中间向导的角色,帮助模型思考出一条合理的变换路径。
这种设计还带来一个巨大的优势:训练框架的统一。无论是处理图像编辑对,还是处理完整的视频序列,模型都可以用同一种方式进行训练。
对于图像编辑数据,每一对样本(输入图c,输出图p,指令y)都被看作一个两帧视频,模型直接学习如何根据指令完成编辑。
对于视频数据,其结构与推理token的设计完全匹配:视频的第一帧对应输入c,最后一帧对应输出p,所有中间帧则自然地成为时间推理token。
这种设计让推理token在推理时成为一个可选项,即便没有它们,解码器也能独立恢复目标帧。而当它们存在时,又能为模型提供强大的连贯性转换监督。
这种图像对与视频的联合训练策略,让ChronoEdit得以两全其美。它能从海量的图像对中学习到丰富的语义对齐能力(即理解指令),同时又能从视频数据中学习到宝贵的时间一致性。
当然,要让模型学会思考演变过程,就需要给它看足够多、足够好的范例。
为此,ChronoEdit团队策划并生成了一个包含140万个视频的大规模合成数据集。这个数据集特别强调将场景动态与相机运动解耦,因为在训练中,如果第一帧和最后一帧之间发生了意外的视角变化,模型很可能会将其误解为一种编辑效果。
这个精心策划的视频语料库涵盖了三个互补的类别:
静态相机、动态物体的片段。这类视频由文本到视频模型生成,并在提示中特别加入了整个视频中相机保持静止的约束。
以自我为中心的驾驶场景。这是世界模拟中的一个关键场景,利用了能够固定相机、同时通过边界框精确控制车辆运动的专用模型生成。
动态相机、静态场景的片段。这类视频允许精确控制相机轨迹,同时保持场景内容不变。
为了给这些视频配上相应的编辑指令,ChronoEdit使用了一个视觉语言模型(VLM)为每个视频自动生成描述,总结从第一帧到最后一帧发生的变化。
在推理执行编辑时,ChronoEdit也设计了一套高效的两阶段方法。它允许模型从时间推理token中获益,又不必承担生成完整视频的全部计算开销。
直觉上,一个生成过程(无论是扩散还是流模型)的最初几个步骤,在最嘈杂的状态下,决定了最终结果的全局结构。
因此,ChronoEdit只在最开始的若干个去噪步骤中加入视频推理token,让它们在最关键的时刻发挥作用。在后续的去噪步骤中,则省略它们,以在质量和计算成本之间取得最佳平衡。
为了进一步提速,ChronoEdit还采用了蒸馏技术。
它使用一种名为DMD的损失函数,训练了一个仅需8步就能完成推理的学生模型。经过蒸馏后,模型在保持高质量编辑效果和指令遵循能力的同时,推理速度得到了显著提升。
现有的图像编辑基准,大多关注视觉保真度和指令遵循度,很少有专门评估物理一致性的。为了弥补这一空白,ChronoEdit团队引入了一个名为PBench-Edit的全新基准。
PBench-Edit源自一个专门用于评估物理世界模型的PBench数据集。原数据集涵盖了自动驾驶、机器人、物理学和常识推理等多个领域。
PBench-Edit从中精选出代表性的视频帧,并为它们手工制作并验证了编辑指令,从而构建了一个既多样化又植根于物理现实的评测集。
与其它偏向于简单动作的基准不同,PBench-Edit覆盖了更广泛的真实世界交互,如烹饪、驾驶和机器人操作。
它总共包含了271个高质量的图像编辑对。
评估时,同样使用GPT-4.1作为裁判,从指令遵循度、编辑质量和细节保留度三个维度进行打分。
用数据说话的卓越性能
ChronoEdit在实验中展现了其强大的能力。模型分为140亿参数的ChronoEdit-14B和20亿参数的ChronoEdit-2B两个版本。

在通用的图像编辑基准ImgEdit上,ChronoEdit-14B(在禁用时间推理以保证公平比较的情况下)获得了4.42的最高总分,优于所有最先进的基线模型。
尤其是在需要空间和结构推理的提取、移除等任务上,其优势尤为明显。这表明,即便是基础的图像视频联合预训练,也能为模型带来强大的动态一致性和场景转换建模能力。
经过蒸馏加速的ChronoEdit-14B-Turbo版本,推理速度比原版快了6倍(在两块NVIDIA H100 GPU上,每张图仅需5秒),得分仅略微下降,但仍然大幅超越了同级别的其它模型。
当战场转移到强调物理一致性的PBench-Edit基准上时,ChronoEdit的优势变得更加突出。

ChronoEdit-14B获得了4.43的最高总分。最值得关注的是动作保真度这一项,它直接反映了模型在执行涉及真实世界交互的编辑时,保持物理一致性的能力。在这个维度上,ChronoEdit-14B明显优于其它所有纯图像编辑模型。
当开启了时间推理功能后,ChronoEdit-14B-Think(即会思考的版本)更是将总分提升到了4.53,动作保真度得分也随之大幅增长。这清晰地证明了显式时间推理对于理解和执行物理编辑的巨大价值。
一个有趣的发现是,即便在总共50个采样步中,只在前10步使用时间推理(Nr=10),其性能也与全程使用推理相当,而计算开销仅增加了不到5秒。这说明了ChronoEdit两阶段推理策略的有效性。
更令人印象深刻的是,ChronoEdit能够可视化其思考过程。如果将那些作为中间状态的推理token也完全去噪并解码成图像,我们就能看到一条完整的推理轨迹。

如图所示,当被要求在长椅上添加一只猫时,模型并没有直接画出一只猫。它的推理轨迹显示:首先,场景中的长椅被合成出来;然后,一只猫从角落出现,并以一个合理的跳跃动作登上了长椅。整个过程由一系列连贯的中间状态组成,仿佛一部微型动画。
我们来看看ChronoEdit的编辑效果。






Restore the Winged Victory of Samothrace by adding a realistic classical head and arms
ChronoEdit用一个优雅的视角转换,将图像编辑的物理一致性难题,转化为其擅长的视频生成问题,并引入时间推理机制让模型学会思考变换过程。
它不仅在通用编辑任务上达到了顶尖水平,更在需要物理常识的世界模拟场景中展现了无与伦比的优势。
免费试玩:
https://huggingface.co/spaces/nvidia/ChronoEdit
参考资料:
https://research.nvidia.com/labs/toronto-ai/chronoedit/
https://github.com/nv-tlabs/ChronoEdit
https://arxiv.org/pdf/2510.04290