AI视频生成全面起飞,背后的技术逻辑是什么?
过去的几个月里,视频生成迎来了爆发式发展:OpenAI 发布了 Sora,谷歌 DeepMind 推出了 Veo 3,初创公司 Runway 也上线了 Gen-4。这些工具都能生成几乎无法与真实拍摄或 CGI 动画区分的视频片段。与此同时,Netflix 在其剧集《永恒宇航员》(The Eternaut)中首次大规模使用 AI 生成视觉特效,这是生成视频技术首次进入大众电视制作领域。
当然,演示片段往往是“精挑细选”,展示了模型最理想的表现。但随着这类技术被越来越多的用户掌握,哪怕是最普通的创作者,如今也能轻松做出令人惊艳的内容。然而,弊端也随之而来:创作者们不得不与大量的 AI“流水线作品”竞争,社交媒体的信息流也正被虚假的新闻视频填满。更重要的是,视频生成的能耗极高,比文本或图像生成要高出许多倍。
既然 AI 视频已经无处不在,不妨花点时间,聊聊它背后的核心技术。
现在市面上有一系列高端工具,专业的视频制作人或许会把生成模型嵌入他们的工作流中,但对大多数人来说,只需在应用或网站上输入指令即可。比如输入:“嗨,Gemini,给我生成一段独角兽吃意大利面的影片。”返回的结果可能时好时坏,通常需要多试几次,甚至十几次,才能得到相对满意的版本。
那么问题来了:为什么生成结果参差不齐?为什么这么耗能? 答案是:如今的主流视频生成模型多采用潜在扩散 Transformer(latent diffusion transformers)。
想象一下:你有一张清晰的图片,给它加一层随机像素噪声,再加一层,如此反复,最后你得到的就是一片像老电视机雪花一样的“随机像素海”。
扩散模型(diffusion model)就是一个神经网络,被训练来逆转这一过程,从杂乱的像素中逐步恢复出图像。训练时,模型会看到数以百万计的不同时期加噪图像,并学习如何一步步还原。
因此,当用户输入一个文本提示词时,扩散模型会先生成一张随机噪声图,然后在语言模型的引导下,逐步把它修复成与你提示相符的图像。
这里的语言模型之所以能“对号入座”,是因为大多数生成模型都用到了从互联网上抓取的海量图文或图像-视频配对数据进行训练。这意味着模型学到的世界观,本质上是互联网内容的“蒸馏版”,不可避免地夹杂着偏见和不良信息。
图像之外,扩散模型也能应用于音频、视频等数据类型。区别在于:视频生成不是修复单张图片,而是要保证帧与帧之间的一致性。
直接处理视频的像素数据计算量巨大,因此大多数视频生成模型都采用潜在扩散(latent diffusion)技术。这意味着模型并不直接处理数百万像素,而是先把视频帧和文本提示压缩到一个潜在空间,即“数学编码”。在这个空间里,数据只保留核心特征,大大降低了计算量。
就像在线视频播放,视频会被压缩传输,等到播放时再解压还原。潜在扩散的过程类似,模型在潜在空间中一步步修复出视频的编码,最后再解码成用户可以观看的真实视频。
相比常规扩散模型,潜在扩散效率更高。但即便如此,视频生成依然比图像和文本耗能得多。
要让生成的视频在连续帧之间保持一致性,光靠扩散模型还不够。OpenAI 在 Sora 中提出,把Transformer 融入扩散模型中,这已经成为行业标准。
Transformer 本是用来处理长序列数据的,比如自然语言模型 GPT-5、Gemini 都依赖它来生成连贯的长文本。视频生成借鉴了这一点:把视频切分成一个个小“立方体片段”,再用 Transformer 来保持整体连贯性。
这样一来,生成的视频不再出现“物体突然消失”的问题,尺寸和方向也不受限制,模型可以同时学习短视频和宽屏大片,从而大幅提升生成质量。
Veo 3 带来的一大突破,是首次能在生成视频的同时生成音频,包括对口型的对白、环境音效、背景音乐等。正如 DeepMind 的 CEO Demis Hassabis 在 Google I/O 上所说:“我们正在走出视频生成的‘无声时代’。”
技术上的难点在于如何把音频和视频对齐。DeepMind 的解决方案是:在扩散模型中,把音频和视频压缩到同一个数据流里,让它们在生成过程中同步解码,确保声画匹配。
值得注意的是,扩散模型和大型语言模型(LLM)之间的界限正在模糊。今年夏天,DeepMind 就透露正在开发一种基于扩散模型的实验性语言模型。
虽然视频生成(使用扩散模型)会消耗大量能量,但扩散模型本身实际上比 Transformer 更高效。因此,通过使用扩散模型而非 Transformer 来生成文本,谷歌 DeepMind 的全新 LLM 可能会比现有的 LLM 更高效。期待在不久的将来看到更多来自扩散模型的成果!
原文链接:
1.https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/