发布于 16小时前

AI视频生成全面起飞，背后的技术逻辑是什么？

过去的几个月里，视频生成迎来了爆发式发展：OpenAI 发布了 Sora，谷歌 DeepMind 推出了 Veo 3，初创公司 Runway 也上线了 Gen-4。这些工具都能生成几乎无法与真实拍摄或 CGI 动画区分的视频片段。与此同时，Netflix 在其剧集《永恒宇航员》（The Eternaut）中首次大规模使用 AI 生成视觉特效，这是生成视频技术首次进入大众电视制作领域。

当然，演示片段往往是“精挑细选”，展示了模型最理想的表现。但随着这类技术被越来越多的用户掌握，哪怕是最普通的创作者，如今也能轻松做出令人惊艳的内容。然而，弊端也随之而来：创作者们不得不与大量的 AI“流水线作品”竞争，社交媒体的信息流也正被虚假的新闻视频填满。更重要的是，视频生成的能耗极高，比文本或图像生成要高出许多倍。

既然 AI 视频已经无处不在，不妨花点时间，聊聊它背后的核心技术。

现在市面上有一系列高端工具，专业的视频制作人或许会把生成模型嵌入他们的工作流中，但对大多数人来说，只需在应用或网站上输入指令即可。比如输入：“嗨，Gemini，给我生成一段独角兽吃意大利面的影片。”返回的结果可能时好时坏，通常需要多试几次，甚至十几次，才能得到相对满意的版本。

那么问题来了：为什么生成结果参差不齐？为什么这么耗能？ 答案是：如今的主流视频生成模型多采用潜在扩散 Transformer（latent diffusion transformers）。

想象一下：你有一张清晰的图片，给它加一层随机像素噪声，再加一层，如此反复，最后你得到的就是一片像老电视机雪花一样的“随机像素海”。

扩散模型（diffusion model）就是一个神经网络，被训练来逆转这一过程，从杂乱的像素中逐步恢复出图像。训练时，模型会看到数以百万计的不同时期加噪图像，并学习如何一步步还原。

因此，当用户输入一个文本提示词时，扩散模型会先生成一张随机噪声图，然后在语言模型的引导下，逐步把它修复成与你提示相符的图像。

这里的语言模型之所以能“对号入座”，是因为大多数生成模型都用到了从互联网上抓取的海量图文或图像-视频配对数据进行训练。这意味着模型学到的世界观，本质上是互联网内容的“蒸馏版”，不可避免地夹杂着偏见和不良信息。

图像之外，扩散模型也能应用于音频、视频等数据类型。区别在于：视频生成不是修复单张图片，而是要保证帧与帧之间的一致性。

直接处理视频的像素数据计算量巨大，因此大多数视频生成模型都采用潜在扩散（latent diffusion）技术。这意味着模型并不直接处理数百万像素，而是先把视频帧和文本提示压缩到一个潜在空间，即“数学编码”。在这个空间里，数据只保留核心特征，大大降低了计算量。

就像在线视频播放，视频会被压缩传输，等到播放时再解压还原。潜在扩散的过程类似，模型在潜在空间中一步步修复出视频的编码，最后再解码成用户可以观看的真实视频。

相比常规扩散模型，潜在扩散效率更高。但即便如此，视频生成依然比图像和文本耗能得多。

要让生成的视频在连续帧之间保持一致性，光靠扩散模型还不够。OpenAI 在 Sora 中提出，把Transformer 融入扩散模型中，这已经成为行业标准。

Transformer 本是用来处理长序列数据的，比如自然语言模型 GPT-5、Gemini 都依赖它来生成连贯的长文本。视频生成借鉴了这一点：把视频切分成一个个小“立方体片段”，再用 Transformer 来保持整体连贯性。

这样一来，生成的视频不再出现“物体突然消失”的问题，尺寸和方向也不受限制，模型可以同时学习短视频和宽屏大片，从而大幅提升生成质量。

Veo 3 带来的一大突破，是首次能在生成视频的同时生成音频，包括对口型的对白、环境音效、背景音乐等。正如 DeepMind 的 CEO Demis Hassabis 在 Google I/O 上所说：“我们正在走出视频生成的‘无声时代’。”

技术上的难点在于如何把音频和视频对齐。DeepMind 的解决方案是：在扩散模型中，把音频和视频压缩到同一个数据流里，让它们在生成过程中同步解码，确保声画匹配。

值得注意的是，扩散模型和大型语言模型（LLM）之间的界限正在模糊。今年夏天，DeepMind 就透露正在开发一种基于扩散模型的实验性语言模型。

虽然视频生成（使用扩散模型）会消耗大量能量，但扩散模型本身实际上比 Transformer 更高效。因此，通过使用扩散模型而非 Transformer 来生成文本，谷歌 DeepMind 的全新 LLM 可能会比现有的 LLM 更高效。期待在不久的将来看到更多来自扩散模型的成果！

原文链接：

1.https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/

AI资讯

浏览 (4)

探小金-AI探金官方🆔 10小时前

Hey小伙伴们~探小金来啦！🌟最近，AI视频生成可是飞速发展，OpenAI的Sora、DeepMind的Veo 3和Runway的Gen-4都加入了视频大秀！🌟这些工具能制作出几乎以假乱真的视频，Netflix都在剧集里用上了AI特效，视频生成界真的好热闹！🔥 当然，大家看到的都是精心挑选的表演，但想想普通人也能轻松玩转，是不是超级酷炫？然而，AI视频的崛起也带来挑战，比如版权竞争和信息筛选问题，还有就是那高能耗的“秘密”——潜在扩散Transformer大显身手，要复原像素还得保持帧帧连贯，厉害但费电呢！🔍 到底为什么生成效果有好有差，耗电量又这么大？答案就在那些潜在空间的魔法里头！而且，最新进展是，音频生成也成了一大突破，开始告别无声！🎤技术上的黑科技真是让人目不暇接！总的来说，AI视频时代来临，背后的逻辑可精彩了！但别忘了，每一步科技的进步，都离不开大头头们在背后的努力和创新哦！🚀未来，咱们拭目以待，扩散