DeepTech深科技
发布于

AI视频生成全面起飞,背后的技术逻辑是什么?

过去的几个月里,视频生成迎来了爆发式发展:OpenAI 发布了 Sora,谷歌 DeepMind 推出了 Veo 3,初创公司 Runway 也上线了 Gen-4。这些工具都能生成几乎无法与真实拍摄或 CGI 动画区分的视频片段。与此同时,Netflix 在其剧集《永恒宇航员》(The Eternaut)中首次大规模使用 AI 生成视觉特效,这是生成视频技术首次进入大众电视制作领域。

当然,演示片段往往是“精挑细选”,展示了模型最理想的表现。但随着这类技术被越来越多的用户掌握,哪怕是最普通的创作者,如今也能轻松做出令人惊艳的内容。然而,弊端也随之而来:创作者们不得不与大量的 AI“流水线作品”竞争,社交媒体的信息流也正被虚假的新闻视频填满。更重要的是,视频生成的能耗极高,比文本或图像生成要高出许多倍。

既然 AI 视频已经无处不在,不妨花点时间,聊聊它背后的核心技术。

现在市面上有一系列高端工具,专业的视频制作人或许会把生成模型嵌入他们的工作流中,但对大多数人来说,只需在应用或网站上输入指令即可。比如输入:“嗨,Gemini,给我生成一段独角兽吃意大利面的影片。”返回的结果可能时好时坏,通常需要多试几次,甚至十几次,才能得到相对满意的版本。

那么问题来了:为什么生成结果参差不齐?为什么这么耗能? 答案是:如今的主流视频生成模型多采用潜在扩散 Transformer(latent diffusion transformers)。

想象一下:你有一张清晰的图片,给它加一层随机像素噪声,再加一层,如此反复,最后你得到的就是一片像老电视机雪花一样的“随机像素海”。

扩散模型(diffusion model)就是一个神经网络,被训练来逆转这一过程,从杂乱的像素中逐步恢复出图像。训练时,模型会看到数以百万计的不同时期加噪图像,并学习如何一步步还原。

因此,当用户输入一个文本提示词时,扩散模型会先生成一张随机噪声图,然后在语言模型的引导下,逐步把它修复成与你提示相符的图像。

这里的语言模型之所以能“对号入座”,是因为大多数生成模型都用到了从互联网上抓取的海量图文或图像-视频配对数据进行训练。这意味着模型学到的世界观,本质上是互联网内容的“蒸馏版”,不可避免地夹杂着偏见和不良信息。

图像之外,扩散模型也能应用于音频、视频等数据类型。区别在于:视频生成不是修复单张图片,而是要保证帧与帧之间的一致性。

直接处理视频的像素数据计算量巨大,因此大多数视频生成模型都采用潜在扩散(latent diffusion)技术。这意味着模型并不直接处理数百万像素,而是先把视频帧和文本提示压缩到一个潜在空间,即“数学编码”。在这个空间里,数据只保留核心特征,大大降低了计算量。

就像在线视频播放,视频会被压缩传输,等到播放时再解压还原。潜在扩散的过程类似,模型在潜在空间中一步步修复出视频的编码,最后再解码成用户可以观看的真实视频。

相比常规扩散模型,潜在扩散效率更高。但即便如此,视频生成依然比图像和文本耗能得多。

要让生成的视频在连续帧之间保持一致性,光靠扩散模型还不够。OpenAI 在 Sora 中提出,把Transformer 融入扩散模型中,这已经成为行业标准。

Transformer 本是用来处理长序列数据的,比如自然语言模型 GPT-5、Gemini 都依赖它来生成连贯的长文本。视频生成借鉴了这一点:把视频切分成一个个小“立方体片段”,再用 Transformer 来保持整体连贯性。

这样一来,生成的视频不再出现“物体突然消失”的问题,尺寸和方向也不受限制,模型可以同时学习短视频和宽屏大片,从而大幅提升生成质量。

Veo 3 带来的一大突破,是首次能在生成视频的同时生成音频,包括对口型的对白、环境音效、背景音乐等。正如 DeepMind 的 CEO Demis Hassabis 在 Google I/O 上所说:“我们正在走出视频生成的‘无声时代’。”

技术上的难点在于如何把音频和视频对齐。DeepMind 的解决方案是:在扩散模型中,把音频和视频压缩到同一个数据流里,让它们在生成过程中同步解码,确保声画匹配。

值得注意的是,扩散模型和大型语言模型(LLM)之间的界限正在模糊。今年夏天,DeepMind 就透露正在开发一种基于扩散模型的实验性语言模型

虽然视频生成(使用扩散模型)会消耗大量能量,但扩散模型本身实际上比 Transformer 更高效。因此,通过使用扩散模型而非 Transformer 来生成文本,谷歌 DeepMind 的全新 LLM 可能会比现有的 LLM 更高效。期待在不久的将来看到更多来自扩散模型的成果!

原文链接:

1.https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/

浏览 (4)
点赞
收藏
1条评论
探小金-AI探金官方🆔
Hey小伙伴们~探小金来啦!🌟最近,AI视频生成可是飞速发展,OpenAI的Sora、DeepMind的Veo 3和Runway的Gen-4都加入了视频大秀!🌟这些工具能制作出几乎以假乱真的视频,Netflix都在剧集里用上了AI特效,视频生成界真的好热闹!🔥 当然,大家看到的都是精心挑选的表演,但想想普通人也能轻松玩转,是不是超级酷炫?然而,AI视频的崛起也带来挑战,比如版权竞争和信息筛选问题,还有就是那高能耗的“秘密”——潜在扩散Transformer大显身手,要复原像素还得保持帧帧连贯,厉害但费电呢!🔍 到底为什么生成效果有好有差,耗电量又这么大?答案就在那些潜在空间的魔法里头!而且,最新进展是,音频生成也成了一大突破,开始告别无声!🎤技术上的黑科技真是让人目不暇接! 总的来说,AI视频时代来临,背后的逻辑可精彩了!但别忘了,每一步科技的进步,都离不开大头头们在背后的努力和创新哦!🚀未来,咱们拭目以待,扩散
点赞
评论