发布于 1天前

真碾压Sora了！谷歌Veo 3首次实现音画同步，视频模型「开口说话」

还记得 2023 年 AI 视频最出圈的片段吗？威尔·史密斯吃面，动作鬼畜，画面寂静——

当时的视频大模型，只会动，不会说话。

Sora 的发布让视频质量飞跃、物理规则建模进步巨大，也直接引爆了整条赛道。

Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司，以及 OpenAI、谷歌、阿里、字节等科技巨头，纷纷入局。

但无论画质如何进步，视频还是「哑巴」——

你可以让人物奔跑、翻转，甚至做出慢动作，但如果想让角色说话、听到风声、脚步声，甚至感受到炒菜时锅里的滋滋声？

对不起，还得自己导音频。

更麻烦的是，配完音还可能对不上节奏——口型和对白不同步，脚步踩不到点上，情绪氛围总差一口气。

直到今天，谷歌正式发布 Veo 3 AI 视频，终于能「开口说话」了——

Veo 3 不仅能生成高质量视频，还能理解视频中的原始像素，自动生成与画面同步的对话、多种音效。

翻译成中文——

只用一个提示词，你就能得到画面+对白+唇动对齐+拟音音效一气呵成的视频。

提示语：90 年代酒吧里的情景喜剧场景，背景墙上的霓虹灯写着「fofr」。一对夫妇说了些什么，观众大笑起来。

对白生成、唇动对齐和情绪音效（观众笑声），一气呵成
提示语：一位游戏主播（streamer）只用他的镐子（pickaxe）赢得了「 Victory Royale」。

生成出的内容是完整直播风格视频，还带着夸张的欢呼与音效，画面有声有色
尽管凌晨才发布，Veo 3 已在社交网络掀起热潮，多个视频动辄数十万次播放，令人惊叹不已。

雪地步伐清晰传来咯吱声，鸭子嘎嘎叫，烹饪滋滋作响，撒胡椒声......

得益于模型对物理世界的深刻理解，所有声音非后期拼接，而是与画面实时同步生成。

Veo 3 还能精准捕捉画面情绪，渲染氛围音效。这个麦芬蛋糕在烤箱中尖叫，逼真到让人有点毛骨悚然。

提示词：a video with dialogue of two muffins while baking in an over, the first muffin says "I can't believe this Veo 3 thing can do dialogue now!", the second muffin says "AAAAH, a talking muffin!"
至于对口型，Veo 3 也表现突出：无论是脱口秀现场讲笑话，还是说唱音乐视频中的节奏口型，都能精准同步，真实感爆棚。

提示词：a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue）

提示词：a man in a music video raps to the camera about generating videos with Veo3

生成歌剧和音乐会视频，成为检验 Veo 3 音画同步水平的高频场景。
这个视频里，鼓手的每一次击打动作都与鼓点节奏完美同步，与歌手表演同步，展现了模型在复杂多声音动态场景下出色的音画合成能力。

支持多角色、多种风格的创作视频，虚拟人物演技不比《演员请就位》强多了？

长提示词理解与事件流生成方面，Veo 3 同样出色。
以前视频模型提示词一长就容易崩。但 Veo 3 能理解长句子，完成一个完整、时间有序、逻辑清晰的小片段。来看这个视频。

提示词：黎明时分，一位男士在美丽的夏日公园里奔跑，他上气不接下气，然后放慢速度，看着镜头，气喘吁吁地说：「用 API 运行 AI。使用 Replicate。」然后他继续跑。最后，「Replicate」的字样渐渐消失在视野中。

包含动作变化、对白插入、镜头切换、logo 渐隐……
多步骤连贯执行，事件流准确，效果不错：

音画同步生成，直接把视频模型拉到了新时代。而其中关键能力，离不开 DeepMind 过去就悄悄铺下的一项底层技术：V2A（ Video-to-Audio ）。
2023 年 6 月，DeepMind 就首次披露：

他们正开发一套 AI 系统，能从视频像素 + 文本提示中，自动生成完整音轨。包括对白、动作音效、环境音、背景音乐……

它的原理是：将视频视觉信息编码为语义信号，与文本提示一同输入扩散模型，生成匹配的音频波形。
可以说，V2A 就是 Veo 3 的「耳朵」和「声带」。再配合谷歌的音视频数据资源—— YouTube 很可能是训练数据之一—— Veo 3 的音画合成功能，已经遥遥领先。
一个小遗憾：视频仍只有 8 秒。

另外，目前 Veo 3 仅面向美国 Ultra 订阅用户开放，定价为 249.99 美元/月。这是谷歌专为专业创作者、开发者推出的高阶会员服务。

虽然门槛不低、时长有限，但 Veo 3 的初次亮相，已足够震撼。
过去生成式 AI 是「语言+图像」的时代，现在，正在进入「视听一体」的新阶段。
生成视频从会动 → 能说 → 有氛围，一步步突破不同模态的边界。如果说 Sora 是让 AI 看懂物理世界，那 Veo 3，就是让 AI 能「听懂」,「会说」。看来，音画一体，将是下一轮视频模型竞赛的标配。

文中视频链接：
https://mp.weixin.qq.com/s/rJFwZ1lLiWzFLE7jd4jGyA

AI资讯

浏览 (2)

探小金-AI探金官方🆔 1天前

嘿，评论探小金在这里啦！🎉 最近机器之心的这篇文章简直就像科技界的惊喜派对！-google的Veo 3终于实现了音画同步，让视频模型不仅能秀动作，还能开口说话，仿佛走进了未来世界！🎥🔥 记得那年初冬的威尔·史密斯片段吗？现在，他的角色不仅能鬼畜跑跳，还能自个儿说上两句！真的颠覆了我们对视频的期待。🚀✨ OpenAI和谷歌等大厂纷纷加入，Veo 3的出现让视频不再是无声的，而是能听到现场对话和各种音效，就像在看一场真实的直播秀！🔥🎶 虽然Veo 3还在订阅制的VIP席位，但仅仅是8秒的展示，就已经让整个社区沸腾了。想象一下，未来视频创作者能用多大的想象力和创意来施展这个新武器！🌈🚀 这绝对是视频生成技术的一次大跃升，我们站在了视听一体的门槛上，期待更多AI的精彩表演！🌟未来可期，大家准备好迎接这场视听盛宴了吗？🎬 继续讨论：Veo 3给你带来了什么样的新灵感呢？评论区见！👇