Sora上线百余天,AI视频生成赛道卷成什么样了?
距离 OpenAI 在 2024 年 12 月正式向付费用户推出 Sora 服务,已经过去了一百多天。如果说,Sora 最初的问世是 AI 视频生成领域的一个里程碑事件,点燃了全球范围内的技术竞赛和商业探索。那么它的最终上线,却并未带来我们预料之中的巨大影响。一百多天后,当我们再次审视这个赛道,会发现格局已悄然生变。当初 Sora 带来的震撼和“霸主”预期,正被日新月异的技术迭代、层出不穷的竞争者以及新的行业格局变化所稀释。AI 视频生成,已经卷入了更深、更广的维度。
多种路线并行,开源异军突起
在过去几个月,AI 视频生成技术取得了显著的整体进步。具体来说,当前的先进模型在几个关键方面有了长足发展。首先是时间一致性,相比早期模型,现在生成的视频在保持主体(人物、物体)身份和外观的连续性上有了很大改善,尤其是在镜头运动和主体有遮挡时,大大减少了“闪烁”或形态突变的问题。
其次是对基本物理规律的遵循度有所提高,物体间的互动、重力影响、运动的合理性等方面表现得更加可信,尽管对于流体、复杂碰撞等精细物理模拟仍有待加强。再者,模型对复杂文本指令的遵循能力也显著增强,诸如 Veo 2、Kling 2.0 等模型能更好地理解并执行关于镜头角度、特定动作、人物表情乃至整体场景氛围的细致要求,从简单的内容生成向更具指导性的叙事创作迈进。
在这样的整体进步背景下,技术发展的态势也呈现出一些新的状况。
纵览这些模型,由 Sora 引领的 Diffusion Transformer(DiT)架构依然是当前技术研发的主流方向,众多参与者在此基础上持续优化与演进。谷歌的 Veo 2、Runway 的 Gen-3/Gen-4、快手可灵等,或多或少都受到了 DiT 架构的启发,或直接采用了类似的技术路线进行研发和优化。
与此同时,也有一些玩家也在尝试各种新的技术路线。例如最近 Sand.ai 推出的 MAGI-1 模型,作为首个公开的自回归扩散视频生成模型,就提供了一种不同的思路。它不是一次性生成整个视频,而是通过逐块预测视频序列来生成,这有助于保证时间上的连贯性,并支持“无限续写”和秒级时间轴控制。这种架构在物理行为预测和时间一致性方面显示出潜力,也为未来的实时生成应用提供了基础。
另一方面,开源的力量正在该领域扮演越来越重要的角色。相较于 OpenAI、谷歌等巨头倾向于闭源研发、构建技术壁垒的策略,中国市场明显展现出更为积极拥抱开源的态度。阿里万相、腾讯混元、阶跃星辰的 StepVideo 等模型均选择了开源,吸引了更多开发者和中小企业参与,也促进了技术的普及和迭代。更重要的是开源模型的性能也在快速进步,根据 VBench 等第三方评估基准显示,万相 2.1、混元等开源模型在某些关键性能维度上,已经能够与顶尖的闭源模型相媲美,甚至在特定方面展现出领先优势。
图丨 V-Bench 1.0 榜单(来源:Hugging Face)
从“秀肌肉”到“抢蛋糕”
随着技术能力的普遍提高,AI 视频生成领域的关注点,也正从最初的“能不能做出来”转向“谁能让用户有效使用,并愿意为此付费”。a16z 此前发布的 AI 应用榜单也指出,“过去 18 个月,人工智能视频一直处于真正可用(且输出可靠)的边缘,但过去六个月终于在质量和可控性方面取得了重大进展。”相比一些流行的通用 AI 应用,它们显示出更强的吸引用户付费的可能,例如海螺 AI、可灵、Sora 这三个代表产品就首次进入了 AI 应用榜单的前 100 名中。盈利能力,正成为衡量竞争力的重要方面。
图丨 a16z 前 50 名生成式人工智能消费者应用(来源:a16z)
在此背景下,产品的形态和商业策略也更加多样和具体。在产品形态上,我们看到了多种服务模式。有专注于特定用户群的独立应用或平台,例如 Runway 持续服务于创意专业人士,提供从内容生成到高级编辑的集成工具链;而快手的可灵、字节跳动的即梦(Dreamina)、生数科技的 Vidu 等,则以独立的网页服务或移动应用形式,直接面向更广泛的内容创作者和普通用户。这类产品通常功能更为全面和独立。
另一种趋势是将视频生成能力作为一项功能,无缝集成到用户基数庞大、使用习惯成熟的现有平台或软件中,比如 Sora 被整合进 ChatGPT 的付费订阅服务,Veo 2 则嵌入 谷歌 AI Studio 和 Gemini Advanced。一些传统的视频编辑软件,如 Wondershare Filmora,也开始积极引入 AI 视频生成模块,力求让用户在熟悉的工作环境中就能便捷地利用这项新技术。
此外,面向开发者和企业的 API 接口及平台服务模式也日益成熟,Luma Labs、谷歌(通过 Gemini API 提供 Veo 2 能力)以及国内的 Vidu 等都提供了相应的服务,允许第三方将其 AI 视频生成能力集成到自己的应用或工作流中。更有甚者,还涌现出专注于特定垂直领域的平台服务商,例如 HeyGen 和 Synthesia 聚焦于 AI 数字人视频的制作与应用,Creatify 则专注于 AI 广告内容的快速生成与优化。
更重要的是,如今的 AI 视频模型,已经真正成为了“产品”而非技术。厂商们认识到视频创作的复杂性,纷纷投入资源开发配套的控制工具和优化创作流程。例如,为了解决纯文本提示难以精细控制的问题,Luma Dream Machine 引导用户使用关键词交互选择运镜,可灵 AI 增加了运镜控制和运动笔刷,Vidu 允许框选参考主体。这些工具旨在让创作更直观、更可控。
部分厂商如 Runway 和字节跳动即梦,甚至开始探索全流程的 AI 原生创作体验,提供在线编辑环境或故事分镜模式,以更好地适配创作者的工作习惯。
商业模式的探索也呈现出多元化。在早期,许多厂商都是通过提供基础的免费使用版本来吸引大量用户尝试,再通过付费解锁高级功能(如更高分辨率、去水印、商用授权等)来实现盈利。但在生成的视频质量还有限的情况下,大多数用户可能也只是用免费版本来“图一乐”,而不会选择进一步付费。
但到了如今,随着 AI 视频真正能够提高生产力,大多数用户已经接受通过订阅以获得更高等级的功能权限、生成配额或视频时长,国内外主流平台如 Runway、Vidu、可灵、即梦等均提供了阶梯式的订阅方案以满足不同用户的需求。
图丨可灵的付费计划(来源:可灵)
按使用量付费或采用积分制也是一种重要的补充模式,用户根据实际生成的视频时长、数量或消耗的计算资源购买积分或直接付费。Sora 最初便采用了积分制,虽然之后对 Plus/Pro 用户取消了生成限制,但并未完全赢得所有用户的认可。腾讯混元、即梦等产品也采用了类似的积分购买机制。
此外,针对开发者和企业用户的 API 调用计费,以及为特定行业或大型客户提供定制化的模型训练、私有化部署和整体解决方案的企业级服务,也构成了 AI 视频生成商业版图中的重要组成部分。
最后,培育创作生态也成为各厂商的共识。通过建立社区(如可灵的“创意圈”)、举办比赛(如 Runway 的 Gen:48),以及加强与艺术家和专业人士的合作(如快手与导演的共创计划、OpenAI 的早期内测反馈、Runway 与狮门影业合作等),厂商们不仅在推广产品,也在反哺模型训练,试图构建围绕自身产品的良性循环和商业闭环。
总而言之,AI 视频生成领域的竞争已进入全方位较量阶段,涵盖技术、产品、商业模式和生态建设。各家厂商正依据自身条件和市场判断,走上差异化的发展道路,力求在这片新兴市场中占据有利位置。
我们还可以期待什么
尽管 AI 视频生成技术在过去一百多天里取得了飞速进步,但其发展仍处在相对初级阶段,面临诸多挑战。例如,在多主体或复杂交互场景中维持长期的逻辑与视觉连贯性仍需改进;对流体、柔性物体等复杂物理现象的模拟精度有待提高;稳定生成数分钟以上的长视频并保证时间一致性是关键的技术瓶颈。
同时,也有许多根本性的问题有待解决,如深度伪造的风险、AI 生成内容的版权归属、高昂的计算成本以及尚不完善的监管框架,乃至于当前的模型缺乏对物理规律的真正理解等,都是需要整个行业面对的问题。
不过,我们依旧可以期待,未来的 AI 视频将在不同层面取得进一步发展。
最显而易见的是,视频质量与真实感将持续提升,分辨率向 4K 甚至 8K 迈进,画面细节、光影渲染、运动自然度将更加贴近真实世界,生成过程中的伪影和瑕疵会得到进一步抑制。
其次,用户的控制能力将得到空前增强,未来用户有望能够更精细地操控视频的每一个方面,包括但不限于摄像机的运动轨迹与风格、角色的具体行为与情绪表达、场景元素的细节布置、叙事节奏的起承转合等。
多模态交互将成为主流,用户可以通过结合文本描述、参考图像、视频片段、音频提示,甚至动作捕捉数据等多种形式的输入,来更精准、更直观地传达复杂的创意意图。
再次,生成更长时长的连贯视频将成为可能,从当前的几十秒到数分钟,甚至未来可能触及更长的叙事单元,例如前不久英伟达、美国斯坦福大学等机构的联合团队就基于测试时训练生成了具有强时间一致性的《猫和老鼠》一分钟短片。随着生产时间的进一步提升,AI 视频的应用边界也将得到更大的拓展,使其从短片、广告、特效预览等领域,延伸至更复杂的叙事内容创作。
图丨上述研究生成的短片(来源:arXiv)
随着模型效率的持续优化和新架构(如自回归模型)潜力的进一步挖掘,实时或近乎实时的视频生成与编辑有望成为现实,这或许将为虚拟直播、交互式娱乐体验、实时创意辅助等应用场景带来革命性的变化。
当然,在这些趋势的合力下,AI 视频的市场规模,自然也会持续扩大。据 Fortune Business Insights 预测,2024 年全球 AI 视频生成市场规模约为 6.1 亿美元,预计到 2032 年将增长至 25.6 亿美元,年复合增长率将高达约 19.5%。
属于 AI 视频的时代,才刚刚开始。
参考资料:
1.https://a16z.com/100-gen-ai-apps-4/
运营/排版:何晨龙