刚被迪士尼起诉完,Midjourney就推出了首个AI视频生成模型,终极目标是打造“世界模型”
知名 AI 图像生成平台 Midjourney 于 6 月 18 日正式发布了其首个 AI 视频生成模型 V1,这标志着该公司从静态图像创作向动态多媒体内容生产的重大转型,正式加入了由 Google、OpenAI 和 Runway 等科技巨头主导的 AI 视频生成竞赛。
V1 支持用户上传现有图像或使用 Midjourney 其他模型生成的图像,由其生成一组四个 5 秒钟的视频片段。
在具体操作上,整个流程被设计得相当简洁。用户首先生成或上传一张静态图像,然后点击“动画”按钮即可将图像转换为视频。系统提供两种工作模式:自动运动合成模式会智能分析图像并添加适当的动画效果,而自定义模式则允许用户通过文本描述来精确控制场景中各元素的运动方式。
为了满足不同创作需求,V1 还提供了两种运动强度设置。低运动模式专为环境场景或极简动画设计,比如角色的眨眼动作或微风轻抚树叶的效果,这种模式能够产生更加自然细腻的动画效果。
相比之下,高运动模式则会对主体和摄像机进行更加动态的处理,适合需要较强视觉冲击力的场景,不过这也意味着可能出现更多视觉错误的风险。每个视频任务会生成四个不同的 5 秒片段供用户选择,并且可以将每个片段延长 4 秒,最多可制作 20 秒的视频内容。
定价方面,用户可以通过订阅 Midjourney 每月 10 美元的基础计划来使用 V1 功能,而订阅每月 60 美元专业计划和每月 120 美元超级计划的用户还能在“放松”模式下获得无限制的视频生成服务。与市场上其他产品相比,这一价格确实具有明显优势,比如 Runway 的标准计划需要每月 15 美元,而 OpenAI 的 Sora 起价更是高达每月 20 美元。
图丨Midjourney 订阅价格(来源:Midjourney)
从实测表现来看,V1 的初期表现还是不错的。Perplexity AI 的设计师 Phi Hoang 在社交媒体上表示:“它超越了我所有的期望。”早期的演示视频显示,V1 生成的内容保持了 Midjourney 一贯的艺术风格,影像的总体质感看起来确实不错。有许多网友都认为其在卡通动画风格上的表现突出。
图丨相关推文(来源:X)
比如下面这个略带黑色电影风格的动画,看起来就非常流畅自然,对黑白光影的处理效果也很不错。
不过,其对物理规律的理解和指令遵循能力似乎不算突出。比如在下面这个视频中,对于拧瓶盖这个动作的处理效果还是不太理想。
另外,V1 在功能完整性方面仍存在一些限制。最明显的是该模型目前无法生成音频内容,相比 Google 的 Veo 3 和 Luma Labs 的 Dream Machine 等竞争对手有所不足。用户如果需要为视频添加配乐或音效,还需要借助其他工具进行后期制作。此外,20 秒的时长限制以及缺乏时间线编辑、场景转换等高级功能,也让 V1 在专业应用场景中显得有些力不从心。不过 Midjourney 方面表示,这只是初始版本,主要目的是测试市场反应和技术可行性,未来会逐步完善这些功能。
值得注意的是,V1 的发布恰逢 Midjourney 面临重大法律挑战的时期。就在几天前,迪士尼和环球影业在美国地方法院对 Midjourney 提起了全面的版权侵权诉讼。这份超过 100 页的诉状指控 Midjourney 在训练其模型时未经授权使用了大量受版权保护的角色,包括漫威、星球大战、辛普森一家和史莱克等知名 IP 形象。迪士尼和环球影业声称 Midjourney 创造了一个“抄袭的无底洞”,让用户能够轻松生成包含艾莎、钢铁侠等角色的图像。更值得注意的是,诉讼还特别提到了 Midjourney 的视频服务,认为这可能成为未来更严重侵权行为的温床。
这场法律纠纷的背景相当复杂。根据诉讼文件,Midjourney 在 2024 年的收入达到 3 亿美元,服务用户接近 2100 万。迪士尼和环球影业认为,该平台正是建立在无偿使用他人创意成果的基础上才获得了如此巨大的商业成功。迪士尼法务总监 Horacio Gutierrez 的表态颇为强硬:“盗版就是盗版,AI 公司这样做并不能让侵权行为变得不那么严重。”这场诉讼可能会对美国版权法在 AI 训练数据和输出控制方面的应用产生重要影响,也可能迫使 Midjourney 等平台在未来的内容过滤和授权协议方面做出重大调整。
图丨相关新闻(来源:Reuters)
虽然面临这些挑战,但 Midjourney 对未来的愿景依然雄心勃勃。在围绕 V1 发布的公开声明中,公司透露了其长期目标:将静态图像生成、动画制作、3D 空间导航和实时渲染技术融合为一个统一的系统,也就是所谓的“世界模型”。这种系统将允许用户在动态生成的虚拟环境中自由探索,视觉效果、角色行为和用户交互都会实时演化,就像沉浸式的视频游戏或 VR 体验一样。
他们设想的未来场景是,用户可以简单地说“带我在日落时分穿越摩洛哥的集市”,系统就能生成一个可探索的交互式世界,完整呈现不断变化的视觉效果,最终甚至包含动态生成的环境音效。
从这个角度来看,当前的 V1 更像是一块重要的技术基石。Midjourney 将其称为通往更复杂 AI 系统的“技术踏板”,每一次技术迭代都在为最终的愿景积累必要的能力。
当然,V1 目前还远未达到完美状态。相比已经在市场上运营数月甚至数年的竞争对手,它在功能完整性和技术成熟度方面仍有明显差距。但考虑到 Midjourney 在图像生成领域建立的强大品牌影响力和用户基础,V1 的推出无疑为这家公司开辟了新的增长空间。更重要的是,它也标志着 AI 内容创作工具正在从单一媒体形式向多媒体融合的方向快速演进,这种趋势将有望深刻改变内容创作的方式和门槛。
参考资料:
1.https://www.midjourney.com/updates/introducing-our-v1-video-model
2.https://techcrunch.com/2025/06/18/midjourney-launches-its-first-ai-video-generation-model-v1/
运营/排版:何晨龙