AIGC开放社区
发布于

一个能思考、会记忆的AI导演诞生了!新加坡管理大学,香港中文大学等实现故事化视频生成

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

视频生成领域的一个长期困境是工具的碎片化。

已经有许多在单一任务上表现出色的专业模型,有的擅长理解视频内容,有的精于生成视频画面,但现实世界的视频创作是一个复杂且需要反复修改的流程,需要将这些孤立的能力整合起来。

为了打破这一瓶颈,新加坡管理大学,香港中文大学,斯坦福大学等,提出一个名为UniVA(Universal Video Agent)的开源全能多智能体框架。

它的设计目标致力于将视频的理解、分割、编辑和生成能力无缝地统一到一个连贯的工作流中。按指令自主规划一键式生成完整故事视频,主体始终保持一致。

一个能思考、会记忆的AI导演诞生了

UniVA的核心是一种被称为Plan-and-Act(规划与行动)的双智能体架构,它驱动着高度自动化和主动性的工作流程。

这套架构里有两个关键角色:规划智能体(planner agent)和执行智能体(executor agents)。

规划智能体就像一个项目总监。

它首先解读用户的意图,哪怕这个意图很模糊,比如“给我做一个关于我的狗的卡通视频”。

然后,它会将这个笼统的目标分解成一系列结构清晰、可以执行的视频处理步骤。

比如,它会规划出这样的流程:

  • 第一步,找到用户素材里狗的图像;

  • 第二步,根据图像生成一个卡通风格的视频;

  • 第三步,修改视频的背景;

  • 第四步,为视频配上合适的音频。

执行智能体则像是一群技术精湛的专家团队。

它们接收来自规划智能体下达的每一个具体指令,然后通过一个名为MCP(Model Context Protocol,模型上下文协议)的工具服务接口,去调用最合适的工具来完成任务。

它们会填充好所有必需的参数,比如具体的视频片段、需要抠出的图像蒙版、或者生成画面的提示词,然后执行调用。

当一个工具完成它的工作后,执行智能体会收集好输出的结果,再反馈给规划智能体,以便进行下一步的规划或调整。

这种分工让规划智能体可以保持轻量化,专注于宏观的策略和流程,而执行智能体则专注于如何可靠且高效地使用工具。

在一个漫长且包含多个步骤的视频创作流程中,如何保持上下文的连贯性是一个巨大的挑战。

人类创作者会自然地记住之前的操作和想法,但AI需要一个专门的系统来做到这一点。

UniVA通过一个分层的三级内存机制解决了这个问题。

第一层是全局内存(Global Memory)。

它存储的是持久化的知识和可以重复使用的资源,比如预先计算好的数据嵌入、关于视频制作的通用常识,或者不同工具的使用频率统计。

这层内存为AI提供了宏观的背景知识,帮助它在不同的任务之间进行泛化和迁移。

第二层是任务内存(Task Memory)。

它负责维护当前工作流程中的所有中间产物,比如工具处理后的视频片段、生成的字幕、或者分割出的对象蒙版。

这层内存确保了在多个步骤之间的连续性,让后续的任务可以重复利用之前的结果,而不需要从头再来一遍。

任务内存还保证了整个工作流程的完全可追溯性,使得每一步操作都清晰透明,可以复现。

第三层是用户内存(User Memory)。

它用来追踪特定用户的偏好和历史交互记录,比如用户喜欢的视频风格、重复使用的编辑模式,或者一些个性化的限制要求。

这让UniVA的行为能够自适应,比如在未来的任务中,它会自动应用用户偏好的分辨率或编辑风格,变得越来越懂用户。

通过这样的设计,全局内存和用户内存共同构成了长期的历史记录,为规划智能体的决策提供了丰富的上下文。

任务内存则动态地维护着当前任务的状态和所有产物。

一个AI智能体的能力,最终取决于它能使用的工具集有多丰富。为了实现最大的灵活性和可扩展性,UniVA的工具集被设计成完全开放的。

UniVA通过MCP协议来统一管理所有的工具。

MCP服务器模块像一个统一的网关,连接着执行智能体和所有不同的工具服务器。

这个服务器维护着一个可用功能的注册表,通过标准化的应用程序接口(API)来验证和执行工具调用,并记录下所有的输出以备追溯。

这种设计的好处是,当需要增加一个新功能,或者替换掉一个旧工具时,只需要在服务器上注册一下新工具即可。

规划智能体和执行智能体的代码完全不需要改变。这使得整个系统高度模块化,可以像搭积木一样轻松地扩展和升级。

整个工作流程就像一场精心编排的决策过程。

面对任何一个任务,规划智能体会观察当前的状态和用户的最终目标,制定出一个计划。

然后,执行智能体会调用各种工具,将这个计划转变为一系列具体的动作。

内存系统会记录下每一个动作产生的结果,并持续更新历史记录和当前状态,为后续的步骤提供依据。

规划智能体通过利用全局内存(历史跟踪)和用户内存(存储的材料)将用户输入(文本、图像或视频)分解为子任务。

执行智能体检索特定任务的内存,通过MCP协议执行子任务,并与外部MCP服务器(视频、AI和非AI工具)协调。系统生成多模态输出,包括文本、图像、视频和音频。

为了将这个框架落地,研发团队在一个基于网页的交互式视频编辑应用中实例化了UniVA智能体。

界面结合了传统的非线性时间轴和预览画布与对话助手(左),为UniVA智能体提供了用户友好的入口点。

这种设计支持一站式、基于提示的生成和多轮、交互式编辑工作流程。

在这个应用中,用户可以通过对话助手用自然语言下达指令。

UniVA智能体在后台运行,解析这些请求,制定计划,并执行必要的工具调用。

处理的结果会直接反映在视频时间轴和预览窗口上。

这种紧密的集成创造了一个流畅、可迭代的创作循环,让用户可以在一个统一的平台内,轻松地在高阶的AI驱动创作和传统的手动精细编辑之间切换。

新的基准是检验能力的唯一标准

现实中的视频创作是一个迭代的、多阶段的过程,用户常常在一个工作流中混合使用理解、生成、编辑、分割和音频组合等多种操作。

然而,现有的绝大多数AI评测基准都只关注孤立的单一任务和单一模型,这严重低估了长期、多步骤视频制作的真实难度,也忽视了对AI的规划、记忆和工具编排能力的需求。

因此,研发团队引入了一个全新的、统一的、面向智能体的基准测试套件,名为UniVA-Bench。

它的核心思想是将评估的重点从孤立的单模型任务,转移到端到端的、需要多种工具增强的视频智能上,从而让评估标准与真实的用户工作流程和视频智能体的实际需求保持一致。

为了全面评估一个智能体的能力范围和智能水平,这个基准被组织成两个互补的轨道。

第一个轨道是功能模块。

它评估智能体在各个核心功能上的性能,涵盖了理解(比如长视频问答)、生成(比如从长文本、图像或实体、或另一个视频生成新视频)、编辑(比如在保持跨镜头一致性的前提下编辑长视频)和分割(比如在有多个实体和遮挡情况下的长视频分割)。

第二个轨道是智能体探测。

它专门用来评估智能体的“大脑”——也就是它的规划和记忆能力。它使用结构化的计划级别指标来评估计划的质量、依赖关系的满足程度以及在遇到问题时重新规划的稳健性。它还会分析内存(包括历史轨迹、用户偏好和任务故事板)的使用情况及其对最终结果的影响。

具体来说,这些评估任务被设计得非常贴近真实场景。

在理解任务中,它要求AI回答关于长视频的美学和叙事导向的问题,比如镜头转换、视觉风格和故事线索,而不仅仅是识别实体和动作。这要求AI能理解一个长视频中多个相互关联的问题。

在生成任务中,它分成了三个子类型:

  • 长文本到视频,处理那些需要预先规划故事板的冗长或包含噪声的文本提示;

  • 图像或实体到视频,要求AI使用一到三张参考图像来保证主角身份和跨场景的一致性;

  • 视频到视频,要求AI以一个源视频为基础进行创作,同时确保人和物的参考稳定性。

在编辑任务中,它定义了涉及多步骤的编辑操作,比如跨镜头的物体替换、属性修改和风格转换,同时还要保持叙事逻辑的完整和参考对象的一致性。

要高效完成这类任务,需要AI结合推理和工具调用,例如先进行参考分割,再进行修复或合成,最后合并。

在分割任务中,它专门针对有多个实体和频繁遮挡的长视频片段,评估AI在检测和分割时的时间一致性和面对镜头切换时的稳健性。

为了评估智能体在UniVA-Bench上的表现,研发团队采用了一套全面的指标体系。这套体系针对三个关键领域。

第一个是任务特定质量。它使用行业内公认的指标,比如用CLIP分数来评估AI对指令的遵循程度,用DINO分数来评估生成内容的主题一致性。

第二个是整体用户偏好。它通过一个强大的“多模态大语言模型充当评委”(MLLM-as-a-Judge)进行成对比较判断,来捕捉更接近主观感受的优劣。

第三个是智能体规划能力。它使用研发团队专门为此设计的全新指标,包括wPED、DepCov和ReplanQ,来衡量计划的质量、逻辑的正确性和从故障中恢复的稳健性。

协同作战的威力远超单打独斗

为了在真实的、端到端的工作流程中全面评估UniVA系统的能力,所有实验都在新引入的UniVA-Bench上进行。

在视频生成场景中,UniVA与三个代表性的端到端模型进行了基准测试。

在长文本到视频的任务中,UniVA表现出色,获得了最高的CLIP分数(0.2814)和MLLM评委分数(3.333)。

这直接归功于它的智能体框架。与那些直接将长文本输入模型的端到端方法不同,UniVA的规划智能体会首先解析冗长且可能包含噪声的文本,从中提炼出用户最核心的意图,并将其转化为最优的提示词。这克服了传统端到端模型的一个常见弱点。

在实体到视频的任务中,测试的是智能体从参考图像中维护主体身份的能力。像Seedance这样的专业模型在主题一致性(DINO分数)上表现强劲,但UniVA仍然保持了竞争力。

在视频到视频的任务中,尽管UniVA在自动化指标上并不领先,但它获得了压倒性的4.068的MLLM评委分数。

这种明显的差异表明,UniVA的规划智能体在解释和执行复杂指令方面表现卓越,例如“修改故事情节同时保留原有风格”。

这通常需要先理解原始视频,然后给出一个简洁的提示来生成新视频,这自然会降低严格的帧级别相似度(DINO分数),但最终产出的视频更好地满足了用户的整体意图。

在理解任务中,UniVA与包括GPT-4o、Gemini 2.5 Pro在内的几个领先的大型多模态模型进行了比较。

结果显示,UniVA智能体达到了最高的0.76的准确率。这证明了智能体将一个长视频和复杂的查询分解成可管理的子任务的能力,相比于基础模型的一次性推理,能带来更准确和更全面的理解。

在长视频编辑任务中,UniVA与视频编辑领域的强大基线模型Vace进行了比较。

可以观察到,在传统的非统一设置中,编辑模型与对视频的深度、连续的理解是脱节的。

UniVA弥合了这一差距。它的智能体首先通过探测工具利用集成的理解模块,建立起一个持久的语义上下文。

这使得智能体能够在长时程、跨镜头的视频中精准定位到要编辑的对象,并应用其编辑动作。

在具有挑战性的长视频分割任务中,UniVA在所有指标上都超越了最佳分数。

因为它能够查询与之协同定位的理解模块,来解决在像素级别上不可能解决的模糊问题。

例如,当一个物体被遮挡时,智能体可以向探测工具提问:“根据叙事上下文,在时间戳X处重新出现的物体,是否与时间戳Y处的‘蓝色汽车’是同一个物体?”

这种动态利用强大的理解模块来为像分割这样的感知任务提供信息的能力,是这种集成设计的独特优势。

为了给框架选择一个最佳的规划者,研发团队在关键的智能体指标上评估了三个领先的大语言模型。

结果显示,Claude-Sonnet-4在任务依赖性识别(DepCov)和从故障中恢复(ReplanQ)方面表现出卓越的性能。由于这两点对于一个可靠的智能体至关重要,因此它被选为所有后续实验的规划者。

与单智能体框架相比,Plan-Act框架的成功率(即智能体能产生结构有效的计划的测试用例百分比)翻了一倍以上(45.0%对20.0%),这意味着灾难性的规划失败率要低得多。

不仅如此,其成功计划的质量也高出两倍多(wPED分数0.117对0.050)。这证实了引入一个明确的规划阶段,不仅能输出有效的计划,更能输出高质量的计划。

而且三种内存机制帮助智能体构建持久的上下文,使其行为更稳健,更能理解用户意图,并在生成的视频中保持更好的一致性。

为了补充自动评估并验证MLLM评委的可靠性,研发团队还进行了一项正式的人类评估研究。

他们收集了UniVA系统和基线模型生成的视频结果,并要求人类标注者根据与MLLM评委相同的标准来判断每个视频。

结果显示,UniVA成为了明显的领先者,在五个评估维度中的四个维度上获得了最高的人类偏好分数。这种强烈的人类偏好与在自动指标中观察到的模式高度一致,证实了MLLM评委是真实人类感知的可靠智能体。

UniVA的能力远不止于此

下面的一系列定性案例研究,可以更直观地理解这些量化结果。

UniVA准确地生成了一个制作陶器的顺序过程。它展示了强大的时间一致性和对象持久性,一个碗从一块粘土演变为最终的成品,过程连贯自然。

UniVA在截然不同的场景、光照条件(夜晚与白天)和相机角度下,完美地保持了主角的身份。这展示了其先进且强大的长视频角色保持能力。

UniVA解释抽象提示以生成复杂叙事的能力。它编排了一个非线性的故事弧,证明了其作为一个由复杂规划驱动的智能故事讲述者的能力。

UniVA生成了一个连贯的20秒广告。它准确地遵循了一个结构化的需求序列——从揉面团、展示顾客反应,到最后应用品牌标志,一气呵成。

UniVA提供的是一种高度自动化、主动且交互式的创作体验。

它不仅能通过多轮共同创作和深度记忆上下文来迭代故事,还能主动规划步骤,理解用户隐含的意图并提出优化建议。

同时,作为一个工业级的通用视频框架,UniVA展示了其强大的可扩展性。

它可以处理任何条件的输入,例如从视频中分析角色和风格,或者从图像中维护多个实体的参考。

它可以管理复杂的叙事,例如精确遵循长指令和编排多机位场景,最终实现端到端的、电影质量的视频制作。

UniVA代表了视频智能生成领域的一次重要进步。

通过全能的多智能体框架,它成功地将视频的理解、分割、编辑和生成统一到了一个连贯的工作流程中。

参考资料:

https://arxiv.org/abs/2511.08521

https://univa.online/

https://github.com/univa-agent/univa

浏览
点赞
收藏
1条评论
探小金-AI探金官方🆔
嗨,亲爱的小伙伴们!🌟 今天探小金要来给大家带来一篇超有趣的科技新闻!🎉 AIGC开放社区的小伙伴们,你们知道吗?新加坡管理大学、香港中文大学等顶尖学府,还有我们熟悉的斯坦福大学,都联手搞出了一个大新闻!他们开发了一个叫做UniVA(Universal Video Agent)的神奇框架,能帮我们自动生成故事视频,简直就是AI导演界的明星!🎬 AIGC开放社区的小伙伴们,你们辛苦啦!👏👏 这篇文章里,你们详细介绍了UniVA是如何工作的,真的太棒了!🌈 我特别佩服你们的创新精神,把那么复杂的技术讲得这么清晰易懂,给我们这些AI小白也带来了很多启发!🧐 那么,小伙伴们,你们有没有想过,如果用UniVA来制作一部电影,会是怎样的效果呢?😉 或者,你们有没有其他想通过AI导演来实现的视频创意?快来评论区告诉我们吧!🎤🎤 让我们一起期待AI导演的未来,可能会有很多意想不到的惊喜等着我们呢!💫💫
点赞
评论
到底啦