腾讯混元发布并开源HunyuanVideo 1.5,元宝上线生视频能力

文|晓静
编辑|郑可君
刚刚,腾讯混元大模型团队正式发布并开源HunyuanVideo 1.5,一款基于 Diffusion Transformer(DiT)架构、参数为8.3B的轻量级视频生成模型,支持生成5-10秒的高清视频。
目前,腾讯元宝最新版已上线该模型能力。用户可通过两种方式即可体验:一是输入文字描述(Prompt),直接实现“文生视频”;二是上传图片配合Prompt,轻松将静态图片转化为动态视频。

在元宝中可以通过文字和图片生成视频
HunyuanVideo 1.5模型具备全面且强大的核心能力,支持中英文输入的文生视频与图生视频。其图生视频能力展现出图像与视频的高度一致性。
模型还具备强指令理解与遵循能力,能够精准地实现多样化场景,包括运镜、流畅运动、写实人物和人物情绪表情等多种指令;同时支持写实、动画、积木等多种风格,并可在视频中生成中英文文字。在画质方面,模型可原生生成5–10秒时长的480p和720p高清视频,并可通过超分模型提升至1080p电影级画质。
HunyuanVideo 1.5定位为“开源小钢炮”,以极轻量的8.3B尺寸实现开源最佳的效果;显著降低了使用门槛,甚至可在14G显存的消费级显卡上流畅运行,真正让每一位开发者和创作者都能“玩起来”。

HunyuanVideo 1.5 GSB(Good Same Bad) 评测结果
HunyuanVideo1.5通过多层次的技术创新,实现了生成效果、性能与尺寸上的平衡。HunyuanVideo 1.5创新的SSTA稀疏注意力机制(全称Selective and Sliding Tile Attention, 选择性滑动分块注意力)在保证高质量生成的同时显著提升推理效率,配合多阶段渐进式训练策略,在运动连贯性、语义遵循等关键维度均达到商用水平。
此前,视频生成领域的开源SOTA旗舰模型至少有20B,需要超过50GB显卡方可部署。HunyuanVideo 1.5的出现大幅降低了硬件部署门槛,以极低的门槛就可以获得旗舰模型的体验,目前模型已上传至Hugging Face和Github社区,欢迎广大个人与企业开发者、创作者下载体验。(文末附开源项目链接)
HunyuanVideo 1.5视频生成效果
1、人物情绪与表情的精准呈现
该视频属于AI生成
提示词:一个人在电话里对家人报喜不报忧,用轻快的声音聊天。他脸上努力维持着开朗的笑容,但眼眶却不由自主地泛红,在挂断电话的瞬间,笑容瞬间垮掉,化为一声无声的叹息,手疲惫地捂住眼睛。
2、大幅度运动生成

提示词:The video captures a figure skater performing a Biellmann spin on ice. The subject is a female skater in a glittering costume. Initially, she spins on one leg. Then, she reaches back and pulls her free leg up. Next, she spins rapidly, becoming a blur of motion, with ice shavings spraying from her skate blade. The background is an ice rink with blurred advertising boards. The camera circles the subject to capture the spin from all angles. The lighting is spotlit, creating lens flares and sparkles on her costume. The overall video presents a graceful, artistic sports style.
3、电影级运镜控制

提示词:一段充满电影感的东京夜景,展现了熙熙攘攘的十字路口。镜头以高角度广角拍摄,展现了人群和霓虹灯,随后迅速拉近,聚焦于一位年轻的女性。她静立于模糊的喧嚣之中,若有所思。画面以忧郁的蓝红色灯光、湿漉漉的沥青路面倒映的影像以及浅景深为特色。
4、指令遵循与文字生成
该视频属于AI生成
提示词:赛博朋克风格的夜晚街角,一个巨大的招牌上, "Hunyuan Video 1.5" 的霓虹灯管轮廓已经安装好。镜头推进,霓虹灯从“H”开始,伴随着‘滋滋’的电流声,每个字母依次亮起粉紫色的光芒,直到全部点亮,照亮了潮湿的街道。赛博朋克,城市美学。
5、指令遵循与精准场景生成
该视频属于AI生成
提示词: 一只破旧的棕色皮质手提箱,黄铜搭扣,静静地躺在明亮的阁楼地板上。起初,搭扣微微颤动,随后弹开,箱盖大开。箱子里装满了深色的泥土。接下来,一段令人叹为观止的延时生长过程开始了:细小的绿色芽破土而出,枝繁叶茂,长成微型树木,鲜艳的花朵竞相绽放。鹅卵石小径逐渐形成,一张小木凳凭空出现,池塘水面泛起涟漪。最终,一个完美精致的微型英式花园在箱子里徐徐展开。固定中景镜头,略微俯拍。明亮的自然光,柔和的阴影,以及细小的尘埃。逼真、神奇、细节丰富的转变,8K分辨率。
6、支持多种风格生成

图生视频提示词:Make the hot dog and the mustard bottle move in a waltz-style dance together.
7、指令遵循与趣味视频生成
该视频属于AI生成
图生视频提示词:Cinematic low-angle shot in a rainy cyberpunk city. The camera actively tilts up and zooms out to track the increasing height of the subject. A yellow supercar undergoes a complex, rigid mechanical transformation into a giant humanoid robot. Sequence: The car chassis first lifts on hydraulic pistons with headlights flashing blue. Then, the vehicle mechanically deconstructs; side doors rotate outward to form armored arms, and the front hood splits and slides to lock into place as a chest plate, revealing internal gears and wiring with absolutely no melting or morphing effects. Finally, the mecha stands fully upright and stomps onto the wet asphalt, causing a violent water splash. The heavy vibration of the locking metal body instantly shakes off the resting raindrops, creating a mist around the armor. Photorealistic 8K rendering, heavyweight perception, Transformers aesthetic, volumetric neon lighting reflecting on wet yellow metal.
项目相关链接
项目主页:https://hunyuan.tencent.com/video/zh
Github:https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5
Hugging Face:https://huggingface.co/tencent/HunyuanVideo-1.5
技术报告:https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5/blob/main/assets/HunyuanVideo_1_5.pdf