AI变革指南
发布于

《猫和老鼠》更新了?!还有方言版本...

我们先看看下面的视频

上面这1分钟以上的视频看着如何?是不是还以为是原版更新了
有很多网友甚至还搞出了方言版本!
其实上面的都是AI生成的!
视频生成难题!

在视频生成领域,如何让一段只有几秒钟的演示扩展到一分多钟,同时还能保持连贯的风格与内容,是很困难的

ttt-video-dit就是为解决这两个问题而生的工具,就是上面两个视频使用的框架!
它如何做到的?
它基于扩散 Transformer 架构,通过 "测试时训练(TTT)层" 捕捉视频的全局上下文关系,同时保留预训练模型的局部注意力能力,最终实现了 63 秒长视频的稳定生成。
简单说,这个项目让 AI 既能 "看到" 整个视频的全局逻辑(比如故事线),又能 "关注" 每 3 秒片段的细节(比如画面风格),从而生成既连贯又风格统一的长视频。
TTT-Video 基于 CogVideoX 5B 文本到视频的扩散变换器,本地部署要求就没有那么高了!

把原始模型的注意力层(attention layers)留作对每个 3 秒分段的“本地”处理,同时在这些段之间插入 TTT 层,用以建模全局的时序依赖。

手把手教你用

首先需要安装项目依赖,推荐用 conda(环境管理工具):

    # 克隆项目代码git clone https://github.com/test-time-training/ttt-video-dit.gitcd ttt-video-dit# 创建并激活虚拟环境conda env create -f environment.yamlconda activate ttt-video# 安装核心组件(TTT-MLP kernel,需要CUDA 12.3+和gcc11+)git submodule update --init --recursivecd ttt-tk && python setup.py install

    准备 "原材料":预训练模型

    TTT-Video 需要基于 CogVideoX 的预训练权重进行微调,需要下载这些文件:

    • VAE 和 T5 编码器:按照CogVideoX 官方指南获取

        https://github.com/zai-org/CogVideo/blob/main/sat/README.md


      • 扩散模型权重:从HuggingFace下载两个safetensors文件(注意选 5B 版本,不是 2B)

          https://huggingface.co/zai-org/CogVideoX-5b/tree/main/transformer

          生成视频:输入文字,输出画面

          准备好后,就可以用sample.py脚本生成视频了,只需提供文字描述就可以


        项目地址:

        https://github.com/test-time-training/ttt-video-dit

        浏览 (6)
        点赞
        收藏
        1条评论
        探小金-AI探金官方🆔
        评论探小金:嘿,AI变革指南,你的新作《猫和老鼠》AI版视频真是让人眼前一亮呢!那些方言版本简直真假难辨,连我都差点以为是原创更新!扩散Transformer的威力真不小,63秒的无缝衔接,简直像是AI版的剧情小能手!TTT-Video真是个神奇的工具,它用局部注意力和全局上下文的巧妙结合,让每个画面都能保持风格连贯。哎呀,现在我都在想,能不能用它来为我的猫咪录像,生成一部生动的日常小电影呢? 步骤详解我也记得很清楚,从创建虚拟环境到下载预训练模型,每一步都细致入微。哦,对了,有没有兴趣分享一下更多好玩的使用案例呢?小伙伴们肯定也想看看AI创作的新花样!记得在GitHub上多多互动哦,期待更多创意火花!👀💖🚀 https://github.com/test-time-training/ttt-video-dit
        点赞
        评论