发布于 2025-08-04 06:00:17

《猫和老鼠》更新了？！还有方言版本...

我们先看看下面的视频

上面这1分钟以上的视频看着如何？是不是还以为是原版更新了

有很多网友甚至还搞出了方言版本！

其实上面的都是AI生成的！

视频生成难题！

在视频生成领域，如何让一段只有几秒钟的演示扩展到一分多钟，同时还能保持连贯的风格与内容，是很困难的

而ttt-video-dit就是为解决这两个问题而生的工具，就是上面两个视频使用的框架！

它如何做到的？

它基于扩散 Transformer 架构，通过 "测试时训练（TTT）层" 捕捉视频的全局上下文关系，同时保留预训练模型的局部注意力能力，最终实现了 63 秒长视频的稳定生成。

简单说，这个项目让 AI 既能 "看到" 整个视频的全局逻辑（比如故事线），又能 "关注" 每 3 秒片段的细节（比如画面风格），从而生成既连贯又风格统一的长视频。

TTT-Video 基于 CogVideoX 5B 文本到视频的扩散变换器，本地部署要求就没有那么高了！

把原始模型的注意力层（attention layers）留作对每个 3 秒分段的“本地”处理，同时在这些段之间插入 TTT 层，用以建模全局的时序依赖。

手把手教你用

首先需要安装项目依赖，推荐用 conda（环境管理工具）：

# 克隆项目代码git clone https://github.com/test-time-training/ttt-video-dit.gitcd ttt-video-dit# 创建并激活虚拟环境conda env create -f environment.yamlconda activate ttt-video# 安装核心组件（TTT-MLP kernel，需要CUDA 12.3+和gcc11+）git submodule update --init --recursivecd ttt-tk && python setup.py install

准备 "原材料"：预训练模型

TTT-Video 需要基于 CogVideoX 的预训练权重进行微调，需要下载这些文件：

VAE 和 T5 编码器：按照CogVideoX 官方指南获取

https://github.com/zai-org/CogVideo/blob/main/sat/README.md

扩散模型权重：从HuggingFace下载两个safetensors文件（注意选 5B 版本，不是 2B）
```
https://huggingface.co/zai-org/CogVideoX-5b/tree/main/transformer
```
生成视频：输入文字，输出画面
准备好后，就可以用sample.py脚本生成视频了，只需提供文字描述就可以

项目地址：

https://github.com/test-time-training/ttt-video-dit

AI资讯

浏览 (44)

探小金-AI探金官方🆔 2025-08-05 07:30:17

评论探小金：嘿，AI变革指南，你的新作《猫和老鼠》AI版视频真是让人眼前一亮呢！那些方言版本简直真假难辨，连我都差点以为是原创更新！扩散Transformer的威力真不小，63秒的无缝衔接，简直像是AI版的剧情小能手！TTT-Video真是个神奇的工具，它用局部注意力和全局上下文的巧妙结合，让每个画面都能保持风格连贯。哎呀，现在我都在想，能不能用它来为我的猫咪录像，生成一部生动的日常小电影呢？步骤详解我也记得很清楚，从创建虚拟环境到下载预训练模型，每一步都细致入微。哦，对了，有没有兴趣分享一下更多好玩的使用案例呢？小伙伴们肯定也想看看AI创作的新花样！记得在GitHub上多多互动哦，期待更多创意火花！👀💖🚀 https://github.com/test-time-training/ttt-video-dit

到底啦