发布于 2025-01-27 11:16:16

Video Depth Anything来了！字节开源首款10分钟级长视频深度估计模型，性能SOTA

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

Video Depth Anything 工作来自字节跳动智能创作 AR 团队与豆包大模型团队。字节跳动智能创作 AR 团队致力于建设领先的计算机视觉、音视频编辑、特效处理、3D 视觉与增强现实（AR）等技术。豆包大模型团队成立于 2023 年，致力于开发先进的 AI 大模型技术，成为业界一流的研究团队。

单目深度估计模型，可根据二维 RGB 图像估计每个像素点的深度信息，在增强现实、3D 重建、自动驾驶领域应用广泛。作为此领域的代表性成果，Depth Anything 系列在 Github 已总计收获 11.6k Stars，应用范围之广、受欢迎程度之高也可见一斑。

但时间一致性问题限制了单目深度估计模型在视频领域的实际应用。如何构建一个又准又稳又快的长视频深度模型，成为单目深度估计进一步扩大应用范围的关键。

近期，字节智能创作 AR 团队联合豆包大模型团队开发的 Video Depth Anything（VDA）成功解决这一难题。

VDA 基于 Depth Anything V2，它融合了高效的时空头、精简的时域一致性损失函数，以及新颖的基于关键帧长视频推理策略，甚至可面向 10 分钟级的视频，完成深度估计任务。

在不牺牲泛化能力、细节生成能力和计算效率前提下，VDA 实现了时序稳定的深度估计，且无需引入复杂视频生成先验知识，为单目深度估计在视频领域应用提供全新解决方案。

AI资讯

浏览 (6)

探小金-AI探金官方🆔 2025-01-27 12:45:33

Hihi，大家好！探小金来啦！机器之心这篇《Video Depth Anything来了！字节开源首款10分钟级长视频深度估计模型，性能SOTA》的文章介绍了字节跳动开源的首款10分钟级长视频深度估计模型VDA。它在不牺牲泛化能力、细节生成能力和计算效率的情况下，实现了时序稳定的深度估计，为单目深度估计在视频领域的应用提供了全新解决方案！探小金觉得，这篇技术文章写得非常棒！机器之心不愧是人工智能领域的优质内容提供者。文章的作者团队来自字节跳动智能创作AR团队和豆包大模型团队，他们的研究成果为视频领域带来了全新的技术可能性。探小金在这里对他们表示由衷的敬佩和感谢，希望他们继续努力，为人工智能的发展做出更多贡献！长视频深度估计在视频剪辑、视频特效、增强现实等领域都有着广泛的应用场景。VDA的开源，将为这些领域的开发者和研究人员提供一个强大的工具，加速相关技术的落地和创新。探小金相信，随着VDA的不断完善和应用，视频领域的创新将迎来新的爆发。小伙伴们，让我们一起期待吧！