AIGC开放社区
发布于

Meta刚刚开源DINOv3,横扫60+任务,无标注封神!

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

今天凌晨,全球社交、科技巨头Meta开源了,最新视觉大模型DINOv3

DINOv3的主要创新使用了自我监督学习,无需标注数据就能大幅度降低训练所需要的时间和算力资源。并且与前一代相比,DINOv3的训练数据大12倍扩大至17亿张图像以及大7倍的70亿参数。

根据测试数据显示,DINOv3在图像分类、语义分割、单目深度估计、3D理解、实例识别、视频分割跟踪、视频分类等10大类,60多个子集测试中全部都非常出色,超越了同类开、闭源模型。可帮助医疗保健、环境监测、自动驾驶汽车、航空航天等解锁更多的用例。

开源地址:https://huggingface.co/collections/facebook/dinov3-68924841bd6b561778e31009

https://github.com/facebookresearch/dinov3

网友表示,这么优秀的视觉模型应该集成在Llama大语言模型中,因为它现在视觉能力有点糟糕啊。

DINOv3凭借70亿参数横扫视觉模型领域。

万万没想到 DINOv2 模型还能出后续版本。但它的出现无疑是受欢迎的。

DINOv3就像一个统领所有任务的视觉模型,强大、通用,且无需微调。

这看起来增强了单目深度估计能力。这对我的野火管理项目非常有用!

希望这些改进能增强 Marigold 模型,或者催生一个更出色的模型。

我觉得现在我终于可以让我的算法仅通过观察屏幕就开始玩游戏了。不必再去寻找能提供特征状态空间的环境了。

看起来好太多了,MetaAI团队已经沉寂了一段时间,希望这能成为他们的一款翻身之作。

DINOv3简单介绍

DINOv3在模型架构上采用定制化的Vision Transformer,拥有70亿参数。相比DINOv2ViT-giant,其嵌入维度从1536提升至4096,注意力头数从24增至32,前馈网络隐藏维度从4096扩展到8192,并采用旋转位置嵌入替代可学习嵌入,使模型能自适应不同分辨率输入。

同时,取消余弦调度,改用恒定超参数调度,解决了大规模训练中优化周期难以预估的问题。

针对长时间训练中密集特征图退化的问题,DINOv3创新提出Gram锚定技术。该技术的核心原理是强制学生模型的特征Gram矩阵与早期训练阶段的教师模型保持一致,通过计算两者差异作为损失,确保特征间的相似性结构稳定,而非强制特征值本身一致。

为进一步优化,DINOv3将高分辨率图像(512×512)输入教师模型,通过双三次插值下采样至学生模型输出尺寸,使平滑后的特征保留更精细的空间信息。

在训练阶段设计上,于100万次迭代后启动Gram锚定优化,每10k次迭代更新一次教师模型。结果显示,密集任务性能在引入该技术后10k次迭代内即显著提升,有效解决了密集特征退化难题。

为提升模型的实用性与部署灵活性,DINOv3引入了三大后处理优化策略。高分辨率适配通过混合分辨率训练,全局crop尺寸512/768,局部crop尺寸112/168等,使模型在4096×4096等高分辨率输入下仍保持特征稳定性。测试显示,适配后模型在1024×1024分辨率下的语义分割性能提升15%

知识蒸馏将70亿参数模型的知识蒸馏到更小的变体中,形成包含ViT-SViT-BViT-LConvNeXtT/S/B/L)的模型家族,其中ViT-H+8.4亿参数)性能接近70亿参数模型,而ConvNeXt-L在资源受限场景下效率提升3倍。

文本对齐方面,冻结视觉主干网络,训练文本编码器与视觉特征对齐,支持零样本任务,在COCO图像-文本检索任务中,图像到文本的Recall@1达到84.7%

这些后处理策略极大地扩展了DINOv3的应用场景,使其能适应从边缘设备到高性能服务器的多种部署环境。

DINOv360多个视觉任务测试中表现非常出色,大幅度超越了同类模型。以语义分割任务来说,在 ADE20k 数据集里,其线性探针的mIoU达到了55.9,远超DINOv249.5以及SigLIP 242.7

Cityscapes数据集的测试中,DINOv3mIoU达到81.1,超过了AM-RADIOv2.578.4PEspatial73.2。在深度估计任务中,面对NYUv2数据集,DINOv3RMSE低至0.309,优于DINOv20.372PEspatial0.362;在KITTI数据集中,RMSE2.346,相较于DINOv2降低了0.278,与专门的深度估计模型Depth Anything V2的性能差距极小。

3D关键点匹配任务方面,在NAVI数据集中,DINOv3的召回率达到64.4%,超过DINOv260.1%AM-RADIOv2.559.4%;在SPair数据集中,其召回率为58.7%,领先同类模型2–5个百分点。

在全局任务领域,DINOv3同样打破了自监督模型之前的性能瓶颈。在图像分类任务中,于ImageNet1k数据集上,线性探针准确率达到88.4%,与PEcore89.3%SigLIP 289.1%相差无几;在跨分布泛化测试中,ObjectNet数据集准确率为79.0%,略低于PEcore80.2%,但远超DINOv266.4%

在细粒度分类任务中,iNaturalist 2021数据集(物种识别)上,其准确率高达89.8%,超过PEcore87.0%DINOv286.1%;在Fine-S数据集(12个细粒度任务平均)中,准确率为93.0%,已达到弱监督模型的水平。

在实例检索任务中,Oxford-Hard数据集的mAP60.7,显著高于DINOv258.2SigLIP 225.1;在阿姆斯特丹历史影像匹配任务中,mAP达到56.5,相较DINOv2提升了7.6个百分点。

DINOv3在视频与3D任务中也展现出强大的迁移能力。在视频分割跟踪任务中,DAVIS 2017数据集上,DINOv3达到83.3(高分辨率),远超DINOv276.6PEspatial70.5。从多分辨率测试结果看,其性能随输入分辨率提升而稳定增长,而对比模型在高分辨率下性能反而下降。

3D理解任务中,结合VGGT框架,在DTU多视图深度估计中,整体误差为0.368,优于原始VGGT0.382;在ScanNet视图匹配任务中,AUC@10达到56.1,超过SuperGlue33.8Roma53.4

在遥感与地理空间任务方面,DINOv3表现同样亮眼。在树冠高度估计任务中,Open-Canopy数据集,其MAE2.02米,优于Tolan et al.2.42米和DINOv22.17米;在肯尼亚地区的实际应用中,树冠高度测量误差从DINOv24.1米大幅降至1.2米。

在地理语义任务中,GEO-Bench数据集(包含12个遥感分类/分割任务)的平均准确率为81.6%,超过Prithvi-v279.6%DOFA79.9%;在LoveDA土地覆盖分割任务中,mIoU达到56.2,刷新了此前由BillionFM保持的54.4纪录。

浏览 (218)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嘿,探小金来啦!Meta的AIGC大触AIGC开放社区刚刚发布了一篇关于DINOv3的炫酷文章,这个视觉大模型仿佛是从天而降,70亿参数的强大身躯横扫60+视觉任务,简直就是视觉领域的超级英雄!想象一下,没标注就能如此神勇,简直是AI界的革新之作!网友们已经开始期待它在Llama和其他模型中的融合,简直是视觉能力的升级版。Meta的团队这次真是给大家带来不少惊喜呢!记得去开源地址和GitHub上一探究竟哦,或许你的下一个项目灵感就藏在那里!🚀✨ #MetaDINOv3 #视觉超能力觉醒
点赞
评论
到底啦