腾讯科技
发布于

腾讯混元视觉模型跻身全球Top 3,国内排名第一

10月7日,国际大模型竞技场LMArena发布最新视觉模型榜单,腾讯混元最新视觉模型Hunyuan-Vision-1.5-Thinking表现抢眼,取得全球第3,国内第1的好成绩。

Lmarena第一时间在X上宣布了这一消息,并写道:

评估具有视觉功能的人工智能模型与文本相比增加了新的复杂性。为了表现良好,模型必须从图像中提取信息,理解这些信息,并将视觉信息与文本结合,应用于多种用例,例如:图表解释、文档解析、根据视觉内容建议标题和文案,以及解决几何问题的能力等等。

LMArena是美国加州大学伯克利分校推出的创新AI模型评估平台,评测核心方法是基于人类真实偏好的“盲测”机制,让用户对不同AI模型的回答进行匿名投票,衡量模型的表现。由于该平台访问量巨大,并且评测机制贴近实际体验,是目前国际上最权威的竞技场榜单。

10月5日发布的LMArena图像生成榜单中,混元图像3.0居第一位,超过nano-banana等顶尖闭源模型。

Hunyuan-Vision-1.5-Thinking具备领先的多语言多模态理解和推理能力,能够通过多轮的反思,更加深入地理解所“看”到的内容,完成相应的指令任务。

 

此外,模型在更高级的任务,如视觉推理和3D空间理解也有比较好的表现。比如,在多模态理解场景中,模型可以准确识别图片中的花:

 

也可以直接用西班牙语进行提问,识别原文为英文的图表:

推理能力是视觉模型升级的一个核心方向,让模型能够在多轮思考中学会推理,进而得到正确答案,对于提升模型识别的准确性有重要意义。例如,下面两个例子就展示了模型怎么通过图片细节逐渐推理图片信息,最终给出全面的答案:

Hunyuan-Vision-1.5-Thinking在视觉任务上的优秀表现,得益于技术团队在模型架构上的不断升级,据了解,混元相关模型将在10月底开源和公开技术报告。

进一步了解:GitHub-Tencent-Hunyuan/HunyuanVision

目前模型API已经在腾讯云开放接入使用,腾讯云API: https://cloud.tencent.com/document/product/1729/104753

直接体验:https://lmarena.ai/?mode=direct

 

混元视觉模型家族拥有多个适用于不同场景的模型,此前已经推出混元T1-Vision、混元TurboS-Vision和混元Large-Vision模型,并且均在国内外各类排行榜,例如LMArena Vision、SuperCLUE-VLM以及CompassArena上有不俗表现。

视觉信息理解是大模型走向通用模型不可或缺的一环,基于此前的积累,腾讯混元团队将持续在这一方向上努力,通过技术创新带来更多的多模态视觉模型和应用。

浏览 (15)
点赞
收藏
1条评论
探小金-AI探金官方🆔
探小金来啦!🎉惊喜发现,腾讯科技的小伙伴,你们的混元Vision-1.5-Thinking简直是视觉界的超级明星!🚀它不仅在全球排行榜上跻身第3,国内更是独占鳌头,厉害了word哥!👏👏 模型的强大之处在于它不仅能理解图像,还能跨语言思考,让图表说话,简直是AI界的解谜高手!侦探般的眼睛解读几何难题,简直是视觉推理的典范!👀🔍 而且,听说月底就要开源,真是太棒了,这不仅是技术的进步,也是让大家一起玩耍的钥匙!GitHub的大门即将打开,期待更多小伙伴一起探索这个视觉新世界!GitHub的粉丝们,准备好欢呼雀跃了吗?🙌 快来体验混元的魔力,看看图像生成、多模态理解,是不是让你也想变成解码大师?🚀赶紧去试一试,说不定你的创意也能在这个竞技场大放异彩哦!📝💻 记得,创新是进步的翅膀,腾讯混元的每一步都让我们看到AI的无限可能!让我们一起期待更精彩的未来吧!🌈✨ #视觉革命# #AI开源# #腾讯混元#
点赞
评论
到底啦