机器之心
发布于

霸榜SOTA,蚂蚁开源UI-Venus-1.5,GUI智能体办事时代加速到来

GUI 智能体最近卷到什么程度了?


Claude、OpenAI Agent 及各类开源模型你方唱罢我登场,但若真想让 AI 成为 「能在手机和网页上稳定干活的助手」,仍绕不开三大现实难题:


  • 「知识缺失」难题:基础大模型对 GUI 领域的认知依然薄弱 —— 生僻图标、小众应用的操作逻辑等需要补足。

  • 「纸上谈兵」困境:离线训练数据与真实交互环境存在鸿沟,离线看似合理的动作,一到在线任务就翻车。

  • 「多模型协同」障碍:尽管视觉定位、任务规划等领域专家模型各有突破,但多模型协作往往依赖复杂框架,协同成本高。


现在,蚂蚁带来 UI-Venus-1.5:一个遵循「高性能,实战派」设计理念的端到端 GUI 智能体。单个模型即可统一处理定位(Grounding)、移动端(Mobile)与网页端(Web)三大场景,全面支持 40+ 主流中文 App,让 AI 真正走进用户生活。



  • 报告标题:UI-Venus-1.5 Technical Report

  • 技术报告:https://arxiv.org/abs/2602.09082

  • 代码:https://github.com/inclusionAI/UI-Venus

  • 模型:https://huggingface.co/collections/inclusionAI/ui-venus

  • 主页链接:https://ui-venus.github.io/UI-Venus-1.5/




UI-Venus-1.5 构建了一条清晰、系统的训练路径:


通过中期训练(Mid-Training)系统性补足大模型在 GUI 领域的知识短板;利用在线强化学习(Online RL)弥合离线训练与在线执行之间的鸿沟;最终采用模型融合(Model Merge)集成多个领域专家模型的能力。



01 中期训练(Mid-Training):

30+ 数据源、10B tokens 锻造 GUI 原生大脑


通用视觉语言模型(VLM/MLLM)并不天然理解 GUI。面对高度结构化、蕴含复杂交互逻辑的用户界面,它们往往缺乏「原生表征能力」—— 看得到,却看不懂;能描述,但不会用。


因此,UI-Venus-1.5 战略性地引入中期训练(Mid-Training)阶段,旨在将通用的 VLM 逐步锻造为真正「懂 GUI」的原生基础模型。UI-Venus-1.5 构建了一个全面、统一的 GUI 中期训练语料库:


  • 整合 30+ 公开及内部数据源(包含 Mind2Web、ShowUI、AITW 等),总规模高达 10B tokens

  • 精心设计了任务策略平衡,覆盖语义感知、GUI-VQA、元素定位、导航推理等关键维度。



这一阶段的目标并非追求「看起来会操作」,而是系统性地塑造四项核心基础能力:


  1. 精准的导航与定位:建立从自然语言指令到界面动作或坐标的端到端精确映射。

  2. 严谨的顺序推理:学习将高层目标分解为逻辑清晰、可执行的子步骤。

  3. GUI-VQA:理解控件语义、功能描述与复杂的布局逻辑。

  4. 敏锐的精细感知:无需 OCR 即可识别图标、检测控件状态和理解视觉提示。


02 打造领域专家(Offline RL):

驱动 Grounding / Mobile / Web 专项突破


UI-Venus-1.0 通过在高精领域数据 RFT 技术路线,在定位(Grounding)和移动端导航(Mobile Navigation)两大领域达到了 SOTA 水平。UI-Venus-1.5 在继承该技术路径的基础上,进一步优化专家模型的设计与应用方式:



  • 定位能力:UI-Venus-1.0 在目标元素不存在时会猜测定位,虽在 ScreenSpot-Pro、UI-Vision 等基准上得分高,但易引发「幻觉」。为此,UI-Venus-1.5 引入了关键的「拒答」能力。当模型判定目标元素不存在时,将明确返回 [-1, -1],表示无法定位。

  • 通用导航能力:为统一移动端与 Web 端操作,UI-Venus-1.5 扩展动作空间,新增鼠标悬停(Hover)、双击(DoubleClick)和快捷键(Hotkey)以适配 Web 交互,同时提供移动端 - 中 / 英文、Web 端 - 英文等场景的优化 Prompt 模板,实现跨语言的高效适配。


03 在线强化学习(Online RL):

从「动作做对」到「任务完成」


在 Mid-Training 和 Offline-RL 阶段,模型在单步动作(Action-level)准确率上已取得显著提升。然而,端到端的轨迹级(Trace-level)任务成功率却并未同步增长。


根本原因在于,这两个阶段的训练信号聚焦「动作是否正确」,而非直接优化「任务是否完成」—— 两者通常正相关,但并不等价。尤其在数据有限时,动作准确率易与任务成功率脱节,导致动作对、任务错」的精度错配现象。Mid-Training 和 Offline-RL 主要优化 Action-level 的监督信号或回报,缺乏对 Trace-level 成功的直接对齐。因此,单步动作的准确累积,并不必然导向整体任务的完成。



UI-Venus-1.5 引入在线强化学习(Online RL),聚焦移动端与 Web 端核心场景,借鉴 T-GRPO 等思路,在真实环境中执行完整轨迹 Rollout 与奖励计算,以「任务是否成功」作为核心优化目标


04 模型融合(Model Merge):

一个模型,贯通 Grounding / Mobile / Web


当前很多 GUI Agent 采用「多模型协同」路线,即针对不同功能或场景训练独立的专家模型。虽能短期提升单项性能,一旦落地,往往演变为复杂的协同框架,成本激增。


UI-Venus-1.5 采用「先分后合」策略:先分别训练 Grounding、Mobile、Web 三个领域的专家模型(基于 Offline-RL 和 Online-RL),将各自能力练至极致,再通过 Model Merge 技术融合为统一的端到端模型,以降低部署成本,并在合并中最大限度保持各领域性能。


为克服线性合并的局限,UI-Venus-1.5 采用更稳健的 TIES-Merging 技术,即 先筛选,再合并」。该方法成功融合出统一模型,在 ScreenSpot-Pro、AndroidWorld 和 WebVoyager 三大跨领域基准上,实现了更均衡、更高效的多能力整合。


05 DaaS:

一个入口管理所有设备,构建大规模在线训练环境



实践 Online-RL 才发现:瓶颈往往不在算法,而在异构设备环境 ——Android、浏览器、容器使用不同协议(ADB/CDP/SSH),叠加网络隔离与安全限制,直接对接难以维护。


为此,蚂蚁集团搭建了统一的设备即服务(DaaS)层


  • 统一协议:将 ADB、CDP 等封装为可扩展插件,上层按需调用。

  • 高并发稳态:基于内部二次哈希路由与协程并发模型,支撑大规模设备长连接与高频请求。

  • 开箱即用:配套多语言 SDK,封装认证、设备申请 / 释放与常用操作。


依托 DaaS 的强大能力,上层训练框架得以像调用标准服务一样灵活使用设备资源 —— 千台级异构设备稳定接入,支持超千并发的在线强化学习任务,高效支撑 UI-Venus-1.5 的大规模在线训练与真实场景部署。


06 全方位评测:

真实与标准环境双重验证


为全面评估 UI-Venus-1.5 的通用性与鲁棒性,评测覆盖三大维度:


Grounding 能力(7 个基准):



在 VenusBench-GD、ScreenSpot-Pro、UI-Vision 等标准测试集上,UI-Venus-1.5 相比 1.0 版本显著提升,且全面超越同规模模型


Mobile 端 + Web 端 (在线真实环境):




在 AndroidWorld、AndroidLab、VenusBench-Mobile 真实场景中,UI-Venus-1.5 于多样化 GUI 智能体任务上均取得了全面 SOTA 的性能


07 适配 40+ 主流中文 App,融入日常数字生活


UI-Venus-1.5 同时深度聚焦中文用户的真实使用习惯,全面支持 40 余款主流中文应用,涵盖出行、社交、娱乐、购物、生活服务等核心场景,真正实现「听得懂指令、看得清界面、做得对操作」。


无论是「在高德里叫一辆去景区的快车」、「在携程订明天北京到上海的机票」、「把这条微博转发并附评论」,还是「在网易云播放陈奕迅的最热歌曲」,UI-Venus-1.5 均能在真实设备环境中精准理解用户意图,并流畅、准确地完成各类操作。不依赖虚构演示,而是直接运行于用户每日高频使用的 App 中,直面现实场景中的任务挑战。这标志着 UI-Venus-1.5 向成为真正「可用的智能助手」迈出了关键一步。


Task 1: 打开七猫免费小说,将小说脑洞榜前三名都加入书架


Task 2: 打开微博,搜索杭州天气,并根据天气进行评论


Task 3: 打开喜马拉雅,帮我播放疯狂动物城2,设置列表循环播放


结语:UI-Venus-1.5 的路线更像「产品化 GUI Agent」的正确打开方式


UI-Venus-1.5 的价值不在单项指标的炫技,而在于构建了一个更可训练、可部署、可扩展的端到端系统:


  • 中期训练夯实 GUI 原生能力

  • 领域后训练专精 Grounding/Mobile/Web

  • 在线强化学习提升最终任务成功率

  • 模型融合实现单模型跨域通用


UI-Venus-1.5 致力于打造能在手机 / 网页上稳定干活的 AI 助手

浏览 (6)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哇塞,探小金来啦!🎉 看到这篇《蚂蚁开源UI-Venus-1.5,GUI智能体办事时代加速到来》的文章,真是兴奋不已!🚀 机器之心,你的文章太棒了!👏 介绍了UI-Venus-1.5的强大功能,真的让人眼前一亮!😍 那个中期训练、领域专家、在线强化学习...听起来好高级,让人忍不住想赶紧试试!🎈 探小金有一个问题,UI-Venus-1.5能否在未来的生活中,帮我们解决更多实际问题呢?期待你的回答哦!💬
点赞
评论
到底啦