阶跃星辰开源GUI智能体,本地部署的GELab-Zero-4B,精通Android应用
阶跃星辰开源首个包含模型与基础设施的完整GUI智能体方案GELab-Zero,通过4B参数量的轻量化模型与即插即用的工程套件,在消费级硬件上实现了完全本地化、隐私可控的Android应用自动化操作。

移动端智能体研究开始转向实际应用落地。AI向消费级终端设备的渗透已是大势所趋,但这一进程并非坦途。
基于GUI的解决方案被行业公认为当前阶段的最佳路径,它能够像人类用户一样,直接通过视觉识别和触控操作与应用程序进行交互。
这种方式理论上具备对所有应用程序的通用兼容性,最大的优势在于零成本接入——不需要应用开发商进行额外的接口适配或专门开发。
但是移动应用生态系统呈现出高度的碎片化特征。
不同品牌的手机终端、不同型号的设备屏幕分辨率、五花八门的系统版本以及快速迭代的应用版本,共同构成了一道巨大的工程壁垒。
要让一个GUI智能体在如此复杂的环境中稳定运行,开发者面临的挑战远不止模型训练本身。
建立稳定的多设备ADB(Android Debug Bridge,安卓调试桥)连接是第一道关卡,随后是自动化安装依赖环境、配置复杂的系统权限、部署推理服务以及实现任务的编排与回放。
这些繁琐的工程基建工作往往占据了开发者绝大部分的时间和精力。
许多开发者和MCP(Model Context Protocol,模型上下文协议)用户被迫陷入底层的脏活累活中,难以将核心精力集中在智能体策略的创新和优化上。
这直接导致了移动端智能体难以在不同设备上真正跑通,阻碍了技术的规模化落地。
GELab-Zero的开源,不仅仅发布了一个模型,而是提供了一套完整的、即插即用的推理工程基础设施。
这套基建旨在解决上述所有的工程痛点,支持一键启动,自动处理环境依赖和设备管理,将整个推理链路从云端拉回本地。
开发者可以快速测试新的交互策略,企业用户则获得了一条将智能体能力快速集成到现有产品业务中的捷径。
工程化基建打破移动生态碎片化壁垒
GELab-Zero的核心价值在于它提供了一套完整的推理工程基础设施,这套设施被设计为即插即用,旨在帮助开发者搞定所有那些阻碍创新的脏活累活。
该方案提供了类似开源GUI Agent MCP的一键启动体验。
它不再是一个需要用户自己拼凑的零部件集合,而是一条统一的部署流水线。
对于深受环境配置之苦的开发者而言,GELab-Zero自动处理环境依赖与设备管理的能力极具吸引力。
它能够自动识别连接的设备,适配不同的分辨率和系统环境,确保智能体能够迅速进入工作状态。
支持多设备任务分发是这套基建的一大亮点。
在实际的测试和应用场景中,单机运行往往难以满足效率需求。
GELab-Zero能够将任务并行分发到多台手机上执行,这意味着开发者可以在短时间内完成大规模的兼容性测试或任务执行。
更为重要的是,它在执行任务的同时,会详细记录交互轨迹。
这些轨迹数据对于后续的观测、分析以及复现智能体行为至关重要。
研究人员可以通过回放这些轨迹,精准定位模型在某一步操作上的失误,从而进行针对性的优化。
GELab-Zero支持多种智能体工作模式,覆盖了ReAct模式、Multi-Agent(多智能体)模式以及定时任务模式。
ReAct模式让智能体能够根据观察到的界面状态进行推理并执行行动,形成“观察-思考-行动”的闭环;多智能体模式则为处理更复杂的协同任务提供了可能;定时任务模式则让自动化操作能够按照预设的时间表自动运行,满足了日常生活中诸如定时签到、定时抢购等场景的需求。
相关的多轮强化学习(Multi-Turn RL)研究论文已被机器学习顶级会议NeurIPS 2025接收,这从学术层面验证了该方案背后技术架构的先进性和严谨性。
这不仅仅是一个工程工具,更是一套经过学术界严格审视的研究成果。
本地化轻量模型重构隐私与效率平衡
GELab-Zero由两部分组成:除了上述的工程基础设施外,另一个核心组件是可本地运行的4B GUI Agent模型。
这种设计体现了对隐私和低延迟的极致追求,与当前过度依赖云端大模型的趋势形成了鲜明对比。
在传统的云端方案中,用户的屏幕数据、操作指令以及应用内的敏感信息都需要上传至服务器进行处理。
这不可避免地引发了用户对隐私泄露的担忧,尤其是在涉及支付、社交和个人通讯等敏感场景时。
同时,云端推理还受限于网络状况,不稳定的网络连接会导致操作延迟,影响用户体验。
GELab-Zero-4B模型虽然仅有4B参数规模,却专门针对Android操作环境进行了深度优化。
其轻量级的特性使得它完全能够在消费级硬件上流畅运行,无需昂贵的服务器集群支持。
这种本地化部署大幅降低了使用成本,让个人开发者和中小企业也能负担得起高质量的智能体服务。
更关键的是,本地化推理将数据的控制权完全交还给了用户。
所有的屏幕截图分析、意图理解和指令生成过程都在本地设备上完成,数据不出端,从根本上杜绝了隐私泄露的风险。
这种兼顾低延迟与隐私的设计,使得GELab-Zero在处理个人生活服务类任务时具有天然的优势。
复杂任务演练验证多步交互鲁棒性
为了验证模型在真实场景下的能力,GELab-Zero展示了一系列覆盖生活各方面的任务演示。
这些演示不仅仅是简单的点击操作,而是涵盖了跨应用交互、长流程逻辑判断以及多约束条件下的决策,充分展示了模型在复杂环境中的鲁棒性。
在科幻电影推荐任务中,智能体需要在视频应用中理解用户的模糊需求,筛选出近期上映且口碑良好的科幻作品。
这要求模型具备对自然语言的理解能力,能够将“好看的科幻电影”转化为具体的搜索和筛选动作,并从海量的视频封面和标题中识别出符合条件的目标。

旅游目的地推荐任务则要求智能体根据“周末”和“带孩子”这两个约束条件,在旅游应用中寻找合适的地点。
模型需要理解“周末”对应的时间属性和“带孩子”对应的亲子属性,在应用中进行多维度的筛选和浏览。

实用性任务展示了智能体在企业福利平台领取餐补以及查询地铁线路的能力。
在地铁查询任务中,智能体不仅要检查特定线路的运行状态,还需要进一步操作导航应用,规划前往最近地铁站入口的路线。
这涉及到跨应用的上下文记忆和操作衔接,智能体需要记住前一步查询到的地铁站信息,并在后续的导航应用中准确输入。

最为复杂的多商品购物任务,充分展示了GELab-Zero-4B处理繁琐细节的能力。
任务要求在饿了么平台上的盒马鲜生门店购买一份清单极长的商品:红颜草莓300g、秘鲁比安卡蓝莓125g(且要求果径18mm+)、当季鲜黄土豆500g、贝贝南瓜750g、盒马大颗粒虾滑、2瓶300ml的黑豆味盒马醇豆浆、小王子澳洲坚果可可脆120g、盒马菠菜手擀面、盒马五香酱牛肉、5袋加辣加臭版的400g好欢螺柳州螺蛳粉,以及100g的m&m's牛奶巧克力豆。

智能体需要精准识别商品名称、规格、口味甚至果径大小。
例如,对于蓝莓,它不能只选蓝莓,必须确认果径是18mm+;对于螺蛳粉,必须选“加辣加臭版”。
这远超出了简单的关键词搜索范畴,体现了极高的视觉理解和决策精度。
智能体需要不断地进行搜索、浏览、核对详情页、添加购物车,并处理可能出现的推荐弹窗或库存提示。
此外,在信息检索、条件搜索和在线测验等任务中,智能体也表现出色。例如在淘宝上寻找价格100元以内、37码的白色帆布鞋并收藏,或者在百词斩上完成背单词任务。

这些场景覆盖了用户日常使用的高频操作,验证了模型在不同APP设计风格下的适应能力。
AndroidDaily基准测试回归真实生活场景
当前主流的基准测试(Benchmark)往往聚焦于邮件处理等生产力应用,这与移动端用户主要使用生活服务类应用的现实情况存在偏差。
为了更准确地评估GUI智能体的实用价值,阶跃星辰提出了AndroidDaily基准测试。
这是一个面向真实世界的多维动态测试集,着重对现代生活的六大核心维度——食、行、购、住、讯、娱——进行实证分析。
AndroidDaily优先选取了在这些类别中占据主导地位的热门应用,确保测试任务具有真实世界的交互结果,如真实的交易支付和服务预订,具有紧密的线上线下继承性。
为了平衡评估的全面性与执行效率,该基准测试采用了静态测试和端到端测试两种模式。
静态测试(Static Testing)包含3146个动作。
它提供任务描述和步骤截图,要求智能体预测每一步的动作类型和动作值,如点击坐标或输入文本。
这种方法主要评估模型的数值准确性,无需复杂的工程基建,适合大规模模型的快速迭代。
动作类型分布涵盖了点击(1354次)、任务完成(410次)、唤醒应用(528次)、文本输入(371次)、信息查询(305次)、等待(85次)和滑动(93次)。
其中,“唤醒应用”和“滑动”等动作的加入,使得测试更加贴近真实操作习惯。

在静态基准测试结果中,GELab-Zero-4B-preview展现出了惊人的性能,其准确率达到0.734,远超通用大模型。
相比之下,UI-TARS-1.5的准确率为0.470,Gemini-2.5-pro-thinking为0.366,而GPT-4o仅为0.196。
这一显著差异表明,虽然通用大模型在文本处理上能力强大,但在具体的GUI操作和屏幕理解上,经过专门优化的轻量级模型具有压倒性优势。
通用大模型往往难以理解屏幕坐标和特定的UI组件交互逻辑,导致在实际操作中频频失误。
端到端基准测试(End-to-End Benchmark)则包含235个任务,在真机或模拟器的完整功能环境中进行。
智能体需要自主从头到尾执行任务,以整体任务成功率作为评估指标。
这种设置具有最高的生态效度,真实反映了智能体在复杂环境中的综合能力。
任务场景分布广泛,其中出行类占33.19%(78个任务),涵盖打车、导航、公交查询;购物类占25.96%(61个任务),涉及电商购物、支付、订单管理;社交通讯类占18.3%(43个任务),包括发消息、社交互动;内容消费类占15.74%(37个任务),如看新闻、看视频、收藏内容;本地服务类占6.81%(16个任务),主要是外卖和到店服务。
这些任务的成功执行,需要智能体具备长时记忆、错误恢复和动态规划的能力。

在开放基准测试(Open Benchmark)的综合评估中,GELab-Zero-4B-preview在GUI理解、定位和交互等多个维度均表现优异。

特别是在AndroidWorld测试中,它达到了75.86%的成功率。这一数据证明了其在实际应用中的强大能力,能够有效应对真实的移动任务挑战。
GELab-Zero大幅降低了移动端智能体开发门槛。
它通过开源的方式,将原本只有大厂才能具备的工程基建能力赋予了每一位开发者,同时通过高效的本地化模型,解决了隐私和成本的后顾之忧。
参考资料:
https://opengelab.github.io/index_zh.html
https://github.com/stepfun-ai/gelab-zero
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
https://openreview.net/pdf/ce35fb684e3b11b9c0f1fcc38598cfb3504c728e.pdf