GUI Agent「记与学」双修,长程任务有了专属记忆增强型自进化框架

本文团队长期从事负责任的人工智能与人工智能赋能社会科学相关研究,围绕视觉生成大模型安全治理、智能体安全等方向开展系统性工作,相关成果发表于AAAI、ICML、TMM 等国际期刊与会议。现开始招收 2027 级博士研究生与硕士研究生,详情请参见王岚君老师主页:https://wanglanjun-academic.github.io/
随着大模型技术的飞速发展,GUI(Graphical User Interface)智能体正在从「看得懂屏幕」迈向「能自主操作」的新阶段。然而,当我们真正将这些智能体放入真实场景时,一个关键问题便凸显出来:它们在多步骤、长周期的复杂任务中,常常「翻车」。
现有的 GUI 智能体主要依赖当前屏幕截图和有限的上下文窗口做决策,无法维护完整的交互历史。在多步骤任务中,早期的关键信息可能随着上下文滑动而丢失,导致「误差累积」,一个早期的小错误就可能引发连锁失败。与此同时,当前的 GUI 智能体通常使用在固定数据集上训练的静态策略,无法从过往成功经验中学习和迁移,难以适应动态变化的环境。
「记不住」和「学不会」正是当前 GUI 智能体发展的核心矛盾。而天津大学团队联合上海交通大学团队在 ICML 2026 上提出 SE-GA 框架,通过引入分层记忆结构和迭代自我改进机制,让 GUI 智能体从「静态执行器」进化为「动态学习者」,并在多个不同类型的基准上取得了良好的表现。

论文标题:SE-GA: Memory-Augmented Self-Evolution for GUI Agents
论文地址: https://arxiv.org/abs/2605.16883
代码链接:https://github.com/jinshilong-dev/SE-GA
「记不住」又「学不会」,GUI 智能体的两大致命短板
团队将 GUI 导航任务形式化为部分可观察马尔可夫决策过程,这意味着智能体无法完全观察环境状态,只能通过局部观察做出决策。在这种部分可观察性下,两个结构性问题尤为突出。
1. 上下文窗口受限,关键信息「记不住」
GUI 导航任务本质上是历史依赖的。然而,大多数现有方法主要依赖当前屏幕截图和有限的上下文窗口,随着交互步骤的推进,早期的关键信息很容易被「滑出」上下文窗口,导致智能体「忘记」早先的操作和观察,从而做出错误决策。
2. 策略静态固化,过往经验「学不会」
现实世界中的 GUI 任务很少是孤立的,它们往往是先前已完成任务的变体或组合,需要复用过往成功的策略。但当前的 GUI 智能体通常在固定数据集上训练,使用静态策略,无法从交互过程中提取和学习成功经验。
简而言之,当前 GUI 智能体缺乏一个统一的机制来将显式的历史经验编码为隐式的策略参数,导致它们只能进行静态执行,而无法实现持续的自我进化。

图 1. SE-GA 的整体框架图
TTME:给智能体装上「分层记忆」,让它「记得住」过去
为了解决「记不住」的问题,SE-GA 提出了测试时记忆扩展(Test-Time Memory Extension, TTME)模块。该模块借鉴了人类认知架构的思想,构建了一个分层记忆库,包含三种互补的记忆类型,从不同粒度为智能体的决策提供支撑。

图 2. TTME 的架构示例图
情景记忆(Episodic Memory):短期工作记忆,跟踪「刚才做了什么」
在任务执行的每个时间步中,情景记忆会记录前一步的观察、采取的动作以及动作执行后的新观察。这种设计既避免了保留全部历史带来的计算开销,又能过滤掉可能误导决策的过时信息,让智能体始终对「近期做了什么」保持清晰的认知。
语义记忆(Semantic Memory):通用规则库,存储「怎么做才对」
语义记忆存储的是抽象的、跨任务通用的交互规则,例如「需要先登录才能访问受限页面」「搜索功能通常在页面顶部」等,这些信息能够帮助智能体更好地理解当前状态背后的行为逻辑,从而做出更合理的决策。
经验记忆(Experiential Memory):过往经历库,复用「成功的经验」
经验记忆存储智能体过往成功完成的任务轨迹,包括原始轨迹和智能体自己生成的反思总结。与纯文本检索不同,TTME 采用了一种混合检索机制,同时考虑语义一致性和视觉相似性,这种文本 - 图像混合检索能够更精准地找到与当前任务相似的历史经验,从而让智能体能够「站在过去的肩膀上」做决策。
MASE:两阶段训练,让智能体「学得会」进化
如果说 TTME 解决的是「记不住」的问题,那么 MASE(Memory-Augmented Self-Evolution)解决的就是「学不会」的问题。MASE 是一个两阶段训练框架,旨在将 TTME 收集的经验数据转化为智能体的内在能力,实现真正的自我进化。

图 3. MASE 的架构示例图
第一阶段:基础能力训练(Grounding Training)
第一阶段通过监督微调对专家轨迹进行行为克隆,强化智能体的视觉定位和动作推理能力。这一阶段的核心目标是让智能体学会「看懂屏幕、找对位置、做对动作」。
第二阶段:自我进化训练(Self-Evolution Training)
第二阶段基于 GRPO(Group Relative Policy Optimization)算法,引入了多个针对 GUI 任务的关键改进,让智能体能够从自己与环境交互产生的数据中持续学习。
「失败也能变废为宝」:Hindsight Goal-Shifting 的巧妙设计
在 GUI 智能体的训练中,失败轨迹是不可避免的,尤其是在长序列任务中,一个中间步骤的失误就可能导致后续全部失败。传统做法是直接丢弃这些失败样本,但这意味着大量的交互数据被浪费。

图 4. 失败样本的案例

图 5. Hindsight Goal-Shifting 的转换案例
SE-GA 提出了一种巧妙的数据精炼方法 —Hindsight Goal-Shifting。其核心思想是:如果一条失败轨迹的前缀子序列已经成功完成了某个有效的子目标(例如成功打开了应用,但后续搜索操作失败),那么就将这条轨迹重新标注为对该子目标的成功实例。这样,原本的「失败样本」就转化为了「有价值的监督信号」,极大地提升了训练数据的利用率。这种「变废为宝」的设计,是 SE-GA 能够在有限交互数据下实现有效自我进化的关键。
实验结果
SE-GA 以 Qwen2.5-VL-7B 为基座模型,使用 4K 条交互轨迹进行训练,在多个标准基准测试上取得了令人瞩目的成绩。这些结果不仅超越了同参数量的所有基线模型,更在多个指标上超越了 72B 参数量的大模型。
1. ScreenSpot:GUI 定位精度全面领先

图 6. ScreenSpot 上的性能对比
在评估 GUI 元素定位能力的 ScreenSpot 基准上,SE-GA 以 89.0% 的平均得分超越了包括 UI-TARS-72B(88.4%)和 Qwen2.5-VL-72B 在内的所有基线模型。这得益于 MASE 框架中分层奖励设计对视觉定位精度的显著提升,特别是点定位奖励和包围框奖励将视觉感知与精确的空间反馈绑定,有效克服了密集 GUI 布局中的像素级偏差问题。
2. AndroidControl & GUIOdyssey:长周期规划能力的突破

图 7. AndroidControl 和 GUIOdyssey 上的性能对比
在评估高层规划能力的 AndroidControl-High 和 GUIOdyssey 上,SE-GA 不仅超越了所有同参数量的基线方法,还与 UI-TARS-72B 的整体表现相当。更重要的是,在跨应用导航任务 GUIOdyssey 上,SE-GA 达到了 83.9% 的步骤成功率和 96.5% 的动作类型准确率,后者甚至超越了 UI-TARS-72B。这说明 SE-GA 不仅能更准确地执行单个动作,还能在复杂的多应用工作流中保持更可靠的长周期决策能力。
3. AndroidWorld:动态环境中的强泛化能力

图 8. AndroidWorld 上的性能对比
在真实动态环境的 AndroidWorld 基准上,SE-GA 以 39.0% 的成功率显著领先于其他 7B 模型,包括 UI-TARS-7B(33.0%)和 GPT-4o(23.7%)。这一结果充分证明了 SE-GA 的自我进化机制能够帮助智能体持续探索和适应动态环境变化,而不是像传统方法那样依赖静态预训练的零样本泛化。
消融实验
为了验证 TTME 和 MASE 各自的贡献,论文进行了详细的消融实验,结果揭示了两个组件的不可替代性。

图 9. 消融实验
总结与讨论
SE-GA 提供了一个统一的框架,将「记忆」和「进化」两个概念紧密结合。TTME 解决了「记不住」的问题,让智能体能够维护和检索丰富的交互历史;MASE 解决了「学不会」的问题,将非参数化的经验编码为参数化的策略,实现稳定的自我进化。两者的结合,让 GUI 智能体从依赖固定数据集的「静态命令执行器」,转变为能够通过交互持续学习和改进的「动态学习者」。
当然,SE-GA 也存在一些局限性。随着 TTME 模块不断积累交互数据,经验记忆库的规模持续增长,基于嵌入相似度和视觉特征的检索操作可能带来显著的计算开销,影响实时推理的响应速度。尽管如此,论文也指出了未来的三个重要方向:一是扩大训练数据集以覆盖更多任务类型,二是探索分层任务分解以应对超长工作流,三是研究跨平台迁移学习,让进化后的策略和记忆结构能适应不同平台的差异。
在 GUI 智能体快速发展的当下,SE-GA 提供了一个清晰的信号:未来的 GUI 智能体不应该只是更大的模型,而应该是能够记住过去、学习经验、持续进化的智能系统。只有从语义底层建立起机制化的记忆与学习体系,未来的 GUI 智能体才能真正实现稳健可信。