跨OS GUI智能体基础设施白皮书——重新定义人机交互自动化|甲子光年智库

GUI Agent,重新定义人机交互自动化。
1.发布背景
进入2026年,OpenClaw的横空出世,宣告全球人工智能正式从Chat时代走到了Act时代,各主要厂商不再只做Agent,而是推动Agent成为AI时代新的超级入口,GUI Agent也成为这一探索中最重要的路径之一。GUI Agent正在引发继“命令行”到“图形界面”之后的第三次人机交互革命,其核心是通过UI直接进行操作,从“人操作机器”转向“机器理解并执行人的意图”,使操作系统回归“用户意图执行者”的本质。
随着产业探索的深入,从业者逐渐意识到,当前以API为核心路径的Agent路线存在难以逾越的障碍,一是覆盖率瓶颈,API Agent高度依赖API接口,初步估计全球当前仅有不到5%的软件开放了完整的API接口,这使得Agent在数量巨大的“黑盒”软件面前寸步难行;二是认知维度确缺失,多数API Agent仅能在数据层面进行交互,丢失了界面布局、图标隐喻等关键的视觉上下文信息;三是跨生态协作割裂,受限于接口壁垒,传统Agent往往沦为单一软件内的“半自动”工具,难以处理跨平台、跨应用的长链路复杂任务。这就造成了当前Agent多数是“半自动”智能体,重复、繁琐的跨软件操作还需要人工完成。总的来说,以API为主要路径的Agent仍然没办法克服当前计算机行业发展留下来的弊病,即无法对碎片化的数据进行多模态、大规模、跨平台、自动化的调用和整理,并且最终实现智能化的输出。
在短期无法重构全球软件生态的前提下,直接通过图形界面完成感知与操作,成为绕开接口壁垒、实现规模化自动化的重要实现路径。GUI Agent是一种基于多模态大模型,能够模拟人类用户,通过视觉感知和模拟操作,直接与多端图形用户界面进行交互的智能体。它的优势在于摆脱了对API接口和RPA脚本的依赖,通过强大的视觉语义理解,打破了应用间的数据围墙,实现了真正的跨App、跨平台、跨生态操作。GUI Agent的出现,将智能设备从刻板的“代码执行者”进化为灵活的“意图代理人”,从根本上重塑了人机交互范式,是人类通往通用人工智能道路上的里程碑式跨越。
北京庭宇科技有限公司是全球领先的边缘智算基础设施服务商,成立于2019年,始终致力于构建以边缘智算为核心的AI全栈基础设施生态,为智能时代提供核心算力支撑。庭宇运营着国内最大的分布式GPU算力池,构建了覆盖全国超1500个县市及东南亚的高性能边缘节点网络,基础设施已深度赋能云桌面、AI Agent等多元场景,技术实力与市场占有率持续领先。
2024年,庭宇科技就开始了在GUI Agent领域的探索,并且在2025年10月发布了GUI Agent产品Lybic,成为国内发布的首个基于边缘智算架构的GUI Agent产品。Lybic补足了庭宇科技在Agentic OS领域的拼图,使庭宇科技形成了以“边缘云-GUI Agent-云手机/电脑”为主的产品体系,初步构建了以边缘智算为核心的AI全栈基础设施生态。Lybic以庭宇科技的边缘智算为底座,以沙箱为保障的运行环境,配合“全模型+全工具链”的开放生态,形成了“毫秒级延时、高安全保障、全场景适应”的产品优势,有效解决了GUI Agent运行过程中面临的延迟长、精度差、安全保障低的痛点。
《跨OS GUI智能体基础设施白皮书》由庭宇科技和铸基计划联合发布,提出了对GUI Agent的发展现状、技术路径、落地场景及未来前景提出的研判与思考。希望通过本白皮书,与全球从业者共同探讨这一变革性技术的未来,为推动全球通用人工智能的发展贡献庭宇科技力量,实现庭宇科技“让算力无处不在,让智能触手可及”的使命。
2.核心亮点

本白皮书总结了GUI Agent的概念、发展阻碍、技术架构和核心实现、产品形态和场景落地、未来与展望。
本白皮书基于庭宇科技近年在GUI Agent领域的思考、探索和实践,深度剖析了GUI Agent的市场格局、技术演进路径及关键落地场景。我们希望通过本白皮书,为全球从业者提供一份可参考的“落地指南”,并致力于通过持续深耕边缘AI基础设施,推动通用人工智能早日普惠千行百业。
人工智能的演进将经历算法阶段、模型阶段、智能体阶段和智能体生态阶段四个阶段,其中算法阶段的核心特征是主要解决“如何计算”的问题,由统计学和传统的机器学习算法驱动,智能体阶段的核心特征是大模型不再是一个简单的Chatbot,而是可以主动完成任务的智能助理,智能体生态阶段的核心特征是AI将从单体智能走向多智能体协作和智能体工作流。不同的 Agent扮演不同的角色(如程序员、测试员)共同完成庞大的工程。
GUI Agent是人机交互自动化的范式革命。人机交互经历了三次浪潮,分别是CLI阶段、GUI阶段、GUI Agent阶段,GUI Agent正在引发继“命令行”到“图形界面”之后的第三次人机交互革命,其核心是从“人操作机器”转向“机器理解并执行人的意图”,最终将消灭“应用孤岛”,使操作系统回归‘用户意图执行者“的本质。主要表现在交互逻辑革命、用户角色革命、能力边界革命、生态模式革命四个方面。
GUI Agent驱动因素由Agent面临的智能化困境和大模型底层技术的突破进展两方面组成。在 Agent面临的智能化困境方面,“API覆盖率不足”造成的“长尾软件孤岛”、传统RPA维护成本过高、跨应用跨生态造成的碎片化工作流、复杂软件使用和学习门槛较高是传统Agent面临的最大阻碍;在大模型底层技术的突破进展方面,VLM视觉理解能力飞跃,从“鉴赏”到“操作”的进化和LLM实现从“直觉式反应”到“深思熟虑”的进化是让GUI Agent得以实现的关键因素。
GUI Agent组成包括感知模块、决策与规划模块、执行模块、反馈优化模块等四个最重要的模块,同时底层沙盒环境也是GUI Agent安全可控的良好保障。基于各个模块设计逻辑的不同,GUI Agent形成了端到端视觉大模型、代码生成路径、多智能体协作路径三大主流技术路径。本报告基于实践经验,将每个模块的核心内容、困难和挑战、技术考量维度、技术解决方案进行详细的展开和解释,期望能够与行业从业者交流和讨论。
详细介绍了GUI Agent可能的产品形态和落地场景,包括手机、电脑、OS生态和人机自动化交互具体场景的可能性。同时,提出了未来GUI Agent的发展可能性、面临的困难和挑战。
3.报告正文



























































