发布于 1天前

跨OS GUI智能体基础设施白皮书——重新定义人机交互自动化｜甲子光年智库

GUI Agent，重新定义人机交互自动化。

1.发布背景

进入2026年，OpenClaw的横空出世，宣告全球人工智能正式从Chat时代走到了Act时代，各主要厂商不再只做Agent，而是推动Agent成为AI时代新的超级入口，GUI Agent也成为这一探索中最重要的路径之一。GUI Agent正在引发继“命令行”到“图形界面”之后的第三次人机交互革命，其核心是通过UI直接进行操作，从“人操作机器”转向“机器理解并执行人的意图”，使操作系统回归“用户意图执行者”的本质。

随着产业探索的深入，从业者逐渐意识到，当前以API为核心路径的Agent路线存在难以逾越的障碍，一是覆盖率瓶颈，API Agent高度依赖API接口，初步估计全球当前仅有不到5%的软件开放了完整的API接口，这使得Agent在数量巨大的“黑盒”软件面前寸步难行；二是认知维度确缺失，多数API Agent仅能在数据层面进行交互，丢失了界面布局、图标隐喻等关键的视觉上下文信息；三是跨生态协作割裂，受限于接口壁垒，传统Agent往往沦为单一软件内的“半自动”工具，难以处理跨平台、跨应用的长链路复杂任务。这就造成了当前Agent多数是“半自动”智能体，重复、繁琐的跨软件操作还需要人工完成。总的来说，以API为主要路径的Agent仍然没办法克服当前计算机行业发展留下来的弊病，即无法对碎片化的数据进行多模态、大规模、跨平台、自动化的调用和整理，并且最终实现智能化的输出。

在短期无法重构全球软件生态的前提下，直接通过图形界面完成感知与操作，成为绕开接口壁垒、实现规模化自动化的重要实现路径。GUI Agent是一种基于多模态大模型，能够模拟人类用户，通过视觉感知和模拟操作，直接与多端图形用户界面进行交互的智能体。它的优势在于摆脱了对API接口和RPA脚本的依赖，通过强大的视觉语义理解，打破了应用间的数据围墙，实现了真正的跨App、跨平台、跨生态操作。GUI Agent的出现，将智能设备从刻板的“代码执行者”进化为灵活的“意图代理人”，从根本上重塑了人机交互范式，是人类通往通用人工智能道路上的里程碑式跨越。

北京庭宇科技有限公司是全球领先的边缘智算基础设施服务商，成立于2019年，始终致力于构建以边缘智算为核心的AI全栈基础设施生态，为智能时代提供核心算力支撑。庭宇运营着国内最大的分布式GPU算力池，构建了覆盖全国超1500个县市及东南亚的高性能边缘节点网络，基础设施已深度赋能云桌面、AI Agent等多元场景，技术实力与市场占有率持续领先。

2024年，庭宇科技就开始了在GUI Agent领域的探索，并且在2025年10月发布了GUI Agent产品Lybic，成为国内发布的首个基于边缘智算架构的GUI Agent产品。Lybic补足了庭宇科技在Agentic OS领域的拼图，使庭宇科技形成了以“边缘云-GUI Agent-云手机/电脑”为主的产品体系，初步构建了以边缘智算为核心的AI全栈基础设施生态。Lybic以庭宇科技的边缘智算为底座，以沙箱为保障的运行环境，配合“全模型+全工具链”的开放生态，形成了“毫秒级延时、高安全保障、全场景适应”的产品优势，有效解决了GUI Agent运行过程中面临的延迟长、精度差、安全保障低的痛点。

《跨OS GUI智能体基础设施白皮书》由庭宇科技和铸基计划联合发布，提出了对GUI Agent的发展现状、技术路径、落地场景及未来前景提出的研判与思考。希望通过本白皮书，与全球从业者共同探讨这一变革性技术的未来，为推动全球通用人工智能的发展贡献庭宇科技力量，实现庭宇科技“让算力无处不在，让智能触手可及”的使命。

2.核心亮点

本白皮书总结了GUI Agent的概念、发展阻碍、技术架构和核心实现、产品形态和场景落地、未来与展望。

本白皮书基于庭宇科技近年在GUI Agent领域的思考、探索和实践，深度剖析了GUI Agent的市场格局、技术演进路径及关键落地场景。我们希望通过本白皮书，为全球从业者提供一份可参考的“落地指南”，并致力于通过持续深耕边缘AI基础设施，推动通用人工智能早日普惠千行百业。

人工智能的演进将经历算法阶段、模型阶段、智能体阶段和智能体生态阶段四个阶段，其中算法阶段的核心特征是主要解决“如何计算”的问题，由统计学和传统的机器学习算法驱动，智能体阶段的核心特征是大模型不再是一个简单的Chatbot，而是可以主动完成任务的智能助理，智能体生态阶段的核心特征是AI将从单体智能走向多智能体协作和智能体工作流。不同的 Agent扮演不同的角色（如程序员、测试员）共同完成庞大的工程。

GUI Agent是人机交互自动化的范式革命。人机交互经历了三次浪潮，分别是CLI阶段、GUI阶段、GUI Agent阶段，GUI Agent正在引发继“命令行”到“图形界面”之后的第三次人机交互革命，其核心是从“人操作机器”转向“机器理解并执行人的意图”，最终将消灭“应用孤岛”，使操作系统回归‘用户意图执行者“的本质。主要表现在交互逻辑革命、用户角色革命、能力边界革命、生态模式革命四个方面。

GUI Agent驱动因素由Agent面临的智能化困境和大模型底层技术的突破进展两方面组成。在 Agent面临的智能化困境方面，“API覆盖率不足”造成的“长尾软件孤岛”、传统RPA维护成本过高、跨应用跨生态造成的碎片化工作流、复杂软件使用和学习门槛较高是传统Agent面临的最大阻碍；在大模型底层技术的突破进展方面，VLM视觉理解能力飞跃，从“鉴赏”到“操作”的进化和LLM实现从“直觉式反应”到“深思熟虑”的进化是让GUI Agent得以实现的关键因素。

GUI Agent组成包括感知模块、决策与规划模块、执行模块、反馈优化模块等四个最重要的模块，同时底层沙盒环境也是GUI Agent安全可控的良好保障。基于各个模块设计逻辑的不同，GUI Agent形成了端到端视觉大模型、代码生成路径、多智能体协作路径三大主流技术路径。本报告基于实践经验，将每个模块的核心内容、困难和挑战、技术考量维度、技术解决方案进行详细的展开和解释，期望能够与行业从业者交流和讨论。