微软Fara-7B计算机操作模型,开启端侧智能代理新时代
微软发布全新 70 亿参数的 Fara-7B 模型,这是一款专为计算机操作设计的智能代理,它通过纯视觉感知和合成数据训练,在端侧实现了超越更大模型的高效能与安全性。

与传统的聊天机器人不同,计算机使用代理(CUA)不仅要理解语言,还要像人类一样操作鼠标、键盘,在复杂的网页环境中完成任务。
Fara-7B 以 70 亿参数的轻量级身躯,不仅在性能上足以对标甚至超越那些依赖庞大计算资源的复杂系统,更重要的是,它让这种强大的能力可以直接运行在用户的本地设备上。
这种端侧部署的能力直接解决了云端模型面临的三大痛点:响应延迟、隐私泄露风险以及高昂的推理成本。
Fara-7B 的出现,不仅仅是一个新模型的发布,更是微软在探索小语言模型(SLMs)潜力过程中的一个重要里程碑,它向我们展示了只要有高质量的数据和精巧的设计,小模型也能处理极其复杂的现实任务。
纯视觉感知重构人机交互逻辑
Fara-7B 的核心设计理念是模仿人类的交互方式。
在过去的许多尝试中,计算机代理往往依赖于网页背后的代码结构,例如无障碍树(Accessibility Trees)或 HTML DOM 结构,来理解屏幕上的内容。
这种方式虽然能获取结构化数据,但往往受限于网页代码的规范程度,且与人类真实的视觉体验存在巨大差异。
Fara-7B 摒弃了这些辅助手段,它完全依赖视觉感知。
模型接收的输入就是屏幕截图,就像人的眼睛看到的一样。它不需要解析代码,而是直接通过分析像素信息来预测操作。
这种工作模式要求模型具备极强的视觉-语言对齐能力。
Fara-7B 基于 Qwen2.5-VL-7B 构建,这使得它天生具备了处理长达 128k token 上下文的能力,并且在视觉定位方面表现优异。
在执行任务时,Fara-7B 会将当前的用户指令、历史操作记录以及最近的三张屏幕截图作为输入上下文。
通过处理这些信息,模型会输出一个包含推理过程的思考链,随后调用具体的工具函数。
这些工具包括标准的 Playwright 鼠标键盘操作,如在特定坐标点击、输入文本,也包括浏览器层面的宏操作,如搜索或访问特定网址。
这种观察-思考-行动的闭环,使得 Fara-7B 能够以最直观的方式与数字世界互动。
不依赖底层代码的另一个巨大优势在于通用性。
无论网页的底层技术如何更新换代,只要它在屏幕上呈现的视觉元素符合人类的认知习惯,Fara-7B 就能理解并进行操作。
这种设计大大降低了模型对特定网页架构的依赖,使其在面对未曾见过的网站时,也能展现出良好的适应性。
为了实现这一点,微软的研究团队并没有采用强化学习来暴力试错,而是完全依靠监督微调(SFT),这背后依靠的是一条设计精妙的数据生成流水线。
依靠合成数据突破训练瓶颈
训练一个能操作计算机的 AI,最大的拦路虎是数据。
与文本生成不同,计算机操作的数据收集极其困难。一个简单的订机票任务,可能包含几十个步骤,每一步都需要精确的点击坐标和逻辑判断。
如果完全依赖人工标注,成本将是天文数字,且难以保证数据的一致性和规模。
Fara-7B 的成功,很大程度上归功于微软构建的一套基于 Magentic-One 框架的合成数据生成系统。

这套系统巧妙地避开了人工标注的陷阱,通过多智能体协作,自动化地生成了海量高质量的训练数据。
这个数据工厂的运作流程分为三个严密的阶段。首先是任务提案阶段,系统需要生成多样化的任务指令。
为了避免任务过于单一,研究人员使用了公共网页索引作为种子,涵盖了购物、旅游、餐厅预订等多个领域。
系统会根据网页内容反向生成特定的任务目标,例如根据一个电影院的页面,生成预订两张唐顿庄园大结局门票的具体指令。
这种从真实环境出发生成任务的方式,确保了训练数据的分布与现实世界的高度一致。此外,系统还会随机抽取 URL 来生成探索性任务,进一步拓宽了模型的技能边界。
接下来的任务求解阶段是整个流水线的核心。
这里引入了 Magentic-One 多智能体框架,由一个指挥官代理(Orchestrator)和一个冲浪者代理(WebSurfer)配合完成。
指挥官负责制定计划并监控进度,冲浪者则负责执行具体的浏览器操作并反馈结果。如果任务需要用户输入,系统甚至会调用一个用户模拟器代理来提供必要的信息。
这种分工明确的协作机制,能够模拟出极其复杂的多轮交互过程,并将这些过程记录下来,形成包含观察、思考、行动完整链路的轨迹。
最后也是最关键的一步是轨迹验证。
并不是所有自动生成的轨迹都是完美的,为了确保 Fara-7B 学到的是正确的操作逻辑,所有轨迹必须经过三个验证代理的严格审查。
一致性验证器检查操作是否偏离了用户意图,规则验证器根据预设标准给任务完成度打分,多模态验证器则通过分析最终的屏幕截图来确认任务是否真正完成。
只有通过这三重考验的轨迹,才会被纳入训练集。
最终,Fara-7B 在 14.5 万条经过严格筛选的轨迹上完成了训练,这些轨迹包含了超过 100 万个操作步骤,覆盖了极其广泛的网站类型和任务难度。
性能测评与成本效率的双重飞跃
评估一个计算机代理的能力远比评估聊天机器人复杂。
互联网是一个动态变化的环境,不同的时间、地点,甚至网站的反爬虫机制都会影响测试结果。
为了客观衡量 Fara-7B 的实力,微软不仅使用了 WebVoyager、Online-Mind2Web 和 DeepShop 等现有的权威基准,还专门开发了一个名为 WebTailBench 的新基准测试。
这个新基准专注于那些在传统测试中被忽视但对用户极具价值的长尾任务,比如复杂的求职申请、跨平台比价以及房地产搜索等。
测试结果令人印象深刻。

在 BrowserBase 提供的标准化测试环境中,Fara-7B 的表现不仅超越了同样体量的端侧模型 UI-TARS-1.5-7B,甚至在某些指标上击败了基于 GPT-4o 配合 Set-Of-Marks (SoM) 提示工程构建的庞大智能体系统。
数据显示,在 WebVoyager 测试中,Fara-7B 达到了 73.5% 的任务成功率,而 OpenAI 的 computer-use-preview 版本为 70.9%,GPT-4o (SoM) 仅为 65.1%。
在微软自研的 WebTailBench 这一涵盖更复杂现实任务的测试中,Fara-7B 同样以 38.4% 的成功率领跑,远超 UI-TARS 的 19.5%。
更值得关注的是效率与成本的平衡。
对于端侧模型而言,不仅要做对,还要做得快、做得省。

在同等推理价格(每百万 token 0.2 美元)下,Fara-7B 展现出了惊人的效率优势。
它完成一个任务平均仅需约 16 个步骤,而基于相同底座的 UI-TARS 模型则需要约 41 个步骤。
这意味着 Fara-7B 的思维更加敏捷,操作更加精准,不仅节省了用户的等待时间,也大幅降低了计算资源的消耗。
这种在准确率和成本之间取得的新平衡,打破了以往智能越高,成本越高的固有认知,证明了针对特定领域进行深度优化的精简模型完全可以挑战通用大模型的统治地位。
Fara-7B 在准确率与成本坐标系中的位置,它处于一条新的帕累托前沿上,意味着在同等成本下它提供了最高的准确率,或者在同等准确率下它消耗的成本最低。
这种极致的效能比,是让智能代理从实验室走向千家万户的关键门票。
安全机制构筑信任基石
让 AI 操控鼠标和键盘,直接涉及到现实世界的后果,如资金交易、信息发送等,因此安全性是 Fara-7B 设计中不可妥协的底线。
微软在训练过程中引入了关键点(Critical Points)的概念。
这是一种内置的安全刹车机制。模型被训练去识别那些涉及敏感操作的时刻,比如点击支付按钮、发送包含个人信息的邮件或确认预订。
当 Fara-7B 识别到这些关键点时,它不会擅自行动,而是必须暂停下来,向用户汇报当前情况并请求明确的批准。这种人在回路的设计,确保了最终的控制权始终掌握在用户手中。
除了主动的询问机制,Fara-7B 还经过了严格的红队测试和拒绝能力训练。
微软构建了一个包含 111 个高风险任务的测试集 WebTailBench-Refusals,涵盖了内容伤害、越狱攻击、甚至提示注入等多种潜在风险。
测试显示,Fara-7B 对有害任务的拒绝率高达 82%。这得益于训练数据中混合了大量的公共安全数据和内部生成的对抗性样本,教会了模型什么该做,什么绝对不能做。
在部署层面,微软强烈建议在沙盒环境中运行 Fara-7B。
这种隔离机制保证了即使模型出现意外行为,其影响范围也被限制在可控的安全区域内。
透明度也是安全的一环,Fara-7B 的所有操作步骤、推理过程都是可审计的日志,用户可以随时查看模型到底做了什么。
这种全方位的安全策略,旨在解决用户对 AI 代理失控的担忧,为大规模应用铺平道路。
无论是自动化日常琐事,如填写表单、查询信息,还是开发更专业的垂直领域应用,Fara-7B 都提供了一个强大的基座。
通过 Magentic-UI 这一研究原型界面,用户可以直观地看到 Fara-7B 如何感知网页、如何思考以及如何一步步完成任务。
虽然目前的版本在处理极度复杂的任务或面对非常规指令时仍有局限,也会出现幻觉或操作失误,但这正是开源社区介入的最佳时机。
随着多模态基础模型的持续进化,以及强化学习在真实和模拟环境中的应用,端侧代理的能力将得到进一步飞跃。
参考资料:
https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/
https://huggingface.co/microsoft/Fara-7B
https://github.com/microsoft/fara