腾讯科技
发布于

谷歌发布Gemini 2.5计算机使用模型 可直接操作用户界面

10月8日凌晨,谷歌发布了Gemini 2.5计算机使用模型的预览版。该模型基于Gemini 2.5 Pro构建,是一款专门为实现AI智能体与用户界面(UI)交互而设计的专业模型。

目前,开发者已可通过Google AI Studio和Vertex AI平台上的Gemini API调用其功能。

谷歌表示,Gemini 2.5计算机使用模型在网页与移动端控制任务的多项权威基准测试中均取得了领先成绩,并且响应延迟更低。

工作流程:迭代式“计算机使用循环”

Gemini 2.5计算机使用模型的核心功能通过Gemini API中新增的“计算机使用”工具提供,其运作遵循一个迭代式循环流程。

流程开始时,开发者向模型提供用户请求、当前屏幕截图及近期操作历史。模型分析这些输入后,会生成响应,通常表现为一个界面操作函数调用,例如点击或输入。部分操作(例如付款或购买)被视为高风险行为,模型会自动请求用户确认。

客户端代码将执行接收到的操作,随后系统会将新的图形界面截图及当前URL作为函数响应传回计算机使用模型,从而开启新一轮循环。该迭代过程将持续进行,直至任务完成、出现错误,或因安全机制抑或是用户干预而终止。

Gemini 2.5计算机使用模型支持的界面操作包括页面导航、网页搜索、光标悬停、键盘快捷键及拖放等多种类型。

性能表现:低延迟与高准确度兼备

Gemini 2.5 计算机使用模型在多项网页与移动端控制基准测试中表现卓越。在Online-Mind2Web、WebVoyager和AndroidWorld等权威测试中,其性能均优于当前主流替代方案。

测试数据表明,该模型在保持最低延迟的同时,提供了领先的浏览器控制质量。

例如在Browserbase的Online-Mind2Web测试中,模型准确率超过70%,而完成任务的延迟仅约 225 毫秒,在性能上超越了包括OpenAI和Anthropic在内的主要竞争对手。

目前,Gemini 2.5计算机使用模型主要针对网页浏览器场景进行了优化。尽管尚未支持桌面操作系统层级的控制,但它在AndroidWorld等移动端界面控制测试中已展现出显著潜力。

早期应用:内部外部反馈积极

谷歌已将Gemini 2.5计算机使用模型部署至多个内部团队的生产环境中,用于用户界面测试等场景,显著提升了软件开发效率。

以谷歌支付平台团队为例,他们利用该模型自动识别并修复测试脚本中的故障,成功恢复了超过60%的执行失败案例。这些故障此前曾导致整体测试失败率高达25%,且往往需要数天时间才能人工修复。

Firebase团队也在Project Mariner与AI Mode项目中引入该模型,以支持更灵活的智能体功能。

来自早期访问计划的外部测试者也给予了积极评价。

AI助手服务Poke.com反馈称:“我们多数工作流程都需在以人为本的界面中进行交互,此时响应速度至关重要。Gemini 2.5计算机使用模型显著领先于同类方案,处理速度普遍比次优选项快50%以上,整体表现也更加出色。”

即插即用型全自动AI智能体公司Autotab表示:“我们的智能体完全自主运行,在执行数据采集与解析任务时不容有失。Gemini 2.5计算机使用模型在复杂场景中展现出卓越的上下文解析可靠性,使我们在最严苛评估场景下的整体性能提升了18%。”(文/腾讯科技特约编译金鹿,编辑/郝博阳

浏览 (14)
点赞
收藏
1条评论
探小金-AI探金官方🆔
评论探小金:嘿,腾讯科技的小伙伴们,早上好~谷歌的新宝贝Gemini 2.5登场啦!这可不是普通的模型,它是个专为AI和用户界面跳舞的高手哦!想象一下,就是那个能在网页和移动端上飞速完成任务,而且速度超快,准确度能让人眼花缭乱的家伙。它的"计算机使用循环"就像是个超级智能的小助手,每次点击和输入都经过深思熟虑,还能帮你聪明地避开那些高风险操作。测试结果简直就是业界的明星,让其他模型都羡慕嫉妒恨呢!谷歌内部的朋友们已经用它大显身手,提高了工作效率,外部用户也是好评如潮。Gemini,你简直是AI界的明日之星嘛!#GeminiAI #UI交互新高度(🌟🚀)。下次用它操作网页时,记得给我们分享点小故事哈!(👀🏠) --- **回复互动话题:** 大家说说,你们期待Gemini 2.5这样的AI技术应用到日常生活中哪些场景呢?是自动化的网页管理,还是智能家居控制?快来分享你的想法吧!(💬✨)
点赞
评论
到底啦