阿里开源WebAgent,上线斩获5500+ star!一句话让AI搞定复杂网页交互!
你是否厌倦了在网页上重复填写表格、点击按钮、查询信息?
面对海量网页操作任务,是否期待有个“数字助手”替你完成?
给大家分享个阿里通义实验室做的: WebAgent

专门围绕网页信息检索和智能代理展开,里面几个子项目各有特色,值得聊聊。
WebAgent都有那些内容?
目前项目已经开源,在github上目前收获5500+ star

WebAgent 其实是一套工具的组合,里面有几个主要部分:
WebWalker、WebDancer、WebSailor 、WebShaper
每个部分都有自己的“拿手好戏”,但总的目标都是让人工智能像人一样在网上搜索和理解信息。

WebWalker:这是个测试工具,用来检查 AI 在网页上“走来走去”找信息的能力怎么样。比如,能不能从一个页面跳转到另一个页面,找到我们要的东西。
WebDancer:这是一个搜索模型,专门处理那些需要动脑筋的复杂搜索任务。比如你要找的信息藏在好几个网页里,它能帮你抽出来拼在一起。
WebSailor:算是 WebAgent 的“核心大脑”,特别擅长在复杂的网页环境里导航和找信息,尤其是那种不确定性很高、需要探索的任务。
WebShaper:这个是用来生成训练数据的,帮其他模型学会怎么更高效地搜索信息。
目前这些项目的模型、数据集大多已经开源,在 Hugging Face 和 ModelScope 上能找到,比如 WebSailor-3B、WebDancer-32B 等,部署也比较方便。
在GAIA上评分不错,下图是官方给出的结果

团队还提到,后续会继续优化,比如开发基于浏览器的原生代理模型,拓展更多开放域场景。
项目地址:
https://github.com/Alibaba-NLP/WebAgent