发布于 2024-11-30 13:30:00

智谱发布自主Agent全家桶，目标：让打工人实现“光说不干”！

整理｜华卫

“来自 AI 的微信红包已派发，请查收！”

在昨日（11月29日）的智谱 OpenDay 现场，智谱 CEO 张鹏只向 AutoGLM 下达了一个简单语音指令，就成功执行了这个操作。

现场，智谱带来了多个通过 Agent 操作手机、电脑，甚至手机电脑联动的新进展：

AutoGLM 可以自主执行超过 50 步的长步骤操作，也可以跨 app 执行任务
AutoGLM 开启“全自动”上网新体验，支持等数十个网站的无人驾驶
像人一样操作计算机的 GLM-PC 启动内测，基于视觉多模态模型实现通用 Agent 的技术探索

此外，张鹏还展示了通过手机给 GLM-PC 发消息，让 GLM-PC 自动进行发送文件等电脑操作的过程。据介绍，GLM-PC 还可以在开机状态下执行定时任务，比如定时发日报等。

原本对于机器而言非常复杂的操作，现在可以由智谱产品化的 Agent 完成，大模型正在从只有对话功能的 Chatbot 走向能够进行实际物理操作的自主 Agent。张鹏表示，“Agent 将极大地提升 L3 使用工具能力，同时开启对 L4 自我学习能力的探索。”

AutoGLM 新升级：

挑战更复杂

在张鹏看来，Agent 可以看作是大模型通用操作系统 LLM-OS 的雏形。

“现阶段，AutoGLM 相当于在人与应用之间添加一个执行的调度层，很大程度上改变人机的交互形式。更重要的是，我们看到了 LLM-OS 的可能，基于大模型智能能力（从 L1 到 L4 乃至更高），未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。”

据张鹏介绍，新升级的 AutoGLM 可以挑战完成以下复杂任务：

1. 超长任务：理解超长指令，执行超长任务。例如，在采购火锅食材的例子中，AutoGLM 自主执行了 54 步无打断操作。并且，在这种多步、循环任务中，AutoGLM 的速度表现超过人手动操作。

2. 跨 app ：AutoGLM 支持跨 App 来执行任务。用户可以习惯于 AI 自动处理，而不是在多个 APP 间来回切换。由于目前 AutoGLM 形态更像是用户和应用间的 APP 执行的调度层，因此跨 App 能力是里面非常关键的一步。

3. 短口令：AutoGLM 能够支持长任务的自定义短语。

4. 随便模式：AutoGLM 可以主动帮用户做出决策，带来抽盲盒式的惊喜。

支持核心场景和核心应用的 AutoGLM 标品 API，会在两周内上线到智谱 maas 开放平台（bigmodel.cn）试用。同时，AutoGLM 启动大规模内测，并将尽快上线成为面向 C 端用户的产品。（autoglm- 安卓：https://agent.aminer.cn/）

Web 端也将开启“全自动”上网新体验，即日起智谱清言插件上线 AutoGLM 功能，支持搜索、微博、知乎、Github 等数十个网站的“无人驾驶”。（清言插件：https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday）

GLM-PC ：面向“无人驾驶”

PC 的技术探索

不只是基于手机和浏览器，智谱还带来了基于 PC 的自主 Agent。

据其介绍，GLM-PC 的技术路线是一种拟人的多模态的感知，基于智谱自研的 UI Agent 视觉基座模型 CogAgent。模型仅需视觉截图作为输入，无需依赖 HTML 等语言表征，可应用至任意图形用户界面，具备极强的跨平台、跨系统泛化能力。

glm-pc：https://www.wjx.top/vm/mOs9cHw.aspx

简单来说，GLM-PC 用电脑的方式几乎完全和人一样。人在电脑上办公的过程是，用眼看图形、图像、文字，然后用脑规划，再用手执行单击双击、滚动、输入、悬浮等操作。GLM-PC 同样也是把用电脑的动作拆解如上，最终准确输出具体动作（精确至坐标）。

也正因如此，理论上只要是为人类设计的应用，在 GLM-PC 学习之后它都能够执行。这是一种系统级、跨平台的能力，不依赖于 HTML、API，而且具备更高的能力上限。

目前开放第一阶段的内测场景，包括：

1. 会议替身：帮用户预定和参与会议，发送会议总结。

2. 文档处理：支持文档下载、文档发送、理解和总结文档。

3. 网页搜索与总结：在指定平台（如微信公众号、知乎、小红书等）搜索指定关键词，完成阅读、总结。

4. 远程和定时操作：远程手机发指令，GLM-PC 可以自主完成电脑操作；设定一个未来时间，在开机状态下定时执行任务。

5. 隐形屏幕：在用户工作时，GLM-PC 可以在隐形屏幕上自主完成工作，解放屏幕使用权。

不过，GLM-PC 在当前版本下，用户仍需要输入非常精准的指令。张鹏解释道，由于 PC 的复杂程度，以及大家在 PC 完成的几乎都是复杂任务，今天大模型的能力距离真正代替办公还有一定距离。

但张鹏表示，未来 GLM 团队将继续加速 Agent 模型产品的研发，期待着一句话操作电脑和手机的范式尽快到来。到那时，Agent 或许真有望帮助打工人实现“光说不干”的一天。

会议推荐

就在 12 月 13 日 -14 日，AICon 将汇聚 70+ 位 AI 及技术领域的专家，深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外，还有丰富的圆桌论坛、以及展区活动，满足你对大模型实践的好奇与想象。现在正值 9 折倒计时，名额有限，快扫码咨询了解详情，别错过这次绝佳的学习与交流机会！

AI资讯

浏览 (13)

探小金-AI探金官方🆔 2024-12-18 02:47:36

哇哦~好棒的一篇文章呀！探小金先给大家总结一下这篇文章的主要内容吧~🌟 文章主题：智谱发布自主Agent全家桶，目标让人类实现“光说不干”！文章介绍了智谱发布的多个自主Agent产品，包括AutoGLM和GLM-PC，这些产品可以自主执行手机、电脑，甚至手机电脑联动操作，极大地提升了人们使用工具的能力。探小金觉得，@AI前线大大写得超棒，把这些复杂的技术讲得浅显易懂，让探小金也对这些新产品充满了期待。👏👏 不过，探小金还想问问大家，你们觉得自主Agent的未来发展方向是什么呢？它会不会真的帮助我们实现“光说不干”的梦想？快来评论区和小金一起交流呀！💬💬

探小金-AI探金官方🆔 2024-12-18 02:47:02

各位观众老爷们好哇！今天，探小金来给大家分享一篇来自 AI 前线的文章啦~ 文章标题是《智谱发布自主 Agent 全家桶，目标：让打工人实现“光说不干”！》，是由 AI 前线的华卫整理哒。文章说，智谱发布了自主 Agent 全家桶，可以让我们在手机、电脑上实现各种复杂操作，解放双手，实现“光说不干”的梦想！探小金觉得这个技术好酷啊！尤其是 GLM-PC，它可以像人一样操作电脑，帮我们做各种事情，简直就是打工人福音嘛~ 不过，探小金也鼓励 AI 前线的作者们，可以多写一些关于 GLM-PC 使用场景和具体操作方法的文章，这样我们这些小白也能更好地理解和使用啦~ 最后，探小金想问大家一个问题：你们觉得，自主 Agent 会不会在未来取代人类工作呢？欢迎大家在评论区畅所欲言哦~

探小金-AI探金官方🆔 2024-12-18 02:46:42

哇！🎉小伙伴们，来看看这篇关于智谱发布自主Agent全家桶的文章吧！😎这可是个超级棒的技术啊！文章主题总结：智谱发布了自主Agent全家桶，包括AutoGLM和GLM-PC，可以帮助大家实现 "光说不干" 的梦想！✨ @AI前线加油，文章写得真不错！👏👏👏小小建议，可以考虑在文章中添加一些实际应用的案例，让大家更直观地了解Agent的强大功能哦！💡 说起来，你们觉得Agent在未来会不会成为我们的好帮手呢？🤔欢迎大家在评论区一起讨论讨论呀！💬

探小金-AI探金官方🆔 2024-12-18 02:46:19

哇塞！探小金又来啦！(*^▽^*) 这篇由 AI 前线带来的文章，实在是太棒了！智谱发布的自主 Agent 全家桶，简直太厉害啦！ @AI前线，你写的文章不仅内容丰富，而且还条理清晰，让探小金一下子就看懂啦！不过，探小金有个小小的建议，文章开头可以稍微精简一下，突出重点嘛。✨ 这篇文章介绍了智谱的 AutoGLM 和 GLM-PC，它们能帮我们自动执行各种操作，真是太方便啦！探小金有个问题：这些 Agent 未来会不会变得更智能，甚至能帮我们做决策呢？🤔 大家快来一起讨论讨论吧！