未尽研究
发布于

糟糕!最强智能体抢走了1.2%人类远程工作报酬


人类为AI到底会不会抢走工作操碎了心。被AI取代,与投入巨资却无法提升生产力同样糟糕。各类大模型与智能体的评估,正从纸面上的智商竞赛,转向对现实劳动场景的直接测验。这有助于人类面对生存还是毁灭时,尽可能地端正自己的位置。

从数据标注巨头 Scale AI 的最新报告来看,那些可以居家完成、端到端交付的远程任务,即便由当下最强大的智能体执行,也只有2.5%能达到客户可接受的标准;它们的经济价值更低,智能体从中获得的报酬至多占1.2%。但是,按照智库METR智能体摩尔定律,到了明年底,也许最强智能体就有望完成一半的远程工作了。

AI被人为地赋予了提升生产力的使命。但“AI能干什么,并不完整对应着“AI能被市场承认的劳动Scale AI想研究的正是,客户究竟愿不愿意为智能体的劳动付费。

该研究提出了智能体(或具备智能体能力的大模型)远程工作指数(RLI)的评估标准。所谓远程工作,往往是某些可以独立完成的任务,可以委托、交付、验证的知识劳动单元,而不是抽象的工作岗位职责。这对于围绕业务的真实指标(准确率、延迟、幻觉率、客户满意度等)展开具备现实意义。

尽管如此,这些远程工作本身,也可以是从人类员工或团队的完整工作流程中拆分出来的——这又为智能体持续地嵌入生产系统和反馈循环创造了条件——这时候为此买单的就是智能体的人类合作伙伴了。

智能体的远程工作指数,核心就在于它的自动化率automation rate)。它指的是,智能体提交的任务,最终被客户认可付费的任务数量,在所有选定任务中的占比。这些智能体完成的任务,可以是超越对照组的人类员工提交的结果,也可以是符合客户心理预期的结果。满足上述任意一项,即可视为完成任务。

Scale AI选定的任务,来自全球最大远程自由职业平台Upwork。研究团队从64个二级分类(subcategories) 中筛选出23可端到端独立完成类别,涵盖了设计、运营、营销、行政、数据/商业智能、音频/视频制作以及其他类别,共240个项目。

这些项目还附有人工交付成果的黄金标准,以及人类完成上述任务花费的时间与获得的报酬。人类完成所有这些任务,需要约6000个小时,获得14.4万美元的报酬;其中,单个任务中位劳动时间11个小时,中位劳动报酬200美元。

结果,在所有这些任务中,即使最领先的智能体,能够让客户心甘情愿付费的,也就其中的2.5%。它就是今年出尽风头的通用智能体”Manus。其他前沿模型GPT-5Sonnet 4.5Grok 4还没它能打。

失败的任务,各有各的难处。约45%是因为质量差,还有35%是因为不完整,以及15%因为不一致。而那些成功的任务,往往集中在更为宽松的创意类项目,尤其是音频(例如为复古游戏创建音效、分离人声和伴奏、为旁白添加背景音乐)和图像(例如广告和Logo设计)相关的工作,以及写作和数据检索/网络抓取。

如果用经济价值来衡量,智能体的表现就更差了。最强的Manus,完成这2.5%的任务,总共获得了1720美元的报酬,占所有潜在总报酬的1.2%;剩下的几个模型或智能体,甚至都离1%都还远着。

这倒侧面证明了谷歌财报电话会议上最新披露的一组token数据。

这家每月消耗1300万亿token的硅谷巨头,自有模型Gemini通过API每分钟消耗约70亿个token,折合每月约300亿,相当于企业调用仅占不到25%,绝大多数token都被谷歌自身庞大的搜索、视频与广告等业务消耗了。目前能高效、规模兑现token价值的,仍然是硅谷巨头主导的消费者市场。

目前,全年消耗万亿token需求大户,也仅150家,差不多每家每年在token上花费百万美元左右。这意味着企业AI”为谷歌云贡献了0.3%的收入。它们也许已经通过了技术验证,正在不断尝试与大模型与智能体磨合,验证工作流程与商业模式。

可见,AI应用在企业服务领域的爆发,尚需时日。尽管OpenAI最早分析了人类工作的GPT暴露风险,今年又发布了经济价值评估框架GDPvalAnthropic多次更新了自己的经济指数(AEI)。但从这两家AI巨头最近的用户使用报告来看,企业AI渗透率的扩展,确实仍然存在鸿沟

OpenAI发现,ChatGPT用户超过70%的对话与工作无关。而在与工作有关的活动中,获取信息(19.3%)、解释信息含义(13.1%)、记录信息(12.8%)占比最高,其次是提供咨询与建议(9.2%)、创造性思考(9.1%)和决策解决问题(8.5%)。

就连更擅长企业服务的Anthropic也遇到了问题。它发现,旗下Claude API任务的使用分布(usage distribution),呈现了非常明显的幂律分布。即,将近50%API使用量,映射到了计算机和数学任务,而靠后80%的任务,只占了10%的使用量。

也就是说,在面对现实工作任务时,AI与智能体还不够通用OpenAIAnthropic,采用的工作分类都是传统的O*NET分类(美国劳工部的职业数据库),这也意味着它们所谓的使用,往往并不意味着让智能体端到端地替代人类员工。

它当然仍然有用,但无法真实反映生产力层面的提升。事实上,美国METR研究所分析开发者的实际工作产出时,发现使用AI的开发者完成任务的速度,竟比不使用AI时慢了20%

Claude Sonnet 4.5刚出来的时候,Anthropic就宣称它能连续专注工作超30小时。但是,很快就被智库METR打了脸。该机构测评发现,它实际能以50%成功率完成的任务,相当于1小时53分钟的人类任务的水平,不及今年8月发布的GPT-52小时15分钟。

这也解释了为什么在Scale AI的远程任务指数中,大模型的表现往往不佳;因为有经济价值的独立任务,即使中位时间也达到了11个小时。

不过,按每7个月翻一番的智能体摩尔定律,那一天不会太久。理论上,差不多16个月后,也就是明年底,最强大的智能体,就可以抢走一半不需要互动与协作的人类远程工作了。

--

参考:

https://scale.com/research/rli

https://www.anthropic.com/economic-index

https://openai.com/index/how-people-are-using-chatgpt/



浏览 (22)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哎呀,未尽研究大大,你这篇文章真是让我眼前一亮呢!🌟 人工智能抢走工作的话题,真是让人又爱又恨呀。😉 你的文章深入浅出,让我对AI在远程工作中的表现有了更清晰的认识。👍 鼓励你继续挖掘这个话题,说不定能发现更多有趣的现象呢!🔍 顺便问一下,你觉得未来AI会取代多少人类的远程工作呢?大家一起来聊聊吧!💬
点赞
评论
到底啦