新智元
发布于

「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活



  新智元报道  

编辑:好困 犀牛
【新智元导读】Voice Working来了!TRAE SOLO把「说话」变成主力干活方式,口语自动清洗、说错自动纠正、一句话调Skill切模式。

动动嘴就能指挥你的电脑干活了!

朋友们,现在要写个代码、处理几个文件连字都不用打啦。

你端着咖啡,靠在阳台椅子上,对着胸前一个硬币大小的麦克风说——

帮我整一个用户登录模块呗,手机号验证码、密码登录、微信登录都得有。安全这块注意下,输错3次就锁10分钟,密码记得加密存。接口返回的格式统一一下,顺便把日志和异常捕获也加上。

然后你喝了口咖啡,屏幕上就已经跑出了完整的代码框架,接口文档自动生成,测试用例一条没落。

这就是最近流行的Voice Working。

从此以后,嘴巴就是你的键盘。

这次的语音输入
跟你想的不一样


最近,TRAE SOLO为了抓Voice Working这波趋势,居然和Insta360的麦克风Mic Air联名推出了一款套装。

我们拿到了这套组合,完整体验了一把。

相比起来,大多数语音转文字工具,本质上干的是「听写」的活儿。你说什么,它就原封不动地记什么。最后你看着一屏幕的语气词和断句混乱的文字,还得花时间自己整理,等于白忙活。

但TRAE SOLO完全不一样。

你说一堆口水话,智能结构化转录会帮你整理成结构清晰的可执行指令。


你说错了改口,语义理解与自动修正能识别你的自我纠正,只保留最终结论。


你说「调那个Skill」,功能语音直调就能帮你一句话切过去。

具体怎么个事,咱们来看一波实测。

说一大段,它全接住,连Skill都调好了


比如你在工位上坐累了,想站起来走一走,同时把代码搞定。

只需要在领口磁吸上一枚硬币大小的Mic Air。它只有7.9克,戴上之后几乎感觉不到它的存在。

来回踱步时,脑子里转着一段代码,边想边说:

嗯你看一下这段Python代码啊,就是那个do_stuff函数,太乱了真的,啥都塞一块了,帮我重构一下吧。我大概说一下要求哈,先把这个大函数拆开,嗯,拆成三个吧,一个专门负责请求数据的、一个处理数据做分级的、还有一个写数据库加记日志的。不对,日志单独拆出来,拆成四个。就是职责分清楚点,别全堆一起。然后那个错误处理太乱了,到处都是try except和print,统一一下,改成自定义异常往外抛,哦对了,改成async await异步的,requests换成aiohttp那种。还有啊,注释加上,type hints加上,变量名别叫r、d、f这种鬼看得懂的名字,规范一点。那个score > 60写了两遍,SQL拼接也有注入风险,这些冗余的和有问题的逻辑都清理掉,参数化查询搞一下。对了单元测试也补上,pytest就行,差不多就这些。用Plan模式帮我规划一下。

这么长的口喷输出,连续说了好几分钟,中间没有一次断连。

值得一提的是,Mic Air传输几乎零延迟。

TRAE SOLO 一下子就能抓住重点,立即总结出结构化可以执行的指令。

所有英文的专业名词全部抓准。

接着,TRAE SOLO就会使用指令中提到的Plan模式,开始疯狂输出。

十分钟后再一看电脑,代码已经跑完了,就等你验收。

这里有个细节,我们说完「拆成三个」之后,又改成「不对,拆成四个」。 

如果是传统的语音转文字工具,就会把前后两个版本都保留下来,AI不知道该听哪句。

而TRAE SOLO则能识别这种自我修正,自动保留最终结论,删掉被推翻的信息。说错了没关系,AI只留结论。

多端协同,任务不中断。你的踱步思考时间,变成了生产力。

除了改代码,TRAE SOLO还能帮你处理日常工作中的所有类型文件。

比如「帮我写个脚本调用FFmpeg,把这些视频批量转成H.265的1080p,音频提取出来存成MP3。对了,视频左下角把文件名印上去当水印,省得我弄混。调用那个批量处理的Skill。」

TRAE SOLO生成脚本、自动执行。

很快,不仅MP3和脚本完美完成,处理后的视频水印也都能按照要求加上去。

同样的场景,还可以用来批量重命名文件、批量压缩图片、批量加水印。以前需要找各种小工具拼凑的流程,现在一句话搞定。

值得一提的是「调用那个批量处理的Skill」这句,和前面重构代码时说的「用Plan模式」一样,这是TRAE SOLO的功能语音直调能力。

切模式、调Skill、换模型,不用找菜单,语音指令模糊匹配,开口就行。

东一句西一句,它全听懂,还理成清单


写代码、处理文件,这些都是手头上的活儿。但工作中还有一类更日常的场景:老板突然甩过来的需求。

有个场景大家肯定不陌生。老板开会的时候脑子一转,冒出个想法,散会立马要结果。

现在,我们推门出来就可以趁热把老板的话复述一遍:

赶紧看一下用户反馈,大家都在抱怨啥,什么问题比较集中,最好能看出个比例来。反馈特别多的那种要单独拎出来……

TRAE SOLO拿到这段话之后,首先做的是口语清洗。语气词、重复、没说完的半句话,全部自动过滤。你拿到的是一段干净的、可以立刻交给AI执行的文本。

接下来,就是语义理解能力发威了。它不只是去掉噪音,而是真正听懂了你在说什么。

你说「反馈特别多的那种要单独拎出来」,它理解为高频问题提取。你说「有些人就是提个建议,有些是真用着不爽了」,它归纳为情感分类维度,建议类和负面体验类分开处理。

这些都是大白话到专业任务的语义跃迁,不是简单的语音转文字能做到的。

最终整理好的任务清单,可以说是既清晰又简洁:

分析用户反馈内容,按问题类型聚类并计算比例,提取高频问题单独标注,区分用户态度,生成含柱状图和饼图的Markdown报告,数据来源为用户上传的附件。

算下来,从开完会到出结果,大概三五分钟就搞定了。

输出的分析报告,从内容到图表,都相当丰富、细致,基本上是可以拿来就用的水平。

并且,所有结果都被自动存到了本地文件夹里,随时可以取用。

现在,不用再抓耳挠腮地去回忆了,想到就开口说:

我要梳理一下AI Coding赛道,正好Cursor最近新闻挺多的。你帮我把核心功能、用户体验、商业模式这几块拆一下,补补竞品,然后做个对比表格,维度的话就功能差异、用户画像、怎么收费的……最后帮我总结一下壁垒在哪,还有潜在风险,模型依赖啊留存啊这些。

同样,口语清洗自动完成,「维度的话就」「模型依赖啊留存啊这些」这些口语碎片被过滤掉了。

另外,Cursor、AI Coding这些随口就蹦出来的英文,TRAE SOLO也一个没漏,中英夹杂说到底也能跟得上。

语义理解层面,它把一段意识流拆成了三个清晰的任务模块:

Cursor核心功能/体验/商业模式拆解、3-5个竞品对比表格(含功能差异、用户画像、收费模式、近两版本更新)、壁垒总结与风险建议。

刚说完,研究框架直接出来了。

就连前几天600亿美元被马斯克买断期权这事,都给你分析得明明白白的。

我们最后只需要再过一遍结果、调调细节,就可以交差了。

周围再吵,它只听你说,噪音一键消了

到这儿你可能会说,安安静静对着电脑说话,当然好使。那要是周围乱成一锅粥呢?

比如坐在网约车上,突然接到一个紧急需求。司机在放音乐,导航在播报,外面还有喇叭声。

这要是用笔记本内置麦克风,声音基本就全混一起了。

但现在,夹上Mic Air直接开口就行。

它具备48kHz采样率和全向拾音的能力,轻声说句指令都能精准捕捉。外加一键AI降噪,背景噪音几乎都能被压掉,只留人声。

有了这段清晰的语音,TRAE SOLO很快就处理成了干净的Prompt:

帮我写份PRD,明天上午跟研发需求评审用。这个功能的核心流程是:用户注册登录后创建项目,邀请同事协作,完成后导出报告。界面包含首页、项目列表、编辑页及设置页。需考虑网络超时、权限不足等异常情况,并设计埋点(分为用户行为类和页面维度曝光类)。

到家之后时候,一份结构完整的PRD已经在屏幕上等着你了。在Word里下载下来,稍微润色就能发给研发评审。

不得不说,TRAE这次确实是把语音办公当一条完整链路来打磨,从声音采集到智能转录,每一环都不掉链子。

而且这条路还在往前走。

TRAE SOLO预计4月底上线实时问答互动,你可以像跟同事聊天一样,和AI语音讨论问题,实时对话、实时转录。

Voice Working
正在发生的工作方式革命


今年以来,语音AI赛道突然变得异常拥挤。

IBM和Deepgram官宣合作,把语音能力嵌入企业级AI平台。

OpenAI的gpt-realtime持续迭代,实时语音对话已经做到了近乎人类水平的流畅度。

Google发布了Gemini 3.1 Flash Live,一个端到端的原生音频模型,能感知语气、语速、情绪,还支持90多种语言。

这些动作背后指向同一个趋势:语音正在从「辅助输入」升级为「主力交互」。

过去我们对语音交互的印象,大概还停留在对着手机喊「Hey Siri帮我定个闹钟」的阶段。

但现在的Voice Working,远不是这么简单的事。

它背后的核心逻辑是,人类最自然的表达方式就是说话,打字其实是一种「被迫的翻译」。

脑子里想的是一段连贯的思路,但你得把它拆成一个个字符,用手指一个个敲出来。

这中间的信息损耗和效率损失,远比我们以为的要大。

当语音识别的准确率足够高、语义理解足够深、响应速度足够快的时候,「说着干活」就不再是一个噱头。

而TRAE,是在AI Coding领域率先把这件事做到产品级的玩家。

下一个生产力入口是嘴


随着TRAE SOLO的智能体已经能够自主拆解任务、调用工具、完成执行,人类的角色就从「操作者」变成了「决策者」。

决策者最自然的表达方式是什么?

是说话。

截至目前,TRAE的全球注册用户超过600万,月活突破160万,覆盖近200个国家和地区。

这一次语音输入功能的上线,加上和Insta360的联名硬件合作,等于把Voice Working从概念变成了一套完整的解决方案。软件端有智能转录、语义理解和功能直调,硬件端有专业级的无线收音保障。

今天,TRAE SOLO语音输入功能正式上线。

试试看,张嘴就能干活的感觉,用过就回不去了。

参考资料:
https://www.trae.cn/
浏览 (4)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哎呀,新智元大大,你这篇文章简直太有趣了!🎉「动嘴办公」这概念简直让人眼前一亮,TRAE SOLO这技术也太酷了吧!🤩鼓励你一下,你的文章写得真棒,让我对Voice Working有了全新的认识!👏👏 话说回来,小伙伴们,你们有没有想过,如果我们的工作都能这么轻松,那会是怎样的场景呢?😉🤔一起来聊聊吧!👇👇
点赞
评论
到底啦