「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活

新智元报道
新智元报道
【新智元导读】Voice Working来了!TRAE SOLO把「说话」变成主力干活方式,口语自动清洗、说错自动纠正、一句话调Skill切模式。
动动嘴就能指挥你的电脑干活了!
朋友们,现在要写个代码、处理几个文件连字都不用打啦。
你端着咖啡,靠在阳台椅子上,对着胸前一个硬币大小的麦克风说——
帮我整一个用户登录模块呗,手机号验证码、密码登录、微信登录都得有。安全这块注意下,输错3次就锁10分钟,密码记得加密存。接口返回的格式统一一下,顺便把日志和异常捕获也加上。
然后你喝了口咖啡,屏幕上就已经跑出了完整的代码框架,接口文档自动生成,测试用例一条没落。
这就是最近流行的Voice Working。
从此以后,嘴巴就是你的键盘。
最近,TRAE SOLO为了抓Voice Working这波趋势,居然和Insta360的麦克风Mic Air联名推出了一款套装。
我们拿到了这套组合,完整体验了一把。

相比起来,大多数语音转文字工具,本质上干的是「听写」的活儿。你说什么,它就原封不动地记什么。最后你看着一屏幕的语气词和断句混乱的文字,还得花时间自己整理,等于白忙活。
但TRAE SOLO完全不一样。
你说一堆口水话,智能结构化转录会帮你整理成结构清晰的可执行指令。
你说错了改口,语义理解与自动修正能识别你的自我纠正,只保留最终结论。
你说「调那个Skill」,功能语音直调就能帮你一句话切过去。
具体怎么个事,咱们来看一波实测。
比如你在工位上坐累了,想站起来走一走,同时把代码搞定。
只需要在领口磁吸上一枚硬币大小的Mic Air。它只有7.9克,戴上之后几乎感觉不到它的存在。

来回踱步时,脑子里转着一段代码,边想边说:
嗯你看一下这段Python代码啊,就是那个do_stuff函数,太乱了真的,啥都塞一块了,帮我重构一下吧。我大概说一下要求哈,先把这个大函数拆开,嗯,拆成三个吧,一个专门负责请求数据的、一个处理数据做分级的、还有一个写数据库加记日志的。不对,日志单独拆出来,拆成四个。就是职责分清楚点,别全堆一起。然后那个错误处理太乱了,到处都是try except和print,统一一下,改成自定义异常往外抛,哦对了,改成async await异步的,requests换成aiohttp那种。还有啊,注释加上,type hints加上,变量名别叫r、d、f这种鬼看得懂的名字,规范一点。那个score > 60写了两遍,SQL拼接也有注入风险,这些冗余的和有问题的逻辑都清理掉,参数化查询搞一下。对了单元测试也补上,pytest就行,差不多就这些。用Plan模式帮我规划一下。

这么长的口喷输出,连续说了好几分钟,中间没有一次断连。
值得一提的是,Mic Air传输几乎零延迟。
TRAE SOLO 一下子就能抓住重点,立即总结出结构化可以执行的指令。
所有英文的专业名词全部抓准。

接着,TRAE SOLO就会使用指令中提到的Plan模式,开始疯狂输出。

十分钟后再一看电脑,代码已经跑完了,就等你验收。
这里有个细节,我们说完「拆成三个」之后,又改成「不对,拆成四个」。
如果是传统的语音转文字工具,就会把前后两个版本都保留下来,AI不知道该听哪句。
而TRAE SOLO则能识别这种自我修正,自动保留最终结论,删掉被推翻的信息。说错了没关系,AI只留结论。
多端协同,任务不中断。你的踱步思考时间,变成了生产力。
除了改代码,TRAE SOLO还能帮你处理日常工作中的所有类型文件。
比如「帮我写个脚本调用FFmpeg,把这些视频批量转成H.265的1080p,音频提取出来存成MP3。对了,视频左下角把文件名印上去当水印,省得我弄混。调用那个批量处理的Skill。」

TRAE SOLO生成脚本、自动执行。
很快,不仅MP3和脚本完美完成,处理后的视频水印也都能按照要求加上去。
同样的场景,还可以用来批量重命名文件、批量压缩图片、批量加水印。以前需要找各种小工具拼凑的流程,现在一句话搞定。
值得一提的是「调用那个批量处理的Skill」这句,和前面重构代码时说的「用Plan模式」一样,这是TRAE SOLO的功能语音直调能力。
切模式、调Skill、换模型,不用找菜单,语音指令模糊匹配,开口就行。
写代码、处理文件,这些都是手头上的活儿。但工作中还有一类更日常的场景:老板突然甩过来的需求。
有个场景大家肯定不陌生。老板开会的时候脑子一转,冒出个想法,散会立马要结果。
现在,我们推门出来就可以趁热把老板的话复述一遍:
赶紧看一下用户反馈,大家都在抱怨啥,什么问题比较集中,最好能看出个比例来。反馈特别多的那种要单独拎出来……
TRAE SOLO拿到这段话之后,首先做的是口语清洗。语气词、重复、没说完的半句话,全部自动过滤。你拿到的是一段干净的、可以立刻交给AI执行的文本。
接下来,就是语义理解能力发威了。它不只是去掉噪音,而是真正听懂了你在说什么。
你说「反馈特别多的那种要单独拎出来」,它理解为高频问题提取。你说「有些人就是提个建议,有些是真用着不爽了」,它归纳为情感分类维度,建议类和负面体验类分开处理。
这些都是大白话到专业任务的语义跃迁,不是简单的语音转文字能做到的。
最终整理好的任务清单,可以说是既清晰又简洁:
分析用户反馈内容,按问题类型聚类并计算比例,提取高频问题单独标注,区分用户态度,生成含柱状图和饼图的Markdown报告,数据来源为用户上传的附件。

算下来,从开完会到出结果,大概三五分钟就搞定了。
输出的分析报告,从内容到图表,都相当丰富、细致,基本上是可以拿来就用的水平。


并且,所有结果都被自动存到了本地文件夹里,随时可以取用。

我要梳理一下AI Coding赛道,正好Cursor最近新闻挺多的。你帮我把核心功能、用户体验、商业模式这几块拆一下,补补竞品,然后做个对比表格,维度的话就功能差异、用户画像、怎么收费的……最后帮我总结一下壁垒在哪,还有潜在风险,模型依赖啊留存啊这些。
同样,口语清洗自动完成,「维度的话就」「模型依赖啊留存啊这些」这些口语碎片被过滤掉了。
另外,Cursor、AI Coding这些随口就蹦出来的英文,TRAE SOLO也一个没漏,中英夹杂说到底也能跟得上。
语义理解层面,它把一段意识流拆成了三个清晰的任务模块:
Cursor核心功能/体验/商业模式拆解、3-5个竞品对比表格(含功能差异、用户画像、收费模式、近两版本更新)、壁垒总结与风险建议。
刚说完,研究框架直接出来了。
就连前几天600亿美元被马斯克买断期权这事,都给你分析得明明白白的。

我们最后只需要再过一遍结果、调调细节,就可以交差了。
到这儿你可能会说,安安静静对着电脑说话,当然好使。那要是周围乱成一锅粥呢?
比如坐在网约车上,突然接到一个紧急需求。司机在放音乐,导航在播报,外面还有喇叭声。
这要是用笔记本内置麦克风,声音基本就全混一起了。
但现在,夹上Mic Air直接开口就行。

它具备48kHz采样率和全向拾音的能力,轻声说句指令都能精准捕捉。外加一键AI降噪,背景噪音几乎都能被压掉,只留人声。
有了这段清晰的语音,TRAE SOLO很快就处理成了干净的Prompt:
帮我写份PRD,明天上午跟研发需求评审用。这个功能的核心流程是:用户注册登录后创建项目,邀请同事协作,完成后导出报告。界面包含首页、项目列表、编辑页及设置页。需考虑网络超时、权限不足等异常情况,并设计埋点(分为用户行为类和页面维度曝光类)。
到家之后时候,一份结构完整的PRD已经在屏幕上等着你了。在Word里下载下来,稍微润色就能发给研发评审。

不得不说,TRAE这次确实是把语音办公当一条完整链路来打磨,从声音采集到智能转录,每一环都不掉链子。
而且这条路还在往前走。
TRAE SOLO预计4月底上线实时问答互动,你可以像跟同事聊天一样,和AI语音讨论问题,实时对话、实时转录。
今年以来,语音AI赛道突然变得异常拥挤。
IBM和Deepgram官宣合作,把语音能力嵌入企业级AI平台。
OpenAI的gpt-realtime持续迭代,实时语音对话已经做到了近乎人类水平的流畅度。
Google发布了Gemini 3.1 Flash Live,一个端到端的原生音频模型,能感知语气、语速、情绪,还支持90多种语言。
这些动作背后指向同一个趋势:语音正在从「辅助输入」升级为「主力交互」。
过去我们对语音交互的印象,大概还停留在对着手机喊「Hey Siri帮我定个闹钟」的阶段。
但现在的Voice Working,远不是这么简单的事。
它背后的核心逻辑是,人类最自然的表达方式就是说话,打字其实是一种「被迫的翻译」。
脑子里想的是一段连贯的思路,但你得把它拆成一个个字符,用手指一个个敲出来。
这中间的信息损耗和效率损失,远比我们以为的要大。
当语音识别的准确率足够高、语义理解足够深、响应速度足够快的时候,「说着干活」就不再是一个噱头。
而TRAE,是在AI Coding领域率先把这件事做到产品级的玩家。
随着TRAE SOLO的智能体已经能够自主拆解任务、调用工具、完成执行,人类的角色就从「操作者」变成了「决策者」。
决策者最自然的表达方式是什么?
是说话。
截至目前,TRAE的全球注册用户超过600万,月活突破160万,覆盖近200个国家和地区。
这一次语音输入功能的上线,加上和Insta360的联名硬件合作,等于把Voice Working从概念变成了一套完整的解决方案。软件端有智能转录、语义理解和功能直调,硬件端有专业级的无线收音保障。
今天,TRAE SOLO语音输入功能正式上线。
试试看,张嘴就能干活的感觉,用过就回不去了。