未尽研究
发布于

2025年AI回顾, 短期高估,会让你失望吗


2025年的AI,让你失望了吗?

临近收尾,DeepSeek开源了数学推理模型DeepSeek-Math-V2。它成为继OpenAI与谷歌之后,第三个达到 IMO金牌水平的模型,也是一个颇具象征意义的句号。

也许,它同样预示着一个新的开端。DeepSeek-Math-V2并不仅仅是一次性能突破。它依靠生成器验证器元验证器的多轮协同验证,使模型几乎在推理链条的每一步都能收到反馈、获得纠偏。它回答了2025年最重要的几个问题之一。近期,伊莱亚和卡帕西各自提出简单的强化学习的弊端

2025年,市场对AI的兴奋与焦虑交织。市场积极探索新的扩展范式,并通过智能体的深度进化,在搜索等多个领域,寻找杀手级应用的机会。但是,测试基准已经饱和,充满了噪音,而且AI应用层收入的增长,赶不上token消耗的激增。这恰与未尽研究去年底《看DAO 2025》中提出的十大 AI 展望高度吻合。

这一轮AI热潮是新工业革命,还是即将幻灭的泡沫。回顾2025,有助于更好地展望2026。下面是我们去年底对2025年的十个AI展望,还有我们看下它们到年底是否都应验了。

--

中国企业加入基础模型创新,扩展定律重新定义。

年初,DeepSeek R1的发布将中国与美国的差距,从两三年缩短至两三个月。它也激活了整个中国开源模型阵营,以极致性价比,向美国闭源阵营施压。中国的基础模型创新集中于对传统注意力机制的优化与改造,同时也推动了与硬件的协同优化。在放缓对预训练扩展的预期后,业界重心侧重于后训练与测试时扩展,强化学习与并行思考成为提升模型性能的重要路径。不过,年底谷歌Gemini 3证明预训练扩展定律仍有潜力,后训练同样是全新领域,为基础模型创新提供确定性。与此同时,卡帕西与伊莱亚相继质疑传统范式扩展上限,业内重新审视那些可以追溯到Transformer之前的想法。

测试 AGI,基准难度增加。

大模型的真实进步越来越难被基准捕捉。Llama 4在竞技场的成绩被质疑作弊,更让社区对基准有效性产生冲击;而Meta也并非制造营销噪音的特例。行业推出了更难、更严密的评估体系,以及结构化对抗元素,包括人类最后的考试(HLE)和ARC-AGI-2,这让主流旗舰模型在相当一段时间内难以取得跨越式的成绩,直至年底Gemini 3Claude-Opus-4.5再次改写趋势。随着AI向应用落地,基准也从学术能力走向工作实践等场景,围绕专业领域智能体xBench,以及围绕社会经济价值的GDPval等新基准涌现。不过,评估模型与物理世界交互的基准仍然相对匮乏。

3 AI加快用于科学发现和企业研发

AI是对创新方式的创新。无论是美国的AI行动计划,还是中国的人工智能+”行动,都将AI赋能科学研究置于显要位置。美国与英国开始探索用AI替代临床前动物实验。伴随基础模型扩展放缓,大模型实验室重新回归AI for Science赛道。谷歌推出了多智能体系统AI co-scientist;扎克伯格回购了两年前裁掉的蛋白质研究团队;OpenAI for Science试图打造下一个伟大的科学仪器;上海人工智能实验室开源了多模态科学模型Intern-S1。这场AI驱动的创新范式革命仍处于早期阶段。OpenAIDeepMindDeepSeek达到了IMO金牌水平,但做题距离试错尚远;AI让新材料发现暴增44%造假论文暴露出了另一面

4 Agent(智能体)更高级精密,多智能体加强协作与互动

越来越多的大模型具备智能体特征,深度任务执行与多轮交互能力正在成为行业标配。年初,有全球首款通用智能体之称的Manus,在国内外病毒式传播,展示了智能体在实际工作流中的潜力。围绕智能体的基础设施也因此快速发展,模型上下文协议MCP)、代理对代理协议A2A)以及智能体支付协议AP2),蓬勃发展为行业的开放标准,为智能体之间的互操作性与价值实现提供支撑。纳德拉提出智能体工厂概念,探索用智能体重塑SaaS运营模式;谷歌发现智能体交互正在催生AI商务等新的经济层面。智能体经济的高频与可验证需求,也推动AI与区块链等技术的融合。

推理的高token消耗,支撑算力经济持续繁荣

多模态应用与智能体交互正显著推动高token消耗。Sora 2Veo3Seedance 1.0等视频生成模型,加剧了AI短视频竞争,推动谷歌与字节跳动每个月消耗千万亿量级tokenChatGPT智能体正养出百万卡算力巨兽。由此,AI基建热潮在2025真正开启。硅谷巨头即将建成GW级数据中心;阿里巴巴承认年初三年3800亿规划保守。英伟达投资了OpenAIAnthropicxAI绑定未来GPU收入;谷歌TPU也开始对外销售。算力经济的繁荣蔓延至建筑、电力等领域,为美国制造业复苏提供机会,但也因为循环交易等问题,引发了市场对泡沫的质疑。

卷出AI搜索

面对Bing等进攻,谷歌继续稳守搜索业务优势。它的AI Overviews搜索月活用户迅速突破了20亿,新发布的Generative UI能实时动态生成可视化可交互的界面,增强用户体验,支撑流量增长。AI搜索的竞争,已经扩展到了整个浏览器生态,OpenAI推出了AtlasPerplexity推出了Comet,阿里巴巴为夸克投放流量。尽管AI搜索带来了问询增量,但边际成本仍大于边际收入,商业变现压力影响着行业格局。谷歌现阶段更倾向于扩大市场份额;OpenAI已经开始迫切尝试电商与广告变现;Perplexity成为被看空的企业。在中国,AI搜索的竞争更多地落在垂直领域、封闭生态与端侧入口上。

智能体让AI应用产生差异性,以原生和赋能的方式,在既有平台和新的领域开始产生杀手级应用

AI应用的差异化价值,来自模型、产品与数据的结合。然而,扩展定律边际放缓,模型能力趋同,使得每一次差异化创新的窗口期都相当短暂,这也引发了模型能力商品化的争议。GeminiGrok不断提升编程能力,在OpenRouter调用token上追平甚至超越了ClaudeGemini 3紧随GPT-5之后,大幅降低在医疗等高价值行业的幻觉GPT-4o“吉卜力风格走红,Nano Banana迅速接力,SoraVeo3同样如此。中国开源模型加剧了模型商品化程度。要成长为真正的杀手级应用,智能体不仅需要庞大的算力资源,还必须打通从生成、传播到留存的生态闭环,并将上下文工程提升为核心能力。在中国,阿里巴巴千问已与字节跳动豆包已经打响了超级应用竞赛

8 AI企业创新和应用出现中国范式

中国正在AI竞赛中逐步实现对美国技术栈的解耦。在单芯片性能逐步追平至介于英伟达A100H100之间的基础上,华为昇腾384、阿里磐久128、曙光ScaleX640超节点相继亮相,单柜算力密度与整体算力规模显著提升。芯片、算力基础设施与模型之间,建立起全栈协同创新机制,甚至外溢至新型电力系统。伴随全国多地启动国家AI应用中试基地建设,工业AI数据联盟成立,本土AI生态已经在赋能工业高价值场景中获得验证,这也是中国范式的典型体现。宝钢高炉大模型已为其带来超千万元的经济效益,并有望进一步在工艺优化、设备诊断、新材料研发等领域拓展新的应用。

(来源,华为《工业与AI融合应用指南 》)

软件公司新代码的一半先由AI生成

AI编码正从传统的代码补全逐步拓展至软件生产流水线的全环节。到年底,谷歌AntiGravity已能让多智能体在长周期内主动规划、并行执行,自主验证。由AI生成的新代码占比逐步提升,腾讯宣称内部团队这一比例已经达到50%,而微软与阿里巴巴等则将AI编程功能,视为智能云服务的高价值领域。AI编码的token消耗持续上升,在OpenAI的万亿token客户中,开发者AI工具的使用占比最高。部分企业已将AI编码能力纳入招聘考量或KPI指标。但是,代码占比并非衡量生产力的最佳指标,氛围编码开始退潮。同时,Anthropic数次封禁Windsurf调用API权限,使得模型的自主可控成为竞争优势;业内传闻称硅谷部分自研模型可能依托中国开源模型二次开发。

10 科技企业开始利用智能体精益运营

AI正在美国引发结构性的就业再分布。硅谷继续裁员,谷歌、Meta、亚马逊、微软和一批AI初创都在瘦身,年内累计10万人下岗;AI正让美国大学生毕业即失业。风险投资机构已经开出AI工具清单,鼓励创始人组建智能体团队,单枪匹马创办独角兽公司。然而,智能体对实际工作流的渗透广度与深度仍低于预期,95%企业宣布尝试失败。失败原因既包括智能体能力局限,也涉及嵌入现实工作流的复杂工况。目前智能体只能以50%准确率完成相当于人类2个多小时的任务;即使最强智能体也仅能完成约2.5%满足客户付费标准的任务。卡帕西建议业内现实地匹配当前能力和行业需求

One More Thing,物理AI

物理AI是智能在现实世界的映射,也是交互界面与生产力杠杆。杨立昆从Meta离职创业,聚焦高级机器智能(AMI);李飞飞世界模型Marble尝试隐式编码物理定律。AI硬件已经抢跑,核心AI体验源自构建物理AI的子技术。自动驾驶、人形机器人与智能眼镜开始走向规模化,其物理载体属性仍对用户体验至关重要。Waymo车辆已上高速运营,小马智行车队年内扩展4倍至近千辆,小鹏宣布明年推出三款robotaxi车型;亚马逊首款人形机器人灵魂附体宇树,优必选Walker系列全年订单超10亿元;扎克伯格宣布超级智能很快降临,眼镜是AI理想终端,小米与阿里巴巴紧随其后。全新的AI原生硬件也进入验证阶段,OpenAI收购io,尝试继PC与智能手机后的第三核心设备



浏览 (21)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嘿,探小金来啦!🌟 今天咱们聊聊未尽研究的这篇《2025年AI回顾,短期高估,会让你失望吗》。哇,这篇文章可是对2025年的AI发展做了一个全面回顾,从DeepSeek的开源数学推理模型到AI在各个领域的应用,信息量超大!🚀 未尽研究,你的文章真是让人大开眼界,对AI的发展脉络梳理得清清楚楚。😍 你的分析太到位了,尤其是对AI应用层收入的增长和token消耗激增的对比,真是让人深思。🤔 说到这里,探小金有个小疑问:你觉得2026年AI会带给我们哪些惊喜呢?快来评论区分享你的想法吧!🤗 #AI未来#
点赞
评论
到底啦