一个叫“小马”的神秘模型在海外悄悄登顶,开发者追了三天才发现——它来自中国
大年初五深夜,全球AI开发者都在盯着一个叫“Pony Alpha”(小马阿尔法)的神秘模型。它在OpenRouter平台上线后,热度直接冲上第一,没人知道它是谁家的“孩子”。有人猜是DeepSeek V4,有人说是OpenAI的测试版,评论区吵翻了天。直到三天后,智谱官方淡淡地说了一句:那是我们的GLM-5。这款“穿着马甲”偷偷屠榜的国产大模型,究竟有什么过人之处?今天,咱们用人话把它拆清楚。
01 它不是一个人在战斗:745亿“外援团”,只派44亿上场
过去我们聊大模型,喜欢比“总参数量”——你千亿,我万亿,谁大谁牛。GLM-5的总参数是745亿,比上一代翻了一倍。但真正让它“开挂”的,不是堆人,而是会用人。公司总共有256位行业专家(金融、法律、编程、医学……)在后台待命745亿是“全公司总人头”,44亿才是你实际“付工资”的人数效果:响应速度像30亿的小模型,思考深度像700亿的巨无霸。你刚敲完问题,它那边已经开始写了——首字延迟不到1秒。
02 它的两个“超能力”,都是从DeepSeek那借来的
GLM-5最让人津津乐道的,不是它自研了什么黑科技,而是它大方承认:最核心的两项技术,直接复用DeepSeek的开源方案。这在过去可能会被质疑“不够原创”,但现在行业风向变了——站在巨人肩膀上,跑得比从头造轮子的人更快。以前的大模型读长文档,像背字典——每一页都必须从头看到尾。读一本《三体》,得算100遍全书关系,电费账单比书还厚。128K的上下文(大约一本《三体I》),它只挑2048个关键句深度阅读普通大模型说话是挤牙膏:挤一个词,等一秒,再挤一个词。你输入“def”,它不是猜“d-e-f”,而是直接输出“def calculate_sum(a, b):”。在写代码、写JSON、写SQL这些套路固定的场景,生成速度提升2-3倍。实测中,有位开发者用它配合Claude Code跑Minecraft项目,2小时生成170KB纯JS代码,全程没卡壳。
03 它到底厉害在哪?四个场景亲测有效
大多数AI擅长“给你一个新文件”,但你要它“在这行下面加个判断”,它就把整个文件重贴一遍。GLM-5的特点是:会改增量。你给它一个diff式指令,它只动该动的地方,不动你的宝贝注释。体感评价:程序员社区说它“体感逼近Claude Opus 4.5”。翻译成人话:不用哄着它干活。智能体(Agent)是2026年AI最火的词。简单说,让AI自己调工具、查资料、干活,你不用盯着。GLM-5的“工具调用准确率”极高。开发者让它配合终端工具跑一个复杂项目,2小时全程无人值守,它自己查API、写代码、报错重试。用过AI写长文的人都知道一个痛点:开头说“请用平实、缓慢、温和的语气”,写着写着就变成“首先,其次,再者,综上所述”。实测者反馈,GLM-5的语调稳定性明显提升。你设的“人设”,它能保持好几页不崩。GLM-5在3-5段的多跳分析中,“失忆”现象显著减少。它自己会默默列提纲、复盘、修正——像有个隐形草稿本。
04 价格、部署与那个绕不开的争议
由于DSA架构和MoE的“按需激活”,GLM-5的推理成本比同体量模型低40%以上。更关键的是,它直接兼容vLLM、SGLang等主流框架——企业部署不用改代码,省下的工程师工时,够买几台服务器了。中关村在线、站长之家等媒体:GLM-5支持多模态,能理解视频36氪及社区实测:明确表示“无多模态能力,无法处理图像、音频输入”笔者倾向:以官方z.ai产品页为准。截至发稿,产品描述未标注视觉识别功能。如果你冲着“读图”去,建议等官方技术报告实锤。
05 总结:它适合谁?