发布于 16小时前

端侧 AI 的定义权，面壁智能先拿下了

作者｜董道力
邮箱｜dongdaoli@pingwest.com

刚刚过去的 5 月最后一周，面壁智能做了一件在国内大模型行业颇为罕见的事：办了一场“开源周”，连续密集发布多项开源技术成果。

没有大屏幕，也没有 CEO 的激情演讲，只有一个接一个被推到台前的 GitHub 仓库。

过去三年，中国大模型行业不缺发布会，但真正以“开源周”形式集中释放技术成果的公司并不多。因为这件事的门槛并不低，你不能只有一个爆款模型，还得有一整条能够拆开给外界看的技术链路。

单看清单，面壁这一周发布的内容很容易被理解成一个“模型货架”，这里一个数据集，那里一个训练框架，再加上模型和应用项目。

但如果把它们放到一起看，会发现它们指向的不是几个孤立成果，而是一套正在成形的端侧 AGI 世界底座。

更值得注意的是，这件事发生在一个行业转向节点上。

2023 年，中国大模型公司还在比谁先做出基座模型；2024 年，行业开始卷 API 价格和应用入口；2025 年，端云协同、AI 终端和端侧模型逐渐成为共识；到了 2026 年，真正的问题已经不再是“有没有大模型”，而是这些模型能力如何进入手机、车机、PC、机器人和 AI 眼镜这些真实设备。

谁能把模型能力稳定地放进这些设备，谁才有机会定义下一代 AI 的入口。

面壁的特别之处在于，它不是等到端侧 AI 成为行业共识后才行动，而是在两年前就开始把小参数、高能力、低内存和端侧部署当成主线来押。

被误读的端侧 AI

端侧 AI 长期被两种误解包围。

一种说法认为，端侧 AI 就是小模型，把云端模型裁剪一下，参数少一点，能塞进手机、车机就行。另一种说法则认为，端侧 AI 只是云端 API 下放，终端不需要真的跑模型，只要联网调用云端能力。

但真正的端侧模型要面对三道硬约束：功耗、内存和场景。而面壁这次开源周的价值，就是把这些约束背后的工程能力全部公开。

第一道约束是功耗。

云端模型可以用数据中心供电和散热去换性能，终端设备不行。手机要续航，车机要在高温和长时间运行下保持稳定，AI 眼镜要轻薄。

所以端侧模型没有云端大模型那种用海量低质数据摊薄噪声的空间，每一份训练数据的质量都会更直接地影响模型能力。

面壁开源的 UltraData 解决的就是“模型越小，数据越要精”的问题。

UltraData 提出的 L0 到 L4 分级治理体系，本质上是在提高数据密度：L1 做基础清洗，L2 提高信息密度，L3 通过合成与增强强化知识表达和推理能力，L4 面向更高阶的数据编排。

这些数据最终指向的，不是训练一个更大的模型，而是训练一个单位参数智能密度更“高”的模型。

MiniCPM5-1B 证明的，正是这条路线已经可以落地。

面壁智能在 2024 年 12 月曾判断，2026 年会出现端侧 GPT-4o 级别的能力，而从 MiniCPM 到 MiniCPM3，再到 MiniCPM5-1B，端侧模型的演进也确实沿着这条曲线展开：2024 年对标 GPT-3，2025 年追近 ChatGPT，2026 年开始触碰 GPT-4o 部分版本的能力边界。

1B 参数不再是“小而将就”，而是智能密度提升后的结果。端侧模型真正重要的指标，不是参数量有多大，而是单位参数里压进了多少智能。

第二道约束是内存。

端侧推理不是 NPU 算力够就行。模型权重需要内存，KV Cache 需要内存，多模态中间状态也需要内存，内存带宽还会直接影响生成速度。

行业内共识是，端侧 AI 正在被“算力-内存剪刀差”卡住：芯片算力涨得很快，但内存容量、带宽和成本没有同步改善。

面壁智能开源周第一天发布的 BitCPM-CANN，正是面向这道内存约束的技术回应。面壁智能在华为昇腾平台上完成端到端训练，并开源了 1.58-bit 三值大模型，覆盖 0.5B、1B、3B、8B 四个尺寸。

所谓 1.58-bit，不是常规 2bit 量化，而是让每个权重只保留 -1、0、+1 三种状态。

与同尺寸 MiniCPM4 全精度模型相比，BitCPM-CANN 推理阶段只需要约原来 1/6 的显存，相当于节省 5/6 内存，同时保留 90% 到 97.2% 的模型能力。

这意味着，低比特模型可以解决大参数模型上端侧的问题。

2-bit 级压缩可带来约 6 到 8 倍存储收益，4GB 可用内存有机会容纳 16B 级模型，结合 MoE 和激活约束可推到 32B，如果设备内存扩展到主流的 8GB，60B 级的大模型装载到手机端也不是天方夜谭。

第三道约束是场景。

端侧设备要面对断网、弱网、隐私合规、毫秒级响应、多传感器输入。车机不能把每个请求都丢给云，手机里的个人数据不能无限上传，工业终端也常常处在网络不稳定、环境复杂的现场。

更现实的情况是，中国终端芯片生态高度分散。高通、联发科、华为昇腾、寒武纪、地平线等平台的架构和工具链都不一样，适配一款芯片和适配一个生态是两回事。

这也是面壁开源 ForgeTrain 的定位。

它不只是一个训练框架，更像是一套面向端侧模型生产的工程工具。端侧模型很少是“一次训练、到处部署”，不同设备、不同芯片、不同内存规格，都会要求模型在尺寸、精度、训练策略和推理路径上反复调整。一个团队能不能快速把实验结果变成可部署模型，训练框架本身就是关键变量。

ForgeTrain 的特殊之处在于，它是完全由 AI 编写的预训练框架。它在英伟达 H100 上的训练速度比主流 Megatron 快 10%，即使是在华为昇腾平台上，也比华为自己的 MindSpeed 框架快 10%。MiniCPM5-1B 的 Base Model 版本，也由 ForgeTrain 预训练完成。

这件事的意义，不只是“AI 制造 AI”完成闭环，而是训练基础设施的生产权开始发生变化。

过去，大模型训练很大程度上被英伟达的软件栈牵着走：芯片厂商、模型公司想做什么，往往要先看现有框架支不支持。

Forge Engineering 所改变的是，未来不是所有人围着英伟达的软件生态转，而是芯片厂商和大模型公司可以按自己的硬件、模型和训练策略，去“打造”真正需要的软件。想要什么框架，就打造什么框架。这才是“AI 制造 AI”背后更大的叙事。

而 PilotDeck 更像是面壁智能在 Agent 操作层上的一次独立探索。

当端侧模型越来越强，AI 不再只是一个聊天窗口，而是要进入真实工作流时，任务、文件、记忆、工具和权限应该如何被组织起来。

这也能解释面壁智能战略里的两面：一方面，它向端侧深处扎根，解决模型、内存、芯片和工程生产的问题；另一方面，它也在端侧智能之上，探索新的产品形态和 Agent 系统。

大模型行业变化很快，真正能穿越周期的公司，往往要同时抓住“变”与“不变”。不变的是端侧智能会长期存在，变的是它上面会不断长出新的交互方式和操作系统。

所以，端侧大模型的难点不在“把模型做小”，而在于如何在功耗、内存、算力、芯片、系统和应用之间做一整套协同设计。

面壁这次开源周真正释放的信号，不是几个孤立的开源项目，而是建立一套正在成形的端侧 AGI 世界底座。

密度战争的面壁胜负手

端侧 AGI 世界底座，听起来很大，落到工程上其实很小。但小不是目的，密度才是。

当大模型行业长期围绕 Scaling Law 竞争时，主流叙事是更大的模型、更大的集群、更长的训练周期。面壁选择的则是另一条路线：在有限算力、有限内存和有限功耗里，让单位参数承载更多智能。

这个想法，被面壁称为“密度定律”。

这不是 MiniCPM5-1B 才突然出现的概念。早在 MiniCPM 系列早期，面壁就已经在验证小参数模型的能力上限。

刘知远团队后来把这种思路进一步概括为“密度定律”：模型能力不只会随着参数规模增长，也会随着数据、训练、架构、后训练和推理系统的进步，在单位参数内持续变密。

过去两年，MiniCPM 系列几乎是在按阶段验证这件事：2024 年，MiniCPM 试图用小模型逼近 GPT-3 级别能力，2025 年，MiniCPM-3 把目标推到 ChatGPT 级别，到 2026 年，MiniCPM5-1B 已经开始逼近甚至超过早期 GPT-4o 了。

端侧模型不是永远只能做云模型的“简化版”。只要智能密度继续提升，原本只能放在云端的大模型能力，就会被端侧模型一点点吃掉。

今天吃掉的是摘要、问答、轻量 Agent、本地知识库和离线助手，下一步可能就是设备控制、车机交互、本地办公、个人助理和端侧代码工具。

这次开源周，恰好把“密度定律”拆成了几个可见的工程环节。UltraData 提高的是数据密度。ForgeTrain 提高的是训练密度。MiniCPM5-1B 提高的是参数密度。BitCPM-CANN 提高的是内存密度。PilotDeck 提高的是应用密度。

这套方法论也不是凭空长出来的。面壁的技术根脉可以追溯到 OpenBMB 社区、CPM 系列和 MiniCPM 系列，也可以追溯到 BMTrain 分布式训练框架、BMInf 推理工具、InfLLM 稀疏架构、BitCPM 低比特路线、CPM.cu 推理框架等底层基础设施。

这些项目看起来分散，但指向的是同一件事：让模型在更小的参数、更低的内存、更弱的设备和更真实的应用场景里，尽可能保留更多智能。

这也是面壁智能的特殊之处，它把端侧模型的方法论，变成了自己的公司方法论。模型不靠参数体量取胜，公司也不靠资源体量取胜，它真正押注的，是在有限资源里压进更多智能。

面壁的端侧 AI 定义权

现在已经不是 2023 年。大模型的竞争早已越过参数堆叠、榜单卡位和 API 价格战。过去两年，全球 AI 格局最深的结构性变化，是模型能力正从云端系统性地下沉到设备端。

苹果发布 Apple Intelligence 时，把端侧模型与 Private Cloud Compute 并列；微软定义 Copilot+ PC，用 40 TOPS NPU 和本地 AI 能力划出新一代 PC 的准入门槛；高通、联发科这些芯片巨头，也在以季度为单位反复强调 on-device AI 的战略优先级。端侧 AI 早已甩掉“小模型安慰奖”的标签，成为下一代终端体验争夺的核心基础设施。

放到这个背景下，面壁开源周的分量会更清楚。过去三年国内以开源周形式集中发布技术成果的，此前只有 DeepSeek（2025 年 2 月），面壁是第二家。办一场开源周的门槛在幕后，既要有连续稳定交付高质量成果的工程化能力，也要有敢把底牌全摊开的战略自信。面壁这次一口气公开了从数据、训练框架、模型、压缩到 Agent 操作系统的全链路，这本身就是一次能力声明。

面壁在端侧上的布局，比多数人以为的更早。端侧 AI 成为行业共识不过是最近一两年的事，面壁早在 2024 年就把它定为主线，而支撑这条主线的开源底子还要往前推。

2022 年中国大模型尚未真正起势，面壁联合清华 NLP 实验室发起的 OpenBMB 社区就已经运转，做出国内最早一批系统的免费大模型公开课，累计数百万播放，成了不少从业者的入门教程。

OpenBMB 与 OpenAI、英伟达一起赞助小模型黑客松比赛

据公开数据，如今 OpenBMB 在 GitHub 的星标超过 13 万，位列全球开源组织前一百，MiniCPM 全系列全球下载量超过 3000 万次；2024 年 Hugging Face 统计全球最受欢迎的大模型时，OpenBMB 的下载量排在中国区第一。

把开源根基和端侧主线加在一起，面壁在这条路上已经走了四年。

这正是“小钢炮模型团队”和“端侧系统工程公司”的分界。前者的护城河是某一个出色的模型，后者的护城河是一整条短期复制不了的链路。MiniCPM5-1B 的权重是开源的，谁都能下载，但产出它的数据治理、训练框架、压缩方法和多年工程迭代，下载不到。把全套家底摆上台面、还能保持身位，这比任何榜单分数都更能说明底气在哪。

再往深一层，面壁踩中的是一条对中国格外要紧的线。BitCPM-CANN 是在华为昇腾上完成端到端训练的 1.58-bit 低比特大模型，ForgeTrain 在英伟达 H100 上比 Megatron 快约一成，在昇腾上比华为自家的 MindSpeed 还快约一成。这两件事叠在一起，指向一个比工程水平更大的命题，训练基础设施的生产权正在松动。过去做大模型，很大程度上要跟着英伟达的软件栈走，框架支持什么，大家才能做什么；当一家中国公司能在国产算力上把训练框架做到反超原厂，端侧模型、国产芯片和开源就有机会拼成一套不依赖单一软件生态的技术栈。对国内行业来说，这盘棋比一款端侧模型大得多。

汽车、PC、机器人、智能硬件，是这条路线的外显场景。纯端侧汽车助手 cpmGO 把 MiniCPM 推进智能座舱，MiniCPM 进入 OpenVINO 等 AI PC 工具链。目前面壁已与联想、吉利、上汽大众、广汽、马自达、红旗等头部企业建立合作，在汽车、PC、手机和智能硬件等终端场景里，持续检验端侧模型扛不扛得住功耗、延迟、交互和稳定性的压测。

放眼国内，推进端侧适配、推出过轻量模型的公司不少，但能把端侧 AI 当成战略主线持续投入，从数据、训练、压缩、芯片一路打到产业场景的，并不多。面壁真正想拿下的是一个更大的位置，中国端侧 AI 的技术定义权。

端侧 AI 真正的难度，在于要在功耗、内存、算力、芯片、系统和应用之间做一整套协同设计。这种能力买不到，也快不起来，只能一年一年长出来。面壁提前进场换到的，正是这种很难被追平的结构性领先。在这场关于端侧 AI 定义权的竞赛里，时间本身就是护城河。

AI资讯

浏览