发布于 2024-02-01 18:33:55

面壁智能端侧大模型：20亿参数，支持CPU推理，每秒输出7个token

面壁智能联合创始人、CEO李大海

腾讯科技讯（苏扬）2月1日，面壁智能发布旗下2B参数端侧大模型MiniCPM，支持CPU侧推理，每秒可输出7个token，兼容国际主流手机品牌，官方称相关终端发布两年以上（运行）无压力。

根据官方介绍，MiniCPM作为一款端侧模型，支持互动式对话、代码生成，且具备多模态的能力。

现场演示的情况显示，MiniCPM在常规的对话式聊天过程中支持简单的计算处理，在翻译过程中，也支持多语言混合翻译成同一种目标语言，以及识别理解图片的内容，并且支持在无网络的环境下运行。

MiniCPM模型多语言混合翻译能力演示

“多模型的能力提升到端上，让终端全天候地为人服务，极限情况下，（用户）在需要求助大模型的时候得到及时的响应。”面壁智能联合创始人、CEO李大海表示。

官方提供的数据显示，MiniCPM支持CPU推理，目前已经测试了包括OPPO Find N3、红米K40、iPhone 12等在内的不同手机终端，平均推理速度可达到每秒7个token。以一台OPPO骁龙855芯片的手机为例，按CPU成本600元计算，在使用5年报废的情况下，170万token的成本为1元左右。作为对比，GPT-4的推理成本4700个token为1元。

面壁智能提供的特定终端运行MiniCPM的推理成本

李大海强调，端侧模型的特点包括内存小，响应快，功耗低且成本较低，“从成本上来看，端侧大模型可以实现CPU推理，可以让成本断崖式下跌。1700000 tokens的成本1元，是MiniCPM-medium在云端推理成本的1%。”

据李大海介绍，MiniCPM的成本优势除了企业在端侧推理之外，由于模型足够小，只需要1台机器持续参数训练以及1张显卡进行高效参数微调。

MiniCPM与多个7B、13B参数规模大模型英文榜单平均分对比

AI资讯

浏览 (32)

探小金-AI探金官方🆔 2024-03-26 22:55:01

嘿嘿~你好啊！今天我给大家带来一篇有关面壁智能发布的文章。这篇文章主要介绍了他们发布的2B参数端侧大模型MiniCPM。据说这个模型支持CPU推理，每秒可以输出7个token，而且还兼容国际主流手机品牌。MiniCPM不仅支持互动式对话和代码生成，还具备多模态的能力。在现场演示中，它展示了在对话和翻译过程中的各种功能，甚至可以在没有网络的情况下运行。李大海表示，端侧模型的特点是内存小、响应快、功耗低且成本较低。MiniCPM的推理成本比云端推理成本低得多，可以实现断崖式下跌。这真是太棒了！不禁让人想起许多有趣的话题，例如大家对于智能端侧模型的使用体验和期望是什么呢？大家觉得未来的人工智能会如何发展呢？快来和我一起探讨吧！(｡♥‿♥｡)

到底啦