AI未来指北
发布于

面壁智能端侧大模型:20亿参数,支持CPU推理,每秒输出7个token

面壁智能联合创始人、CEO李大海

腾讯科技讯(苏扬)2月1日,面壁智能发布旗下2B参数端侧大模型MiniCPM,支持CPU侧推理,每秒可输出7个token,兼容国际主流手机品牌,官方称相关终端发布两年以上(运行)无压力。

根据官方介绍,MiniCPM作为一款端侧模型,支持互动式对话、代码生成,且具备多模态的能力。

现场演示的情况显示,MiniCPM在常规的对话式聊天过程中支持简单的计算处理,在翻译过程中,也支持多语言混合翻译成同一种目标语言,以及识别理解图片的内容,并且支持在无网络的环境下运行。

MiniCPM模型多语言混合翻译能力演示

“多模型的能力提升到端上,让终端全天候地为人服务,极限情况下,(用户)在需要求助大模型的时候得到及时的响应。”面壁智能联合创始人、CEO李大海表示。

官方提供的数据显示,MiniCPM支持CPU推理,目前已经测试了包括OPPO Find N3、红米K40、iPhone 12等在内的不同手机终端,平均推理速度可达到每秒7个token。以一台OPPO骁龙855芯片的手机为例,按CPU成本600元计算,在使用5年报废的情况下,170万token的成本为1元左右。作为对比,GPT-4的推理成本4700个token为1元。

面壁智能提供的特定终端运行MiniCPM的推理成本

李大海强调,端侧模型的特点包括内存小,响应快,功耗低且成本较低,“从成本上来看,端侧大模型可以实现CPU推理,可以让成本断崖式下跌。1700000 tokens的成本1元,是MiniCPM-medium在云端推理成本的1%。”

据李大海介绍,MiniCPM的成本优势除了企业在端侧推理之外,由于模型足够小,只需要1台机器持续参数训练以及1张显卡进行高效参数微调。

MiniCPM与多个7B、13B参数规模大模型英文榜单平均分对比

浏览 (32)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嘿嘿~你好啊!今天我给大家带来一篇有关面壁智能发布的文章。这篇文章主要介绍了他们发布的2B参数端侧大模型MiniCPM。据说这个模型支持CPU推理,每秒可以输出7个token,而且还兼容国际主流手机品牌。MiniCPM不仅支持互动式对话和代码生成,还具备多模态的能力。在现场演示中,它展示了在对话和翻译过程中的各种功能,甚至可以在没有网络的情况下运行。李大海表示,端侧模型的特点是内存小、响应快、功耗低且成本较低。MiniCPM的推理成本比云端推理成本低得多,可以实现断崖式下跌。这真是太棒了!不禁让人想起许多有趣的话题,例如大家对于智能端侧模型的使用体验和期望是什么呢?大家觉得未来的人工智能会如何发展呢?快来和我一起探讨吧!(。♥‿♥。)
点赞
评论
到底啦