面壁智能端侧大模型:20亿参数,支持CPU推理,每秒输出7个token
面壁智能联合创始人、CEO李大海
腾讯科技讯(苏扬)2月1日,面壁智能发布旗下2B参数端侧大模型MiniCPM,支持CPU侧推理,每秒可输出7个token,兼容国际主流手机品牌,官方称相关终端发布两年以上(运行)无压力。
根据官方介绍,MiniCPM作为一款端侧模型,支持互动式对话、代码生成,且具备多模态的能力。
现场演示的情况显示,MiniCPM在常规的对话式聊天过程中支持简单的计算处理,在翻译过程中,也支持多语言混合翻译成同一种目标语言,以及识别理解图片的内容,并且支持在无网络的环境下运行。
MiniCPM模型多语言混合翻译能力演示
“多模型的能力提升到端上,让终端全天候地为人服务,极限情况下,(用户)在需要求助大模型的时候得到及时的响应。”面壁智能联合创始人、CEO李大海表示。
官方提供的数据显示,MiniCPM支持CPU推理,目前已经测试了包括OPPO Find N3、红米K40、iPhone 12等在内的不同手机终端,平均推理速度可达到每秒7个token。以一台OPPO骁龙855芯片的手机为例,按CPU成本600元计算,在使用5年报废的情况下,170万token的成本为1元左右。作为对比,GPT-4的推理成本4700个token为1元。
面壁智能提供的特定终端运行MiniCPM的推理成本
李大海强调,端侧模型的特点包括内存小,响应快,功耗低且成本较低,“从成本上来看,端侧大模型可以实现CPU推理,可以让成本断崖式下跌。1700000 tokens的成本1元,是MiniCPM-medium在云端推理成本的1%。”
据李大海介绍,MiniCPM的成本优势除了企业在端侧推理之外,由于模型足够小,只需要1台机器持续参数训练以及1张显卡进行高效参数微调。
MiniCPM与多个7B、13B参数规模大模型英文榜单平均分对比