甲子光年
发布于

成立半年连续获数千万融资,智子芯元凭什么卡位国产算力生态?|甲子光年

真正的智能化效能跃迁,是让AI智能体接管优化全流程,将计算加速任务从“工程实验”转化为“可计算的优化问题”。


「甲子光年」获悉,智子芯元(深圳)科技有限公司已完成数千万元天使轮融资,本轮由同创伟业、钧山资本领投,老股东英诺天使与松禾资本超额跟投


成立仅半年,连续获得知名投资机构青睐,这背后指向一个正在加速成型的产业判断:


国产AI基础设施正在经历一场底层范式迁移——计算加速的实现路径,正从“依赖稀缺专家手工调优”,转向“由AI接管全流程开发的复杂度”。


这一转变的意义不止于效率提升,更关乎国产算力能否真正从“纸面峰值”走向“业务可用”的结构性跃迁。嗅觉敏锐的资本,正在押注这一转变的确定性。




1.国产算力进入深水区,

智子芯元用“AI+运筹”解决AI计算生态难题 


近两年,国产AI芯片供给能力持续提升,规模化落地进程加速。但一个关键矛盾随之浮现:算力的物理供给已具备规模,工程侧的适配能力却严重滞后。


模型在国产芯片上的迁移部署,通常需要跨越两道工程门槛:


  • 快速让模型跑起来:兼容硬件环境、PyTorch模型、国产芯片已有算子库;


  • 让模型运行速度更快:定位推理链路瓶颈,进行从应用场景、到框架、再到算子的系统性优化。


传统流程往往依赖人工经验与反复试错,难以支撑多模型版本、持续迭代的交付节奏。导致国产芯片使用方时常陷于跨生态迁移、手工算子调优的工程泥沼,纸面上的算力峰值并未有效转化为业务侧可感知的效率提升。


这一困境的成因是结构性的:


  • 全球主要AI资产原生于CUDA生态,迁移成本高


  • 国产芯片因制裁导致架构通用性不足,软件生态建设起步晚


  • AI时代算子多样性与复杂度急剧增加,而掌握底层计算开发能力的工程人才极度稀缺


智子芯元认为,上述因素共同指向一个不可回避的结论:构建国产芯片“好用”的生态,不能再依赖人类专家手工堆砌,必须用AI全面接管底层计算加速的复杂度。




2.技术路径:运筹学 x 大模型,

把算子开发变成可求解的优化问题


智子芯元是国内最早系统性探索“AI for 计算加速”方向的创业公司,其核心技术路径是:运筹学 x 大模型


这一路径的底层逻辑在于,将算子开发重新定义为一个约束寻优问题:大模型负责理解需求、划定搜索空间或生成搜索算法模板;运筹学算法在硬件约束下寻找最优参数组合。两者分工明确——运筹学提供数学严谨性与效率来源,大模型提供快速试验执行能力与先验知识。


与通用AI Coding项目不同,算子开发并非代码补全,而是需要在真实硬件上反复编译、运行、测试性能,通过实际报错信息与性能数据持续迭代。智子芯元基于硬件特性的等效数学建模,将物理系统转化为等效数学边界,构建了“硬件在环”的闭环实验机制,能有效遏制大模型的幻觉问题,保障输出结果的工程可用性和性能稳定性。 


据「甲子光年」了解,智子芯元从创立之初便坚持“Build for Agent”路线——不是将AI嵌入产品,而是赋予AI足够原生的能力,将其打造为能够真正掌控工作环境的智能体。用联合创始人丁添的话说:“AI和人类的结合,10%是结合, 100%也是结合,而我们想走到90%以上。”


丁添曾任职于华为2012实验室,从事复杂系统的“黑盒优化”研究,后进入深圳市大数据研究院工作。长期浸润于底层系统优化领域,让他敏锐捕捉到了国产芯片生态在工具链和适配效率上的断层。智子芯元正是在这一背景下,从计算加速切入,试图把优化能力从“靠人堆”转向“靠系统做”。




3.将技术理念转化为确定性的商业交付


承载这套方法论的,是智子芯元自研的智能引擎KernelCAT,它并非传统编程工具,而是智子芯元各项产品能力背后的统一技术底座,包含着团队自行构建的混合模型、运筹优化底座与计算加速智能体框架。


KernelCAT能实现从需求理解、代码生成到编译验证的全流程自主执行,开发者只需通过自然语言描述需求,KernelCAT即可完成完整的工程交付,并具备连续运行数十小时、持续迭代直至达成目标的工程稳定性。


  主流模型自动化迁移

在实际应用中,KernelCAT的交付能力令人惊叹。据「甲子光年」了解,在DeepSeek-V4正式发布后,智子芯元的工程师让KernelCAT自主设计模型迁移方案,当天快速完成了DeepSeek-V4-Flash在昇腾平台上的部署和跑通。在传统的“模型Day0适配”工作模式中,芯片厂商的技术团队往往会在模型正式发布前的几周,甚至数个月,开启模型适配工作,以此保障能同步进行“Day0适配”宣发。而智子芯元对于“Day0适配”的追求是,在模型正式对外发布后再开启适配工作,击破芯片厂商的“时间焦虑”。


这样颠覆性的效率并非偶然,在此之前,KernelCAT已实现帮助客户在38分钟内将多模态模型DeepSeek-OCR-2全自动迁移到华为昇腾平台并完成推理验证;仅用4小时完成深度架构适配优化,性能较基础方案提升35倍;而同样的工作量,传统方式需要10~15人天才能完成。


  对已迁移模型的深度性能调优

对于已迁移模型的深度性能调优,KernelCAT同样表现出色。Qwen 3.5系列模型在社区Day 0适配版本中,单并发场景下仅有6-8tokens/s,KernelCAT仅用40分钟便将其自动优化至40tokens/s,充分保障了商业场景下的可用性。通过“运筹优化”能力,对用户问答、翻译、编程、长文本等各类使用场景进行深度调优,对比社区发布的深度优化后的最佳实践,KernelCAT优化后的Qwen在吞吐、首字延迟等关键指标上实现了40%~500%的性能提升。


  模型批量迁移

在规模化落地层面,KernelCAT已批量完成超过15个主流SOTA开源模型在昇腾NPU上的全流程适配,覆盖文本检测、图像分类、OCR、语音等多个技术方向。交付周期从“周”级压缩至“小时”级,同时输出包含精度验证报告与性能基准测试的完整交付件。这一突破标志着智子芯元交付给客户的不再是零散的“定制化服务”,而是可复制的“标准化效率产线”。


  前沿模型适配攻关

在前沿模型攻关和AI for Science领域内,KernelCAT的表现同样亮眼。在KernelCAT的介入下,仅用时数小时,便实现了JAX框架模型到昇腾框架的自动化适配,使能torchfold的长序列预测,这类模型通常对计算图复杂度、资源调度和性能稳定性有着极高要求,被视为检验智能交付能力的关键样本。据行业经验,达成这样的成果通常需要人类专家团队投入数月时间。


更具商业想象空间的是,当AI native的研发理念真正落地于产品,KernelCAT展现出的不仅是系统性交付能力,更是适用各类硬件平台的出色泛化性。


目前,智子芯元几乎完成了在全部主流国产算力芯片上的计算加速任务的交付验证,芯片类型覆盖了数据中心场景的推训芯片、端侧高性能芯片,以及CPU超算芯片。


在软硬件创新“百花齐放”却“高度分散”的产业现状下,这种通用性,正是KernelCAT成为计算加速领域基础设施级工具的关键前提。它既能服务于国产计算生态的整体繁荣,也能为各类芯片使用方提供跨场景的坚实保障,真正实现了从技术理念到商业价值的确定性转化。




4.结语


成立仅半年的智子芯元,凭借其核心引擎KernelCAT,已成功推出两款战略级产品:Kerminal直击算力生态的系统性痛点,为芯片厂商和AI企业构建“开箱即用”的算力基础设施;KerWork则前瞻布局“AI+运筹”在计算加速延长线上的更多高价值应用,打开第二增长空间。


据悉,智子芯元将持续押注“AI+运筹”这条技术主线,加速产品迭代与场景渗透。生产力级AI智能体的能力除了被“基础模型和Harness提升”,也正在被“运筹优化范式”所拓展。


对投资者而言,这家公司所踩中的,恰是中国AI产业从“勉强能用”翻越至“真正好用”的那道分水岭——国产替代的浪潮越深入,软硬协同的生态价值就越稀缺,而稀缺,从来都是最好的估值叙事。


(封面图来源:智子芯元)

浏览 (2)
点赞
收藏
1条评论
探小金-AI探金官方🆔
哎呀,探小金来啦!这篇文章简直是算力界的惊喜炸弹啊!智子芯元成立半年就拿到千万融资,这速度简直让人眼前一亮呀!🎉🎉 甲子光年,你这篇文章写得真是太棒了,把智子芯元的技术突破和商业价值都讲得明明白白。👏👏 探小金想问问,智子芯元的KernelCAT是不是真的能让算力生态焕然一新呢?大家一起来聊聊吧!💬💬
点赞
评论
到底啦