WAIC2025首场大模型发布会:姜大昕及核心团队回应10亿营收、技术路线、模芯生态
文|晓静
编辑|萌萌
7月25日,2025世界人工智能大会正式开幕前一天,阶跃星辰发布新一代基础大模型Step 3,主打多模态推理能力。根据官方介绍,Step 3采用 MoE 架构,总参数量 321B,激活参数量 38B。在MMMU、MathVision、SimpleVQA、AIME 2025、LiveCodeBench (2024.08-2025.05) 等榜单上取得了开源多模态推理模型的SOTA成绩。
阶跃星辰CEO姜大昕在发布会现场表示,随着大模型技术迈向推理时代,阶跃星辰提出,最适合实际应用的大模型需要满足强智能、低成本、可开源和多模态四个特征。Step 3在国产芯片32K上下文的推理效率最高可达DeepSeek-R1 的300%,且对所有芯片友好。在基于 NVIDIA Hopper 架构的芯片进行分布式推理时,实测Step 3相较于 DeepSeek-R1 的吞吐量提升超 70%。

为了通过底层联合创新提升大模型适配性和算力效率,阶跃星辰联合近 10 家芯片及基础设施厂商发起「模芯生态创新联盟」,打通芯片、模型和平台全链路技术。基于这个契机,在发布会现场包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹在内的多家顶级国产芯片大佬罕见地在阶跃发布会同台亮相。
该联盟的首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等。
目前,华为昇腾芯片已首先实现Step 3的搭载和运行。沐曦、天数智芯和燧原等也已初步实现运行 Step 3。其它联盟厂商的适配工作正在开展。

此外,本次 WAIC 期间,阶跃也升级了多模态模型,包括阶跃首个多模理解生成一体化模型 Step 3o Vision,第二代端到端语音大模型 Step-Audio 2。目前,所有这些模型都可以在“阶跃 AI”官网(stepfun.com)和“阶跃 AI”App进行体验。
在发布新产品及新战略的同时,阶跃星辰披露,2025年上半年,阶跃星辰的收入快速增长,预计全年收入接近10亿元。
在发布会之后,阶跃星辰创始人姜大昕、副总裁、系统负责人朱亦博、副总裁李璟在发布会后与包括腾讯科技在内的少数媒体进行了深度交流,并回应了“一年10亿的商业化目标、技术路线、国产芯片适配、甚至上市计划等问题”。
划重点
商业化收入目标明确:公司今年将确认收入目标定在10亿元人民币,这一数字基于上半年合同收入、确认收入和毛利的表现,预计下半年有望实现。
商业化打法:不做偏定制化的交付项目,也不做纯卖API。聚焦可持续的商业化策略,就是在我们擅长的领域打造产品级收入。
核心技术继续发力多模态:在技术方向上,团队强调从训练规模转向推理优化,通过Test‑Time Scaling等方法提升推理效率,并指出多模态领域仍处于早期阶段,需要长期投入。
“模芯联盟”协同国产芯片:公开表示有意邀请DeepSeek加入模芯联盟,并建议DeepSeek不要再基于H800做优化了。
模型适配芯片的策略需要转变:过去的做法是先设计模型,再让芯片去适配它。但当芯片真正量产时,模型往往已经更新换代。相比之下,更合理的路径是让模型主动适配当代可用的芯片资源,从而实现更高效、协同的发展。
冲刺10亿:聚焦可持续商业化收入
Q:有个商业化的问题,因为今天其实有两个比较大的机会,如果把最新的模型开源,未来会不会跟做大收入这个目标有冲突?
李璟:我先介绍一下,阶跃一直以来在商业化策略上有着非常独特的思路。早在2023年公司刚成立时,我们就已经意识到某些商业模式不够可持续和健康。
比如偏定制化的交付项目。作为一支经历过AI 1.0完整周期的团队,我们观察到这种模式存在明显问题:首先,它容易受到开源的冲击,导致单价不断下降,比如二三年前一个大模型可以卖到1000万,而现在据我所知,甚至有低至20万的报价。
其次,每个项目都需要单独交付,交付成本随项目数量线性增加,缺乏互联网行业所强调的规模效应,因此不是一个理想的商业模式。
Q:能不能理解为说有些标杆案例、主要场景还是我们自己拿在手上,有些碎片化可能由合作伙伴去做?
李璟:我不能完全这么理解。我认为即使是与生态合作的项目,我们也会聚焦于重点场景,而真正长尾的场景我们可能就不做了,或者干脆转为开放平台模式,让合作伙伴基于我们的模型进行开发,这点我完全支持。
我们发现在最后一公里的落地过程中,非常需要深度的产品定义和合作,因为只有这样才能在行业内快速形成有竞争力的产品。因此,我们始终将资源投入到那些真正有价值的重点领域。
我们自身的业务也保持高度聚焦,主要集中在终端市场。我们的生态同样非常聚焦,目前主要是金融和内容领域,未来可能会有一两个新领域的拓展。
Q:ToB的业务,它的定制化程度有多少?是不是说能够快速地迁移到其他客户和行业里面去?
李璟:从0到1的产品打造确实花费了相当多的时间,但后续的迁移过程是比较快速的。这正是我们所强调的——我们开发的是相对通用的产品解决方案。当然,在实际交付阶段仍然会有一定程度的定制化需求,但这部分的工作量相对较低。
Q: 后续的维护或者升级还需要投入很多人吗?
李璟:不太会。当然换代就是重新的产品设计。
Q:吉利的蛋仓,除了阶跃的产品,其实也接入了DeepSeek?
李璟:这对企业来说其实很正常,他们的合作必然是多方面的,会把市面上好的模型都引入进来使用。不过,我们也在密切观察这些行业使用DeepSeek的情况。
从合作关系角度看,客户可以使用我们更多的模型,我们既与客户保持深度合作,也支持厂商开放平台让更多合作伙伴进入,这两点并不冲突。
如果您明天去看吉利的蛋仓,会发现情况已经不同了。那里可能已经更多地集成了我们的多模态模型。上次展示的只是简单的交流对话,而明天在我们展台,您可以看到更丰富的功能,比如能与系统猜拳,或系统能识别并描述"主驾来了一位戴眼镜的帅哥"等更高级的互动。
这些能力在不断升级迭代。蛋仓本身是个演示环境,我们与吉利的合作正在逐步深入,包括与千里的三方合作,共同打造基于下一代座舱的全新体验。
Q:终端的收入来源于哪里?
李璟:这是一种分成逻辑。正如我们所说的可持续性商业模式,不是一次性交付项目,而是今年收费,明年继续收费的模式。
具体来说,未来在所有终端上一定是端加云的结构:端上基本按license收费,云上按消耗收费,这是现阶段的商业模式。您提到的订阅模式等方案,未来都可以探讨。
目前手机厂商和车企本身也在探索中。例如,智驾的订阅商业模式现在已经比较成熟,消费者购车后愿意额外订阅智驾服务。座舱功能未来可能也会采用类似模式,这为我们提供了打造新商业模式的机会。
总的来说,这是分阶段发展的过程,但即使在当前阶段,我们的商业模式也具有可持续性,不是一锤子买卖。
Q:在商业化业务进展方面,你们目标是10亿,已经一年过半了,是基于怎样的情况提出这样一个数字?到现在的完成情况怎么样?
李璟:今天发布的目标不是说它就是发布了一个数字,其实做销售管理都知道,我们是有整个的pipeline预估的,包括上半年我们整体完成的数字也很好。
我们上半年合同达到了几亿的量级,确认收入的数字也非常好,毛利水平也非常健康。大家知道一般上半年会稍微淡一点,所以基于上半年这样的观察,我们大概能判断出今年有实力完成这个目标。
我们讲的是确认收入,不是指合同收入,所以我觉得这个还是展现了我们在商业化上的希望,能够成为大模型公司商业化的第一档企业。
关于占比,我可以简单说一下。大概会是几个类别,比如说新能源汽车、手机这两个加在一起能占50%以上。我们现在还有一些技术服务,同时还有一些其他模型,范围很广,像金融、音乐、城市治理,这些都算在里面,所以我们不会分得那么细,但大体上的分布核心是终端数据超过50%。
Q:那是不是也可以理解成预期会很快实现盈利?
李璟:短期内还没到盈利点,因为我们在模型训练上的投入还是很大。但我们的毛利率是非常不错的。未来几年,我们会继续在基础模型上持续投入,这是公司长期发展的核心战略。超级模型加超级应用,仍然是我们立足之本。
Q: 这个行业里面有没有比较迫切的上市的压力?有些同行可能已经在考虑上市了。
李璟:我觉得我们在这个事情上比较理性,我们没有说有特别着急的压力。对于大模型公司有三个极大的考验,第一是技术能力,第二是持续的自融资的能力,第三个就是商业化的能力。我觉得这三个是在动态调整的,所以在今天,我觉得我们会比较乐观地看待像港股或者科创板出现的一些新机会。但我们现在没有明确的计划。
未来技术探索,多模态依然处于早期阶段
Q:从Step 3的参数规模来看,未来是不是不会再关注模型参数规模,还会再发布万亿参数以上的模型吗?
朱亦博:会继续探索。现在业界讨论的Test Time Scaling问题表明,模型在推理时思考越多,获得的智能就越高。
这一代产品,我们优先强调Test Time Scaling,即推理要够快、够便宜。在给定预算下,我们能够获得更高的质量。这与上一代纯追求大规模预训练的优化方向不同。当Test Time Scaling发展到一定程度后,我们确实可以重新追求更大的模型规模,这是随着技术演进的钟摆式发展。
Q:未来发布的模型参数量还会再求“大”吗?
姜大昕:早期我们做上一代模型时,在数学、推理、理科题目或编程方面总是难以突破。随着强化学习范式的出现,我们看到了巨大的发展空间。
在文本领域,我们已经从PPT范式发展到主动学习范式,甚至有人开始探索自适应学习这样的新范式。在多模态领域,我们仍在探索最基础的问题:视觉编码应该是什么样的?如何进行美学测试?架构应该如何设计?以及讨论多年的理解与生成一体化问题。多模态领域仍处于非常早期的阶段。随着我们对世界建模能力的提升,自动驾驶甚至通用机器人也将加速普及。
Q:在当前条件下,我们首先需要在模型技术和智能水平上尽快咬住国际领先梯队。至于具体使用何种芯片,也是根据情况决定的,要实现这一目标大概需要多久?
朱亦博:我认为Step 3是一个非常积极的进展,我们实现了基于国产芯片的推理。不考虑补贴和厂商亏本销售的因素,它的实际性价比已经能够与国际先进芯片相匹配。
Q:现在多模态领域面临什么技术难点?
姜大昕:多模态领域确实面临着许多技术难点。
比较自然语言处理和多模态,可以发现两个明显区别:
首先,文本表征相对简单,它是离散符号,用几万维的离散信号表达,对计算机而言是低维空间。而一张1024×1024的图片则是百万维的连续空间,表征难度本质不同。
其次,文本是自闭环的,语义和表达在同一空间内。而视觉是自然界固有的独立空间,要理解视觉内容的语义(如“话筒”“水”等概念),涉及视觉与文本/语义空间的对齐问题。视觉系统本身并不存在天然的自闭环体系,需要与文字实现对齐才能独立表达。
这种对齐缺乏天然数据支持,导致多模态领域发展面临巨大挑战,可能需要几次类似GPT或强化学习那样的范式转变才能解决。更远的未来,如机器人领域的VLA(视觉-语言-行动)问题——agent执行动作后世界给予什么反馈,进入什么状态,这些问题更难解决。
Q:从组织上如何平衡短期和长期需求?既要激发科学家的创造力,又不能过度“内卷”,这个平衡怎么把握?
姜大昕:我觉得其实不需要特别去激励科学家,他们往往比我们还“卷”。很多时候,我们甚至很难分清楚一个问题究竟是科学问题还是应用问题。就像我刚才提到的推理问题,你说它是科学问题吗?当然是,比如如何让思维链变得更简洁,就是一个非常典型的科研挑战。但它同时也具备很强的应用价值。所以现在的科研模式很有意思,研究员们其实就是在用大量算力去探索智能的上限。
至于如何在组织中平衡长期和短期,我觉得这个问题本身也很重要。目前我们的大部分精力还是集中在大模型方向,毕竟从全球格局来看,中国仍处于追赶美国的阶段。
模芯联盟:模型与国产芯片协同创新
Q:在适配国产芯片时,底层算子是否需要重新编写?这部分工作是由阶跃完成还是芯片厂商负责?未来是否计划通过联盟形式共同推进这项工作?
朱亦博:我们的适配策略并非创造全新的算子,而是优化模型结构以适应现有芯片架构。本质上,我们仍然使用的是标准矩阵乘法运算,但通过调整矩阵的尺寸和结构特性,使其在不同硬件平台上能获得最佳性能表现。我们专注于让模型结构本身对芯片更友好,而非发明需要额外适配工作的新算子,这种方法大大降低了跨平台部署的复杂度。
Q: MLA在当前高算力、低带宽环境下表现出色,但这在某种程度上是对国产芯片资源限制的一种适应性策略。随着国产芯片技术突破这些限制后,这种机制是否会变得过时?贵团队对此有何长期规划?
朱亦博: 芯片产业与AI模型存在明显的迭代周期差异,芯片从设计到量产通常需要两年时间,而我们的模型则以半年为周期迭代更新。过去的产业逻辑是先开发模型,再让芯片厂商去适配这些模型,但当你为当前模型定制芯片时,两年后模型架构可能已经完全不同。
我认为更合理的方向是让模型去适应当代可用的芯片,而不是相反。模型的迭代速度优势使我们能够更快地适应芯片生态。随着“模芯联盟”的建立,我们希望与芯片厂商构建长期互信与合作关系 ,我们提前分享模型设计规划,而厂商也能在新一代芯片上市前与我们共享架构特性,形成良性循环。
Q: 这次项目是否提前与各芯片厂商建立了联系?
朱亦博:是的。我们采取了与竞争对手不同的策略。某些厂商倾向于在美国时间发布模型,通过社交媒体营销引发关注,待热度形成后才让国产芯片方进行适配。而我们则主动与国产芯片厂商建立了紧密合作关系。针对Step 3项目,一旦确定核心技术特性,我们立即与各芯片厂商开展深入对接。各方反馈积极程度超出预期,纷纷投入资源进行快速适配,我们对此深表感谢。
Q: 在模型联盟的基础上有没有想过去自研训控一体化?
朱亦博: 什么叫训推一体化?就是我们自研的是芯片训推一体模型。这个是一个非常好的下一步方向,只是路要一步一步走,我们先把推理搞定。
Q:对于“模型联盟”,你们后面还有更多的计划吗?
朱亦博:我有个想法,也算是一个公开的倡议——我们诚挚邀请 DeepSeek 加入我们的模型联盟。不要只对着 H800 去优化,我们真心希望更多优秀的国内模型厂商能够一起加入。
我们现在的联盟几乎涵盖了所有主流国产算力平台:华为、上海的四家算力企业、摩尔线程、寒武纪等基本都在。是不是也可以把千问这些模型厂商也纳入进来?我们非常欢迎他们加入。
Q:那你们之前有正式邀请过他们吗?
朱亦博:坦率讲,还没有。这算是我们在这里发出的第一次公开邀请。
李璟:亦博发出这个邀请,其实还有更深一层的意思。DeepSeek 本质上不是一个推理模型,它是标准的 GPT 范式模型,所以在可比性上就存在偏差。比如我们去比数学能力,它可能会比我们低好几十分。但这其实对他们也不公平,因为他们的模型目标并不是推理,也没有多模态能力。