发布于 8小时前

3B打32B？海外病毒式传播的小模型，竟然来自BOSS直聘

编辑｜冷猫

这两年，大模型大厂之间堪比军备竞赛。不论开源还是闭源阵营，为了在指标上领先对手，都在疯狂地卷 Scaling Law，卷算力，卷参数量，已经达到了近乎离谱的程度。

过去，GPT-2 只有约 1.5B 参数，放在现在已经属于小模型。而 GPT-4 的参数规模业内估计约为 GPT-3 的 10 倍，至少是万亿水平，更不必论 GPT-5。而现在的开源大模型参数量同样在膨胀，大于 600B 参数的模型比比皆是。

回顾 2026 年前两个月的开放权重模型，Kimi K2.5 和 Ling 2.5 均已经达到万亿参数规模，模型结构也愈发复杂，而小模型却是凤毛麟角。

2026 年 1 月和 2 月发布的 10 个开放权重模型。图源 Sebastian Raschka：𝕏 @rasbt

但模型大就一定强吗？那也未必，模型参数越大，能力就越强的定律早已经摇摇欲坠了。

前些天全网都在讨论的「50 米洗车是走去还是开车去」的问题，难倒了一大片大模型，包括超大参数量的 GPT-5.3 Thinking。

但是，一个 3B 小模型却脱颖而出，在这个万亿级参数都未能正确推理的问题上，出色地推理出了「洗车必须得开车」的关键点。

图源：Huggingface 产品负责人 Victor M：𝕏 @victormustar

视频源：Huggingface 产品负责人 Victor M：𝕏 @victormustar

在效率和成本上，小模型有着不可替代的优势。

有没有可能，用一个小模型，就能实现「越级」，完成推理、编程、搜索等这些需要大量参数的模型才能完成的任务，甚至超越大模型的性能表现？

来自 BOSS 直聘南北阁实验室的 Nanbeige4.1-3B 给出了一个颇具冲击力的答案 —— 用一个小模型，实现通用问答，复杂推理，编写代码，深度搜索。

从评测结果来看，Nanbeige4.1-3B 不仅显著超越同规模的开源小模型（如 Qwen3-4B、Qwen3-8B），更在综合指标上超越了参数量大 10 倍的 Qwen3-32B 与 Qwen3-30B-A3B。

这妥妥的外星科技啊。

值得关注的是，这两天 Qwen 团队发布了 Qwen 3.5 小模型系列，其能力受到广泛的赞誉。 Nanbeige4.1-3B 与参数大小接近的 Qwen3.5-4B 模型进行了对比，在 6 大核心指标中，Nanbeige4.1-3B 依然整体领先发布较晚的 Qwen3.5 小模型，体现了极其稳健的技术领先性。

Nanbeige4.1-3B 模型发布后不久，便迅速登上 HuggingFace 趋势榜单前列，拿下文本模型趋势榜第一，并且一度冲进全球模型总榜前三，在小模型赛道掀起了一波讨论热潮。

HuggingFace 文本模型趋势榜第一

这样一个模型，参数量小，推理速度快、部署成本低，却能够在核心能力上媲美大模型，无疑是大模型应用开发者的一阵强心剂，让未来 AI 模型的广泛应用充满了浪漫如同星河般的想象。

HuggingFace 链接： https://huggingface.co/Nanbeige/Nanbeige4.1-3B
Nanbeige4.1-3B 技术报告链接：https://arxiv.org/abs/2602.13367
Nanbeige4-3B 技术报告链接：https://arxiv.org/abs/2512.06266

技术解析：当 3B 挑战 32B ，如何「小而全」？

实际上，我们对小模型总是有一些刻板印象。因为大部分的小模型都受限于参数量，导致其长短板都异常明显。换句话说，就是小模型很难实现「通用」。

大部分专注于解题的模型往往在长程交互（如深度搜索）上力不从心；而专注于代码或 Agent 的模型，又缺乏扎实的通用推理能力和人类偏好对齐能力。

这就是为什么 Nanbeige4.1-3B 在小模型领域中如此重磅。

它是一个「小而全」的统一通用模型。Nanbeige4.1-3B 的核心突破就在于「统一性」—— 它将通用问答、复杂推理、代码能力与深度搜索 Agent 能力系统性整合进 3B 规模之中。

这是一个很不可思议的能力压缩。为此，研究团队采用了一种分阶段、分领域的优化策略，既能够确保模型保持各领域的专长，又能够保持领域间的能力平衡。

通用能力：SFT + 双阶段 RL

在一个模型的完整训练链路里，包含了 SFT 数据构建和 RL 训练两大重要支柱。

很多人误以为，模型在通用任务的能力主要来自后期 RL 强化。但事实上，对于小模型而言，SFT 阶段决定了能力天花板的高度。如果基础分布学歪了，后面再怎么用 RL 修补，都会事倍功半。

为了在有限模型大小下获取更强的推理深度，Nanbeige4.1-3B 调整了指令数据的结构比例：提高代码类样本的占比；增加数学难题和复杂推理任务；引入更多跨领域综合问题。

这种做法对于 3B 规模尤其重要 —— 因为它没有足够冗余参数，必须在数据分布上提前强化。当它在训练中频繁面对复杂结构问题时，参数空间会更偏向建模深层逻辑。

决定模型推理能力的第二大关键点，在于上下文长度。

在上一代模型中，上下文训练采用两阶段课程，从 32K 扩展到 64K，而 Nanbeige4.1-3B 则进一步增加到三阶段：32K → 64K → 256K。渐进式扩展，通过课程学习的方式让模型逐步适应更长的依赖关系，更稳定地学习长距离注意力结构。

第三项优化则集中在回复质量的提升。

很多模型在推理任务中虽然能够给出正确答案，但思维链往往存在跳步、逻辑不连贯，甚至是事后补写解释的问题，这在小模型下更加明显。

为了解决这一现象，Nanbeige4.1-3B 升级了 Solution Refinement 与 CoT Reconstruction 两套框架。

前者通过增加解答迭代优化的轮次，让模型在生成初步答案后进行多轮自我修正，从而减少逻辑漏洞并提升推理完整性；后者则通过训练更强的思维链重构模型，使生成的推理路径更加忠实和一致。

从实验结果来看，Nanbeige4.1-3B 在采用了上述三点 SFT 阶段的改进方法后，相比前代模型 Nanbeige4-3B 的评估结果产生了巨大的飞跃，在编码和数学领域的 benchmark 中更为显著。

让模型拟合人类偏好，减少错误回答的现象，尤其是在参数规模有限的情况下，RL 重塑模型行为偏好的作用会被进一步放大。

有趣的是，南北阁团队创新性地将整个 RL 拆分为两个阶段：

Point-wise RL：核心目标是提升单条回答的质量。引入通用 Reward Model，对回答质量进行评分，显著降低冗长、重复与格式错误。
Pair-wise RL：让模型与其他对手模型 PK 。对于同一个问题，比较两份回答，由 Pair-wise Reward Model 判断哪一个更优，并给出奖励信号，让模型在真实竞争环境中迭代提升。

这部分其实是 Nanbeige4.1-3B 在通用强化学习阶段最关键的设计之一。Point-wise RL 提升「智能的整洁度」，而 Pair-wise RL 提升的是「智能的锋利度」，让模型既在单点评分中提升，也在对抗评测中获得收益。

实验发现，在加入 Point-wise RL 后，模型在 Arena-Hard V2 的表现显著提升，并且 LiveCodeBench-v6 的代码错误率从 5.27% 降至 0.38%。

在进行过 Point-wise RL 的模型基础上，引入 Pair-wise RL 还可以进一步拔高效果，不仅能提升 Pair-wise 打分评测的 Arena-Hard V2，而且也对 Point-wise 打分的 Multi-Challenge 也取得了明显收益。

编码能力：先做对，再做快

编码能力强悍的小模型并不多，其中相当一部分还是专为编码设计的模型。要想在一个全能通用的小模型上实现相当的编码性能，那就需要相当深刻的工程思维。

Nanbeige4.1-3B 在代码能力训练中，采用了两阶段 RL 策略，来解决一个代码复杂程度和正确性的两难矛盾：

第一阶段优化正确率：pass-rate reward 定义为每个问题通过的测试用例比例。这一阶段的目标是确保模型能够可靠地解决问题。
第二阶段在完全正确的前提下，引入时间复杂度奖励：Judge 系统通过在线比较模型输出的预测时间复杂度与参考最优边界来提供反馈，reward 公式如下所示：

代码强化学习中的门控时间复杂度奖励设计。在该机制下，时间奖励仅在解答通过所有测试用例（PassRate = 1）时才会被激活。

这种「门控式」设计避免了模型在尚未掌握正确解法时盲目追求效率。训练曲线显示，模型在第二阶段时间复杂度奖励显著提升，同时保持稳定的正确率。

两阶段代码强化学习的训练动态。结果显示，从第一阶段到第二阶段，各项指标均呈现出稳定且持续的提升。

这类训练思路，与近期代码强化学习方向的主流趋势高度一致。

深度搜索：把智能体压进小模型

深度搜索任务本质上是长上下文、多跳推理、工具调用与信息整合的复合场景。多数小模型在这一类任务上往往「力不从心」。而这恰恰是 Nanbeige4.1-3B 区别于其他通用小模型的重要特色。

为了增强模型的搜索能力，团队构建了一个大规模、复杂的搜索数据集，包括从 Wikipedia 实体关系图中衍生的多跳问答对，以及经过严格多阶段过滤的高质量长程搜索轨迹。通过这种方式，训练数据天然具备结构复杂性和可验证性。

在训练阶段，系统引入了轮次级（turn-level）的质量控制机制。模型在每一次搜索交互中的行为都会被独立评估，而不仅仅关注最终答案。

一个 critic 模型从三个维度进行判定：推理过程是否逻辑自洽，工具调用是否准确，以及该轮操作是否带来有效信息增益。若某一轮未达到标准，在 SFT 阶段不会参与损失计算；在 RL 阶段则会触发负向奖励。

用于深度搜索的数据构建流程，包括复杂多跳问答样本的采样，以及长程推理轨迹的合成。

整体来看，这一设计的核心是训练模型形成稳定的「检索 — 判断 — 再检索」的循环结构。

通过结构化数据生成与过程级奖励约束，即便在 3B 规模下，模型也能够逐步学会规划搜索路径、控制误差传播，并在长上下文条件下保持推理一致性，让这个 3B 模型在深度搜索基准上达到了专业搜索 Agent 的水平。

实验结果：越级挑战与实战检验

在综合基准测试中，Nanbeige4.1-3B 显著超越同规模模型，并在多数测试上超过参数规模 10 倍以上的模型。

更值得注意的是，在与显著更大规模的 Qwen3-Next-80B-A3B 模型对比中，Nanbeige4.1-3B 依然保持竞争力，在各个指标上互有胜负。

Nanbeige4.1-3B 在深度搜索任务上表现尤为亮眼：

模型在 xBench-DeepSearch-2505 上达到 75 分，在 GAIA（text-only）上达到 69.90 分，这一成绩接近专为搜索打造的智能体小模型 AgentCPM-Explore-4B。

正如文章开头介绍的那样，研究团队将 Nanbeige4.1-3B 与发布时间晚三周的类似参数量的新款模型 Qwen3.5-4B 进行对比，Nanbeige4.1-3B 基本保持领先姿态。

真实任务评测，比静态 benchmark 更具说服力。在模型发布以后，研究团队特意选取了一些全新的真实任务的竞赛， Nanbeige4.1 与 Qwen3.5 小模型系列同台竞技。

在代码领域的 LeetCode Weekly Contest 与数学领域的 HMMT 2026 Feb（哈佛 - 麻省理工数学竞赛）中，Nanbeige4.1-3B 的表现不仅显著优于 Qwen3.5-4B，甚至超过了参数量更大的 Qwen3.5-9B。

这些竞赛均在模型发布以后举办，完全排除了数据记忆的干扰，有力证明了 Nanbeige4.1-3B 具备极强的泛化能力与深度的逻辑推理水平，真正经得起实战检验。

总结：小模型时代正在加速

Nanbeige4.1-3B 的意义，在于在通用能力上的以小博大。

小模型不再只是大模型的「轻量替代品」，而是在精细化训练方法的加持下，形成独立的，通用的能力体系。

参数规模的差距正在被训练范式的创新逐步弥补。与此同时，原本被认为依赖大模型规模优势的 Agent 能力与复杂推理能力，也开始下沉到更具部署友好性的尺度。

当 3B 大小的模型就可以稳定处理推理、编程与搜索任务，企业侧的部署范式将被重写。移动端、本地化、私有化部署场景的想象空间随之打开。

未来，BOSS 直聘南北阁实验室团队将持续探索小模型在复杂代码生成、科研辅助及真实工业环境中的能力边界，同时通过架构层面的创新进一步释放小模型潜力。从训练机制到结构设计，小模型的上限仍远未触顶。

大模型的边界仍在扩张，但小模型的效率革命也在发生。也许未来真正决定 AI 应用广度的，是小参数的模型所能释放的智能密度。

小模型的时代，才刚刚启幕。

AI资讯

浏览 (7)