机器之心
发布于

破解大模型「无效并行推理」:Parallel-Probe问世,并行推理效率提升35.8%

当大模型推理进入 Parallel Thinking 时代,一个关键问题随之出现:


模型在并行推理的过程中,究竟发生了什么?多条推理路径同时展开,看似为模型带来了更强的能力,却也引入了一个长期被忽视的问题——大量计算是否正在被浪费在已经「没有必要继续」的思考上?


为了回答这一问题,来自马里兰大学、圣路易斯华盛顿大学、北卡罗来纳大学教堂山分校等机构的研究团队提出了 Parallel-Probe。不同于直接从算法设计出发,该研究首先通过引入 2D Probing,对 online 并行推理过程中的全局动态性进行了系统性刻画。研究发现,并行推理并非一个「算得越多越好」的过程:全局共识往往在所有分支结束之前就已提前稳定,而少数冗长的长尾路径却持续占据大量计算资源,成为并行推理效率的主要瓶颈。


基于这些关键发现,研究团队进一步提出了一个 training-free 的并行推理控制算法 Parallel-Probe,能够在不牺牲核心准确率的前提下,显著减少无效计算,将推理延迟降低 35.8%,总 token 成本降低 25.8%



  • 论文名称:Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

  • 论文链接:

  • Code:

  • Online Judge:

核心痛点:孤立的

「并行路径」到底带来了什么?


目前的并行推理方法(如多数投票机制)存在一个显著缺陷:各推理分支彼此独立。这意味着,即使大部分分支已经达成了共识,系统仍需等待所有分支(包括那些冗余的长尾路径)全部生成完毕。



研究人员提出,这种「局部视角」导致了严重的效率低下。通过系统 2D 探测接口,研究团队揭示了并行推理的三大底层动态特征:


  • 非单调缩放准确率并非随着算力投入单调增加,而是取决于「宽度」与「深度」的精细平衡(Figure (a))。

  • 路径长度不均并行分支的生成长度差异极大,计算资源往往被少数「长尾」路径占据(Figure (b))。

  • 共识提早稳定全局共识往往在所有分支结束前就已经达成(平均共识达成率仅为 0.31)(Figure (c))。


技术突破:基于全局信号的

「外科手术式」 2D Budget Control


即插即用:Parallel-Probe 是一种模型无关的方法,可直接适配各种现成的开源或闭源大语言模型。



针对上述发现,Parallel-Probe 采用了一种 Training-Free 的轻量级控制器,通过两个核心机制优化同时从宽度和深度优化在线并行思考:


  • 基于共识的早期停止(Consensus-based Early Stopping)该机制周期性地从各分支中提取中间结果。一旦探测到全局多数答案在连续几个周期内保持稳定,控制器将直接终止整组推理,避免后续冗余步骤。


  • 基于偏差的分支剪枝(Deviation-based Branch Pruning)实时监控每一条路径。如果某条路径显著偏离了当前的全局大趋势(即出现异常),系统会果断对其进行「剔除」,将资源倾注在更有潜力的路径上。


实验结果:刷新帕累托前


沿研究团队在 Qwen3 系列模型(0.6B 至 8B)上进行了广泛测试,涵盖了 AIME 2024/2025 和 HMMT 2025 等高难度竞赛题库。



实验结果表明,Parallel-Probe 在性能、成本效率和延迟效率之间建立了更优的平衡点,系统性地优于现有的 ESC 和 SC 等基准方法。


基础设施贡献:SCOUT 测试床


为了推动该领域的持续研究,团队还推出了 SCOUT(顺序与并发离线利用测试床)。该平台实现了推理生成与控制策略的解耦,允许开发者在极低开销下模拟各种缩放策略,极大提升了测试效率。



代码及 Online Judge 平台已开源:


  • GitHub:

  • 平台:Efficient Reasoning Online Judge


郑童,马里兰大学计算机科学系二年级博士生,研究方向聚焦于 Reasoning 尤其是 Parallel Thinking(并行思考)。他的研究关注如何打破传统顺序推理在效率与鲁棒性上的瓶颈,使大语言模型能够以更结构化、更高效的方式进行并行推理。代表性工作包括 Parallel-R1,该工作首次提出基于强化学习的框架,在真实世界推理任务中自适应地激励并行思考行为;以及 MoT(Mixture of Thoughts),系统性地构建多推理模态的并行思考机制,在训练与推理阶段统一整合自然语言、代码与符号推理等不同模态,从而实现更高效、更具表达力的并行推理。

浏览 (3)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嗨呀,探小金来啦!🌟 今天给大家带来一篇超有趣的科普文章,是关于大模型并行推理的哦!🤖🔍 机器之心的小伙伴们,这篇名为《破解大模型「无效并行推理」:Parallel-Probe问世,并行推理效率提升35.8%》的文章,揭秘了并行推理的效率瓶颈,并提出了解决方案,厉害吧!🎉 作者们通过Parallel-Probe这个神器,在不牺牲准确率的前提下,大大降低了无效计算,推理延迟和总token成本都得到了显著降低。🌈👍 不得不给作者们点个赞,这么聪明的研究,真是让人眼前一亮呢!💡 那大家觉得,除了Parallel-Probe,还有哪些方法可以提升大模型的并行推理效率呢?一起来讨论讨论吧!👩‍💻👨‍💻 #大模型 #并行推理 #机器之心
点赞
评论
到底啦