AIGC开放社区
发布于

智能体要起飞?DeepSeek发文破GPU难题,吞吐量飙升两倍

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!


DeepSeek V4即将发布的消息传得沸沸扬扬,或再现第二个“DeepSeek时刻”。

去年初DeepSeek-R1发布,导致英伟达股价下跌17%,一夜蒸发近6000亿美元。

如果DeepSeek V4再次展现出惊人突破,同样的剧本可能再次上演。

正在寻求巨额融资的美国AI公司,以及英伟达、谷歌等巨头将受到影响。

Anthropic发文称三家中国AI公司(DeepSeek、Kimi和MiniMax)对Claude进行了"工业规模的蒸馏攻击",或许就是一波舆论引导,以减轻DeepSeek V4可能的影响。

当前,全球的AI公司,都在为智能体疯狂。

DeepSeek联合北大、清华刚刚发布的最新论文,正是瞄准智能体大爆炸而来的。

DualPath双通道加载技术巧妙调用解码节点的闲置存储网络带宽,让智能体大语言模型推理吞吐量直接飙升近两倍。

大型语言模型正在向自主解决多轮复杂任务的智能体演进。

频繁的多轮交互产生了极长的上下文,使得系统性能瓶颈从算力转移到了键值缓存的存储读取上。

传统的预填充与解码分离架构中,预填充引擎独自承担了所有缓存读取压力,导致网络拥堵和GPU空闲。

团队通过引入创新的双通道加载机制和全局调度算法,彻底打通了预填充与解码节点间的传输壁垒,在不增加硬件成本的前提下实现了性能的飞跃。

智能体大语言模型带来的存储带宽瓶颈

大语言模型演变为可以自主规划和调用工具的智能体系统。在这种工作模式下,模型不再仅仅响应孤立的提示词。它需要参与长期的会话,让上下文随着时间不断积累。

智能体应用在代码助手和自动化任务执行等生产系统中变得越来越普及。

多轮大模型推理已经成为现代数据中心里极其关键的工作负载。这种应用范式的转变引发了推理工作负载的巨大变化。

传统的交互模式是用户输入问题,模型生成答案。智能体大模型则需要与外部环境进行数十甚至数百轮的互动。每次调用工具或获取反馈产生的文本虽然很短,但历史上下文会不断累加并达到惊人的长度。

极长的上下文让智能体工作负载变成了高度受限于输入输出带宽的模式。多轮次和短文本追加的特点使得键值缓存(KV-Cache)的命中率极高,通常超过95%。此时决定系统性能的关键不再是纯粹的计算能力,而是读取键值缓存的效率。

为了提升吞吐量,现有的推理系统普遍采用了一些标准的架构设计。这些设计包括按层预填充、预填充与解码分离(PD)架构以及外部键值缓存存储。预填充引擎会逐层加载键值缓存,以便在单个批次中处理尽可能多的请求。

预填充完成后,计算节点通过高性能的远程直接内存访问(RDMA)网络将缓存传输给解码引擎。

解码引擎随后生成新的词汇,并将新的缓存存入分布式存储系统中供未来轮次使用。这种架构在解决内存限制方面效果显著,但也带来了致命的局限性。

预填充引擎必须从远程存储中加载海量的键值缓存数据。预填充端的存储网络带宽直接成为了整个系统的吞吐量瓶颈。与之形成鲜明对比的是,解码引擎上的存储网络带宽却处于大量闲置状态。

这种资源的不平衡揭示了现有架构设计的根本性缺陷。预填充引擎的带宽持续处于饱和状态,而解码引擎的资源未被充分利用。在通用集群中单纯为预填充引擎增加带宽不仅成本高昂,在实际操作中也很难全面落实。

业界此前的尝试未能从根本上解决这个问题。一些系统尝试将缓存放入分布式动态随机存取内存(DRAM)中,但这在内存受限的强化学习训练场景中并不适用。面对海量数据的在线服务,使用昂贵的内存替代固态硬盘也不具备成本效益。

硬件发展的趋势对智能体推理工作负载同样不够友好。近年来网络带宽和显存容量的增长远远落后于GPU计算能力的飞跃。算力的暴涨使得我们在处理智能体任务时,极易触碰到内存和通信的硬件天花板。

低效的网卡带宽限制了缓存加载速度,导致算力强大的GPU只能在原地无所事事。容量有限的显存也限制了系统同时处理的请求数量。这进一步阻碍了张量核心等计算单元发挥出应有的极致性能。

计算网络与存储网络在现代人工智能数据中心里是物理隔离的。计算网络的聚合带宽远超存储网络,并且其流量呈现出亚毫秒级爆发的间歇性特征。这就产生了一个绝佳的优化空间。

可以利用解码节点闲置的存储网卡去存储系统中读取键值缓存。随后利用速度更快且存在空闲时段的计算网络,将这些数据传输回预填充节点。

这种思路正是打破现有存储读写瓶颈的关键所在。

双通道加载打破读写资源不平衡

为了突破预填充端的输入输出瓶颈,系统引入了颠覆传统的双通道加载架构。

它在保留传统的存储到预填充节点路径之外,开辟了一条全新的存储到解码节点路径。系统可以根据实时负载动态在这两条路径间分配数据流量。

通过这种动态分配机制,系统成功整合了所有节点的存储网卡带宽。这种设计消除了限制现有系统性能的不对称带宽饱和问题。

原本是单一瓶颈的存储读写资源,被转化成了全局共享且可调度的庞大资源池。

具体的数据流转过程非常精巧,系统会在每台预填充和解码引擎上分配少量内存作为缓冲区。

在预填充读取路径中,命中的历史缓存会先从持久化存储读入预填充引擎的内存缓冲区。

在计算每一层注意力机制前,该层的缓存会被传送到显存中参与计算。

计算完成后,命中和未命中的所有缓存会被集中传输到解码引擎的缓冲区。

这个过程会在前向传播时不断重叠进行,有效掩盖了数据传输的延迟。

预填充解码读取路径的设计逻辑与之类似,只是数据的起点变为了解码引擎的缓冲区。

解码引擎先将历史缓存读入自己的缓冲区,预填充引擎再根据层级进度按需调取这些数据。

当某一层的计算结束时,预填充引擎只需将新生成的少部分缓存传回解码引擎即可。在收到完整的缓存数据后,解码阶段便正式启动。

系统在读取存储时采用包含所有层数据的完整块布局,以最大化硬盘读取效率。

而在节点间传输数据时,则采用单层流式传输的逐层块布局。这种精细的数据结构管理保证了显存的高效利用和计算的流畅性。

经过严密的无瓶颈理论推导,在合理的预填充与解码节点比例下,双通道架构可以完全跑满所有的存储网卡。

只要PCIe拓扑配置合理且任务调度均衡,额外的网络中转根本不会造成新的计算网络拥堵。

全局读写带宽得到了最为极致的压榨与利用。

流量隔离与智能调度保障高效传输

实现双通道加载并非易事,它引入了更为复杂的网络流量模式。

最令人担忧的是,这些额外的缓存传输可能会干扰模型推理中对延迟极度敏感的集合通信操作。

如果管理不当,这些细碎的数据搬运会严重拖慢整体的推理速度。

现有的直接存储访问技术和统一设备架构复制引擎无法在底层的PCIe链路上隔离不同优先级的流量。

为了解决这个问题,系统采用了以计算网卡为中心的数据传输方案。所有进出GPU的数据都必须经过与其配对的计算网卡调度。

在InfiniBand网络环境下,系统利用虚拟通道(VL)技术强制隔离不同类型的流量。

模型推理相关的通信被分配到具有极高优先级的高速通道。键值缓存的后台传输则被分配到低优先级的通道中运行。

交换机和网卡的仲裁器配置了加权轮询策略,为高优先级通道保留了99%的带宽。

剩余的一点点带宽和网络空闲时的所有资源,都被低优先级通道用来搬运缓存数据。

这种策略让模型推理就像行驶在专属VIP车道上一样畅通无阻。

系统巧妙地将本地的主机到设备数据拷贝请求打包发送给网卡处理。

提交一次网卡写请求只需要在用户空间执行少量的寄存器操作,耗时不到一微秒。这种机制不仅避开了底层驱动的高昂调用延迟,还通过门铃批量处理技术进一步摊薄了开销。

有了畅通无阻的物理车道,还需要一个极其聪明的交通指挥官来分配任务。

由于开辟了两条加载路径,调度器必须在极短的时间内决定每个请求该走哪条路。这需要综合考虑存储网卡的排队长度、GPU的算力负荷以及请求的上下文特征。

系统将节点划分为不同的组,通过主节点统一与全局调度器对接。

调度器将引擎的负载划分为三个优先级梯队。拥有较短硬盘读取队列且尚未超载的节点会被优先分配新的推理任务。

为了防止算力和网络闲置,系统使用总标记数量作为核心参考指标来进行负载均衡。

请求会被优先分配给那些累积标记数较少且读取队列较短的预填充节点。这种精确到节点的调度策略彻底避免了局部资源过载的尴尬局面。

解码节点的调度同样遵循全局视野与局部微调相结合的策略。请求会先进入标记数总和最小的解码节点组。

系统会仔细测算组内所有节点的剩余显存容量,优先将任务分配给显存宽裕且负载较轻的具体设备。

在节点内部,预填充引擎还需要决定每一次前向计算批次中打包多少个请求。

不同GPU处理的请求长度不一,如果不加以控制,会导致所有设备在等待最慢的设备完成计算时产生大量气泡时间。

系统通过极其精准的层执行时间预估模型来解决这一难题。

只要预估的计算时间没有超过预设的算力配额,请求就会被源源不断地加入执行批次。

遇到超长请求时,系统会果断进行二分查找截断,只把合适长度的标记送入当前批次。

这保证了所有计算设备都能保持高度一致的执行步调,算力利用率达到了完美的极限。

离线与在线推理性能的大幅提升

为了验证系统的真实威力,研究团队在配备了高性能网卡和专用存储集群的硬件平台上进行了海量测试。

测试涵盖了多款业界领先的大型语言模型,包括千亿参数级别的混合专家模型和稠密模型。

测试数据均来自于真实的生产环境强化学习训练轨迹。

在模拟强化学习回滚阶段的离线批量推理场景中,双通道系统的表现极其亮眼。

面对大规模的智能体并发请求和极长的上下文背景,系统的任务完成时间显著缩短。相较于未经优化的基础框架,双通道架构实现了高达1.87倍的吞吐量跃升。

当追加的输入标记较短时,双通道系统的优势展现得更为淋漓尽致。

因为此时显存计算压力较小,缓存的读取速度直接决定了成败。

随着输入内容的加长,计算压力逐渐上升,但双通道架构依然能稳稳维持极高水平的性能输出。

无论在何种预填充与解码节点的配比下,存储带宽的全面解放都带来了实打实的收益。

基础架构只能可怜巴巴地榨取预填充节点的存储带宽。双通道架构则让整个集群的所有节点都参与到了数据搬运的大会战中。

在线服务场景的测试要求更为严苛,系统需要在源源不断的随机请求中保持极低的响应延迟。

双通道架构不仅顶住了极高的请求到达率,还确保了首字生成时间严格控制在服务等级协议允许的范围内。

相比基础架构,它支持的最高并发请求率翻了将近一倍。

词间生成延迟这一核心指标同样印证了架构的卓越性。

由于采用了巧妙的网络隔离和门铃合并技术,额外的缓存跨节点搬运完全没有干扰到解码节点的日常工作。用户在接收后续文本时,依然能感受到如丝般顺滑的输出体验。

剥丝抽茧的消融实验精准量化了每个技术组件的贡献值。

仅仅是按层预填充技术,就使得任务完成时间缩短了17%。双通道加载技术的加入,更是让任务完成时间大幅下降了38%。

配合精密的智能调度算法,最终实现了45%的压倒性速度优势。

调度算法在均衡资源方面发挥了决定性作用。原本可能拥堵不堪的存储网卡流量,在调度器的指挥下变得井然有序。

计算节点的注意力机制执行时间也实现了高度统一,将GPU空转等待的浪费降到了极低水平。

在动用上千张GPU的大规模集群测试中,这套系统依然展现出了完美的线性扩展能力。

从少量的并发请求到数以万计的庞大任务,它的处理时间始终保持平稳。调度器自身的中央处理器消耗也被控制在极低水平,完全排除了单点故障隐患。

这项技术犹如给拥挤的交通枢纽打通了一条畅通无阻的地下高速网络。

它打破了单节点数据存取的硬性约束,为未来更加复杂的智能体大模型应用扫清了底层基础设施的障碍。

参考资料:

https://arxiv.org/pdf/2602.21548

浏览 (13)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嗨呀,AIGC开放社区的小伙伴们!探小金来啦~ 你们的DeepSeek V4厉害极了,突破了GPU难题,吞吐量飙升两倍,这简直就像是智能体起飞了!🚀 AIGC开发者们,快来看呀,这篇文章里的双通道加载技术太酷了,让我们一起期待更多这样的突破吧!#智能体起飞# 🎉💡
点赞
评论
到底啦