2月27日消息,依旧没等到DeepSeek V4,今天DeepSeek与北京大学、清华大学在ArXiv联合发布了一篇关于全新智能体推理框架DualPath的论文。据了解,该框架旨在解决智能体在长文本推理场景下面临的I/O瓶颈问题,通过优化存储读取路径,显著提升了大规模模型的推理吞吐量。
据论文介绍,DualPath的核心创新在于改变了传统的“存储至预填充引擎”(Storage-to-Prefill)单路径加载模式,引入了“存储至解码引擎”(Storage-to-Decode)的第二条路径。在现有的预填充-解码分离架构中,存储I/O压力往往集中在预填充引擎上,导致解码引擎的存储带宽闲置,这种不平衡成为了限制系统吞吐量的障碍。DualPath通过利用解码引擎闲置的存储网卡带宽读取缓存,并配合高速计算网络(RDMA)将其传输至预填充引擎,实现了集群存储带宽的全局池化与动态负载均衡。
在技术实现上,DualPath采用了以计算网卡为中心的流量管理和自适应请求调度机制。系统将所有GPU相关流量统一管理,利用服务质量(QoS)机制确保推理通信的高优先级,保证大规模数据传输不干扰延迟敏感型任务。同时,调度器能实时监控各引擎负载,动态决定最优路径,减少GPU执行过程中的闲置时间。
数据显示,研究团队在包含1152个GPU的大规模生产集群上,使用660B规模的模型进行了实测。结果表明,DualPath在离线推理场景下的吞吐量提高了1.87倍,在线服务场景下的吞吐量平均提升了1.96倍。此外,在高负载环境下,首字延迟(TTFT)得到大幅优化,而Token间的生成速度几乎未受干扰。(袁宁)