DeepSeek联合清北发布DualPath推理框架：吞吐量提升近2倍

2月27日消息，依旧没等到DeepSeek V4，今天DeepSeek与北京大学、清华大学在ArXiv联合发布了一篇关于全新智能体推理框架DualPath的论文。据了解，该框架旨在解决智能体在长文本推理场景下面临的I/O瓶颈问题，通过优化存储读取路径，显著提升了大规模模型的推理吞吐量。

据论文介绍，DualPath的核心创新在于改变了传统的“存储至预填充引擎”（Storage-to-Prefill）单路径加载模式，引入了“存储至解码引擎”（Storage-to-Decode）的第二条路径。在现有的预填充-解码分离架构中，存储I/O压力往往集中在预填充引擎上，导致解码引擎的存储带宽闲置，这种不平衡成为了限制系统吞吐量的障碍。DualPath通过利用解码引擎闲置的存储网卡带宽读取缓存，并配合高速计算网络（RDMA）将其传输至预填充引擎，实现了集群存储带宽的全局池化与动态负载均衡。

在技术实现上，DualPath采用了以计算网卡为中心的流量管理和自适应请求调度机制。系统将所有GPU相关流量统一管理，利用服务质量（QoS）机制确保推理通信的高优先级，保证大规模数据传输不干扰延迟敏感型任务。同时，调度器能实时监控各引擎负载，动态决定最优路径，减少GPU执行过程中的闲置时间。

数据显示，研究团队在包含1152个GPU的大规模生产集群上，使用660B规模的模型进行了实测。结果表明，DualPath在离线推理场景下的吞吐量提高了1.87倍，在线服务场景下的吞吐量平均提升了1.96倍。此外，在高负载环境下，首字延迟（TTFT）得到大幅优化，而Token间的生成速度几乎未受干扰。（袁宁）