【导语Moonshot AI与清华大学研究团队推出预填充即服务PrfaaS架构打破大型语言模型服务对数据中心和计算机资源的限制处理性能显著提升服务吞吐量提高54%。】PrfaaS架构打破大模型资源限制目前大型语言模型推理过程分预填充和解码两阶段传统架构需在同一数据中心完成这两个阶段造成计算和带宽限制。而Moonshot AI与清华大学研究团队推出的PrfaaS架构旨在打破大型语言模型服务中对数据中心和计算机资源的限制。性能提升服务吞吐量提高54%PrfaaS通过将预填充任务卸载到专用的高计算集群上并利用通用以太网将生成的KVCache传输到本地解码集群实现跨数据中心的高效服务。研究表明该架构在处理性能上显著提升相比于传统模型服务吞吐量提高了54%在实际案例研究中还表现出更低的延迟和更高的效率。创新设计分开管理与调度优化PrfaaS架构的设计将计算、网络和存储三大子系统分开管理通过精确的路由机制确保长请求能高效传输避免了传统方法中因资源分配不均而导致的拥堵问题。同时该系统还引入了双时间尺度调度机制以应对不同流量模式的变化进一步优化资源利用。编辑观点PrfaaS架构的推出为大型语言模型服务带来新突破有效提升性能与资源利用效率有望推动大模型服务更广泛应用。