2024 年 11 月 28 日,阿里云与清华大学联合开源了名为 Mooncake 的大模型推理项目。该项目通过以 KVCache 为核心的架构,旨在提升大模型应用的推理吞吐量并降低成本。其关键在于利用现有的 AI 基础设施来提高推理速度,并通过资源解耦技术,实现不同推理实例之间的缓存共享。这一合作吸引了多家企业和研究机构的参与,致力于推进大模型推理系统的发展和开源生态的建设。
Mooncake 采用分布式 KVCache 架构,将推理的预填充和解码阶段独立出来,从而优化推理的吞吐量。此外,其全局调度器负责调度请求和调整系统吞吐量,还引入了一种基于预测的早期拒绝策略,以平衡延迟和负载均衡。项目的目标是建立高性能内存语义存储的标准接口,为大模型推理系统提供参考,尤其应用于自然语言处理等领域。
在项目中,阿里云提供了 Transfer Engine 等关键组件,并与现有的大模型推理框架 vLLM 进行适配。清华大学的 MADSys 实验室帮助实现了资源解耦架构中的缓存共享功能。此次开源被视为 AI 推理系统优化上的一次重要发展,吸引了业内公司和开发者的关注。对于希望在 AI 领域深入发展的企业而言,Mooncake 提供了参与的机会。