阿里云与清华携手开源，Mooncake 如何革新大模型推理？

2024 年 11 月 28 日，阿里云与清华大学联合开源了名为 Mooncake 的大模型推理项目。该项目通过以 KVCache 为核心的架构，旨在提升大模型应用的推理吞吐量并降低成本。其关键在于利用现有的 AI 基础设施来提高推理速度，并通过资源解耦技术，实现不同推理实例之间的缓存共享。这一合作吸引了多家企业和研究机构的参与，致力于推进大模型推理系统的发展和开源生态的建设。

Mooncake 采用分布式 KVCache 架构，将推理的预填充和解码阶段独立出来，从而优化推理的吞吐量。此外，其全局调度器负责调度请求和调整系统吞吐量，还引入了一种基于预测的早期拒绝策略，以平衡延迟和负载均衡。项目的目标是建立高性能内存语义存储的标准接口，为大模型推理系统提供参考，尤其应用于自然语言处理等领域。

在项目中，阿里云提供了 Transfer Engine 等关键组件，并与现有的大模型推理框架 vLLM 进行适配。清华大学的 MADSys 实验室帮助实现了资源解耦架构中的缓存共享功能。此次开源被视为 AI 推理系统优化上的一次重要发展，吸引了业内公司和开发者的关注。对于希望在 AI 领域深入发展的企业而言，Mooncake 提供了参与的机会。