Skip to content
毫河风报
菜单
  • 首页
  • 关于我们
  • 联系我们
  • 播记
 

阿里云与清华携手开源,Mooncake 如何革新大模型推理?

2024-11-28

2024 年 11 月 28 日,阿里云与清华大学联合开源了名为 Mooncake 的大模型推理项目。该项目通过以 KVCache 为核心的架构,旨在提升大模型应用的推理吞吐量并降低成本。其关键在于利用现有的 AI 基础设施来提高推理速度,并通过资源解耦技术,实现不同推理实例之间的缓存共享。这一合作吸引了多家企业和研究机构的参与,致力于推进大模型推理系统的发展和开源生态的建设。

Mooncake 采用分布式 KVCache 架构,将推理的预填充和解码阶段独立出来,从而优化推理的吞吐量。此外,其全局调度器负责调度请求和调整系统吞吐量,还引入了一种基于预测的早期拒绝策略,以平衡延迟和负载均衡。项目的目标是建立高性能内存语义存储的标准接口,为大模型推理系统提供参考,尤其应用于自然语言处理等领域。

在项目中,阿里云提供了 Transfer Engine 等关键组件,并与现有的大模型推理框架 vLLM 进行适配。清华大学的 MADSys 实验室帮助实现了资源解耦架构中的缓存共享功能。此次开源被视为 AI 推理系统优化上的一次重要发展,吸引了业内公司和开发者的关注。对于希望在 AI 领域深入发展的企业而言,Mooncake 提供了参与的机会。

AI 日报

查看全部日报

  • 贝索斯加持 AI 搜索新星估值 140 亿!3 年超谷歌 7 年成绩
  • 苹果重磅爆料:秘密研发两大“杀手锏”芯片,剑指智能眼镜与 AI 服务器!
  • 千觉机器人完成千万融资!加速多模态触觉技术落地
  • 智能驾驶新进展!地平线吕鹏专业解析,市场定位有何玄机?
  • 日本 AI 创企 CADDi 狂揽 3.8 亿美元!制造业采购效率暴增 60%

©2025 毫河风报 沪ICP备18012441号-5