2025 年 2 月 24 日,DeepSeek 在开源周活动期间连续发布两项重要技术更新。北京时间上午 9 点,FlashMLA 解码核率先开源,这款针对 Hopper GPU 优化的推理加速工具在 45 分钟内获得 400 star,其核心价值在于通过减少 KV Cache 降低长文本推理成本。次日,DeepSeek 推出 DeepEP 通信库,直指 MoE 模型的核心痛点 —— 当模型参数规模突破万亿级别时,分布式系统中专家网络间的数据传输效率成为制约算力发挥的关键瓶颈。
MoE 架构的稀疏计算特性要求系统动态选择激活的专家网络。当模型部署在超过 1024 张 GPU 的集群时,传统通信协议难以适应突发的数据交换需求,容易造成部分计算单元空闲等待。DeepEP 通过重构通信协议栈,使专家网络间的权重交换延迟降低至微秒级,配合动态负载均衡算法优化算力分配。
技术文档显示,DeepEP 支持 PyTorch 和 MindSpore 双框架,可自动识别英伟达、华为昇腾等不同计算卡类型。在 H800 显卡集群的测试中,当处理 4096 token 长度的序列时,专家网络切换引发的通信开销从 21% 压缩至 7%。该库已应用于商汤大装置最新发布的 DeepSeek-R1 企业版,支撑其实现千万级 token 的免费 API 服务。
开源社区注意到,DeepSeek 此次开源的 FlashMLA 与 DeepEP 存在技术协同效应。FlashMLA 针对单卡推理场景优化显存管理,DeepEP 则解决多卡协同时的系统级效率问题。这种组合策略使开发者既能快速部署单机版模型,也可平滑扩展到千卡级训练集群。目前 DeepEP 已支持包括 Llama、Qwen 在内的主流开源架构。