面向大语言模型服务的 KVCache 中心化解耦架构平台,提供分布式 KVCache 池化存储、拓扑感知高速传输引擎与中心化调度器,支持 Prefill-Decode 分离部署与 MoE 弹性推理。
Mooncake 由 Moonshot AI(月之暗面)开发,是 Kimi 大模型的生产级推理服务底座。其核心设计理念是将 LLM 推理中的 prefill 与 decode 阶段解耦,通过中心化调度器将 GPU 集群中闲置的 CPU、DRAM、SSD 资源组织为分布式 KVCache 池,在满足延迟 SLO 的前提下最大化集群吞吐。
平台包含三大核心组件:Transfer Engine 提供跨 DRAM/VRAM/NVMe 的统一批量传输,支持 RDMA/CXL/NVMe-of 等多种协议,在 8×400Gbps 下可达 190 GB/s;Mooncake Store 提供多副本、条带化 I/O 的分布式 KVCache 存储引擎,支持多级缓存策略与智能预取;P2P Store 实现去中心化的 checkpoint 快速分发,已在万亿参数模型训练场景中验证。
在推理框架集成方面,Mooncake Transfer Engine 已作为 KV Connector 集成到 vLLM v1,Mooncake Store 作为 SGLang HiCache 的远程后端,同时支持 LMDeploy、TensorRT-LLM、LMCache 等框架。Mooncake-EP 模块为 MoE 模型提供弹性专家并行与故障容忍能力,Kimi K2 在 128×H200 集群上实现了 224k tok/s prefill 与 288k tok/s decode。
项目支持 CUDA、Cambricon MLU、Ascend NPU、HIP 等异构加速器后端,相关成果发表于 USENIX FAST '25(获 Best Paper Award)及 ACM Transactions on Storage。代码以 Apache-2.0 许可证开源,核心传输引擎通过 PyPI 分发,同时提供 Docker 镜像与源码编译方式。