Mooncake

面向大语言模型服务的 KVCache 中心化解耦架构平台，提供分布式 KVCache 池化存储、拓扑感知高速传输引擎与中心化调度器，支持 Prefill-Decode 分离部署与 MoE 弹性推理。

Mooncake 由 Moonshot AI（月之暗面）开发，是 Kimi 大模型的生产级推理服务底座。其核心设计理念是将 LLM 推理中的 prefill 与 decode 阶段解耦，通过中心化调度器将 GPU 集群中闲置的 CPU、DRAM、SSD 资源组织为分布式 KVCache 池，在满足延迟 SLO 的前提下最大化集群吞吐。

平台包含三大核心组件：Transfer Engine 提供跨 DRAM/VRAM/NVMe 的统一批量传输，支持 RDMA/CXL/NVMe-of 等多种协议，在 8×400Gbps 下可达 190 GB/s；Mooncake Store 提供多副本、条带化 I/O 的分布式 KVCache 存储引擎，支持多级缓存策略与智能预取；P2P Store 实现去中心化的 checkpoint 快速分发，已在万亿参数模型训练场景中验证。

在推理框架集成方面，Mooncake Transfer Engine 已作为 KV Connector 集成到 vLLM v1，Mooncake Store 作为 SGLang HiCache 的远程后端，同时支持 LMDeploy、TensorRT-LLM、LMCache 等框架。Mooncake-EP 模块为 MoE 模型提供弹性专家并行与故障容忍能力，Kimi K2 在 128×H200 集群上实现了 224k tok/s prefill 与 288k tok/s decode。

项目支持 CUDA、Cambricon MLU、Ascend NPU、HIP 等异构加速器后端，相关成果发表于 USENIX FAST '25（获 Best Paper Award）及 ACM Transactions on Storage。代码以 Apache-2.0 许可证开源，核心传输引擎通过 PyPI 分发，同时提供 Docker 镜像与源码编译方式。

相关项目

Desloppify

OpenChrome

spec-gen

保持更新