发现 AI 代理的未来arrow_forward

Mooncake

calendar_today收录于 2026年4月23日
category模型与推理框架
code开源
PythonRustPyTorch大语言模型CLI模型与推理框架模型训练/推理协议/API/集成

面向大语言模型服务的 KVCache 中心化解耦架构平台,提供分布式 KVCache 池化存储、拓扑感知高速传输引擎与中心化调度器,支持 Prefill-Decode 分离部署与 MoE 弹性推理。

Mooncake 由 Moonshot AI(月之暗面)开发,是 Kimi 大模型的生产级推理服务底座。其核心设计理念是将 LLM 推理中的 prefill 与 decode 阶段解耦,通过中心化调度器将 GPU 集群中闲置的 CPU、DRAM、SSD 资源组织为分布式 KVCache 池,在满足延迟 SLO 的前提下最大化集群吞吐。

平台包含三大核心组件:Transfer Engine 提供跨 DRAM/VRAM/NVMe 的统一批量传输,支持 RDMA/CXL/NVMe-of 等多种协议,在 8×400Gbps 下可达 190 GB/s;Mooncake Store 提供多副本、条带化 I/O 的分布式 KVCache 存储引擎,支持多级缓存策略与智能预取;P2P Store 实现去中心化的 checkpoint 快速分发,已在万亿参数模型训练场景中验证。

在推理框架集成方面,Mooncake Transfer Engine 已作为 KV Connector 集成到 vLLM v1,Mooncake Store 作为 SGLang HiCache 的远程后端,同时支持 LMDeploy、TensorRT-LLM、LMCache 等框架。Mooncake-EP 模块为 MoE 模型提供弹性专家并行与故障容忍能力,Kimi K2 在 128×H200 集群上实现了 224k tok/s prefill 与 288k tok/s decode。

项目支持 CUDA、Cambricon MLU、Ascend NPU、HIP 等异构加速器后端,相关成果发表于 USENIX FAST '25(获 Best Paper Award)及 ACM Transactions on Storage。代码以 Apache-2.0 许可证开源,核心传输引擎通过 PyPI 分发,同时提供 Docker 镜像与源码编译方式。

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch