面向 Kubernetes 的自托管 LLM 推理编排 Operator,统一调度 NVIDIA GPU 与 Apple Silicon Metal 异构算力,提供 OpenAI 兼容 API。
LLMKube 是一个 Kubernetes 原生 Operator,通过 Model 和 InferenceService 两种 CRD 将 LLM 推理部署简化为 YAML 声明。项目支持 llama.cpp、vLLM、TGI、Ollama 四种后端运行时,覆盖从模型自动下载与持久化缓存到 OpenAI 兼容 API 暴露的全链路。
在算力调度方面,LLMKube 支持 NVIDIA CUDA 全系列 GPU 和 Apple Silicon Metal,通过 Metal Agent 在 macOS 节点上以原生进程突破容器 GPU 访问限制,实现同一 CRD 在异构集群间的无缝切换。多 GPU 场景下自动完成层分片与张量切分,支持 13B–70B+ 大模型部署。
运维层面提供完整 CLI 工具(deploy/list/status/delete/catalog/cache/queue)、10+ 预配置模型目录(含 DeepSeek R1 等)、Prometheus 指标与 OpenTelemetry 追踪集成、Grafana GPU 监控仪表盘(利用率、温度、功耗、显存)及 SLO 告警,并内置许可证合规扫描与供应链安全检查(checksum、govulncheck、gosec)。通过 Spot 实例与缩放至零能力降低成本,多云 Terraform 模块覆盖 GKE、AKS、EKS,同时支持 K3s 边缘与气隙部署场景。
性能参考#
- GKE / NVIDIA L4:GPU vs CPU 约 17x token 生成加速,66x prompt 处理加速
- 双 RTX 5060 Ti:3B–8B 模型稳定约 53 tok/s,自动层分片
快速开始#
# Helm 安装(推荐)
helm repo add llmkube https://defilantech.github.io/LLMKube
helm install llmkube llmkube/llmkube --namespace llmkube-system --create-namespace
# CLI 安装(macOS)
brew install defilantech/tap/llmkube
# 快速部署模型
llmkube deploy phi-3-mini --cpu 500m --memory 1Gi
llmkube deploy llama-3.1-8b --gpu --gpu-count 1
llmkube deploy llama-3.1-8b --accelerator metal
待确认项#
- vLLM / TGI 后端集成完成度(README 示例主要展示 llama.cpp 路径)
- S3 模型来源支持(标注为 planned)
- 缩放至零实现细节(基于 KEDA 还是自定义实现)