LLMKube

面向 Kubernetes 的自托管 LLM 推理编排 Operator，统一调度 NVIDIA GPU 与 Apple Silicon Metal 异构算力，提供 OpenAI 兼容 API。

LLMKube 是一个 Kubernetes 原生 Operator，通过 Model 和 InferenceService 两种 CRD 将 LLM 推理部署简化为 YAML 声明。项目支持 llama.cpp、vLLM、TGI、Ollama 四种后端运行时，覆盖从模型自动下载与持久化缓存到 OpenAI 兼容 API 暴露的全链路。

在算力调度方面，LLMKube 支持 NVIDIA CUDA 全系列 GPU 和 Apple Silicon Metal，通过 Metal Agent 在 macOS 节点上以原生进程突破容器 GPU 访问限制，实现同一 CRD 在异构集群间的无缝切换。多 GPU 场景下自动完成层分片与张量切分，支持 13B–70B+ 大模型部署。

运维层面提供完整 CLI 工具（deploy/list/status/delete/catalog/cache/queue）、10+ 预配置模型目录（含 DeepSeek R1 等）、Prometheus 指标与 OpenTelemetry 追踪集成、Grafana GPU 监控仪表盘（利用率、温度、功耗、显存）及 SLO 告警，并内置许可证合规扫描与供应链安全检查（checksum、govulncheck、gosec）。通过 Spot 实例与缩放至零能力降低成本，多云 Terraform 模块覆盖 GKE、AKS、EKS，同时支持 K3s 边缘与气隙部署场景。

性能参考#

GKE / NVIDIA L4：GPU vs CPU 约 17x token 生成加速，66x prompt 处理加速
双 RTX 5060 Ti：3B–8B 模型稳定约 53 tok/s，自动层分片

快速开始#

# Helm 安装（推荐）
helm repo add llmkube https://defilantech.github.io/LLMKube
helm install llmkube llmkube/llmkube --namespace llmkube-system --create-namespace

# CLI 安装（macOS）
brew install defilantech/tap/llmkube

# 快速部署模型
llmkube deploy phi-3-mini --cpu 500m --memory 1Gi
llmkube deploy llama-3.1-8b --gpu --gpu-count 1
llmkube deploy llama-3.1-8b --accelerator metal

待确认项#

vLLM / TGI 后端集成完成度（README 示例主要展示 llama.cpp 路径）
S3 模型来源支持（标注为 planned）
缩放至零实现细节（基于 KEDA 还是自定义实现）

性能参考#

快速开始#

待确认项#

相关项目

openOii

OS AI Computer Use

Dingent

保持更新