发现 AI 代理的未来arrow_forward

LLMKube

calendar_today收录于 2026年4月25日
category模型与推理框架
code开源
Docker大语言模型vLLMCLI模型与推理框架模型训练/推理协议/API/集成

面向 Kubernetes 的自托管 LLM 推理编排 Operator,统一调度 NVIDIA GPU 与 Apple Silicon Metal 异构算力,提供 OpenAI 兼容 API。

LLMKube 是一个 Kubernetes 原生 Operator,通过 ModelInferenceService 两种 CRD 将 LLM 推理部署简化为 YAML 声明。项目支持 llama.cpp、vLLM、TGI、Ollama 四种后端运行时,覆盖从模型自动下载与持久化缓存到 OpenAI 兼容 API 暴露的全链路。

在算力调度方面,LLMKube 支持 NVIDIA CUDA 全系列 GPU 和 Apple Silicon Metal,通过 Metal Agent 在 macOS 节点上以原生进程突破容器 GPU 访问限制,实现同一 CRD 在异构集群间的无缝切换。多 GPU 场景下自动完成层分片与张量切分,支持 13B–70B+ 大模型部署。

运维层面提供完整 CLI 工具(deploy/list/status/delete/catalog/cache/queue)、10+ 预配置模型目录(含 DeepSeek R1 等)、Prometheus 指标与 OpenTelemetry 追踪集成、Grafana GPU 监控仪表盘(利用率、温度、功耗、显存)及 SLO 告警,并内置许可证合规扫描与供应链安全检查(checksum、govulncheck、gosec)。通过 Spot 实例与缩放至零能力降低成本,多云 Terraform 模块覆盖 GKE、AKS、EKS,同时支持 K3s 边缘与气隙部署场景。

性能参考#

  • GKE / NVIDIA L4:GPU vs CPU 约 17x token 生成加速,66x prompt 处理加速
  • 双 RTX 5060 Ti:3B–8B 模型稳定约 53 tok/s,自动层分片

快速开始#

# Helm 安装(推荐)
helm repo add llmkube https://defilantech.github.io/LLMKube
helm install llmkube llmkube/llmkube --namespace llmkube-system --create-namespace

# CLI 安装(macOS)
brew install defilantech/tap/llmkube

# 快速部署模型
llmkube deploy phi-3-mini --cpu 500m --memory 1Gi
llmkube deploy llama-3.1-8b --gpu --gpu-count 1
llmkube deploy llama-3.1-8b --accelerator metal

待确认项#

  • vLLM / TGI 后端集成完成度(README 示例主要展示 llama.cpp 路径)
  • S3 模型来源支持(标注为 planned)
  • 缩放至零实现细节(基于 KEDA 还是自定义实现)

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch