oMLX

专为 Apple Silicon 优化的原生 macOS 菜单栏 LLM 推理服务器，支持分层 KV 缓存与多模型并发。

oMLX 是一款专为 Apple Silicon（M1/M2/M3/M4）芯片设计的本地大模型推理服务器，其最大亮点在于实现了受 vLLM 启发并大幅扩展的分层 KV 缓存机制（RAM 热层 + SSD 冷层）。该机制以 safetensors 格式将低频访问的 KV 块卸载至磁盘，不仅实现了前缀共享与 Copy-on-Write，还能在服务器重启后直接复用缓存，极大地提升了上下文频繁切换场景（如编程辅助）下的响应速度。

在服务能力上，oMLX 支持在单一实例内同时加载和调度 LLM、VLM（含多图像输入与 OCR 模型自动检测）、Embedding 和 Reranker 模型，并提供 LRU 驱逐与精细化内存限制策略保障系统稳定。对外接口完全兼容 OpenAI 和 Anthropic API 协议，支持流式输出、自适应思维链及多模型族的函数调用与 JSON Schema 验证，并集成了 MCP 工具协议。

在用户体验层面，oMLX 提供了基于 PyObjC 的原生 macOS 菜单栏应用（非 Electron），支持一键启停、崩溃守护和离线 Web 管理面板。项目底层深度绑定 Apple MLX 框架，针对 Claude Code 等编程工具做了上下文缩放和 SSE 保活等专项优化，是 macOS 平台上功能完备的本地推理网关方案。

安装方式

macOS App：从 GitHub Releases 下载 .dmg 拖入 Applications
Homebrew：brew tap jundot/omlx https://github.com/jundot/omlx && brew install omlx
源码：git clone https://github.com/jundot/omlx.git && pip install -e .

快速启动

omlx serve --model-dir ~/models
# OpenAI 兼容 API: http://localhost:8000/v1
# 聊天 UI: http://localhost:8000/admin/chat

核心 API 端点

POST /v1/chat/completions — 聊天补全（流式）
POST /v1/completions — 文本补全（流式）
POST /v1/messages — Anthropic Messages API
POST /v1/embeddings — 文本嵌入
POST /v1/rerank — 文档重排序
GET /v1/models — 列出可用模型

关键配置项

--max-model-memory 32GB — 模型内存上限
--max-process-memory 80% — 进程内存上限
--paged-ssd-cache-dir ~/.omlx/cache — SSD 冷缓存目录
--hot-cache-max-size 20% — 热缓存占比
--max-concurrent-requests 16 — 最大并发请求数
--mcp-config mcp.json — MCP 工具配置
--api-key your-secret-key — API Key 认证

模型支持范围

LLM：mlx-lm 支持的所有模型
VLM：Qwen3.5 系列、GLM-4V、Pixtral 等
OCR：DeepSeek-OCR、DOTS-OCR、GLM-OCR（自动检测与提示词优化）
Embedding：BERT、BGE-M3、ModernBERT
Reranker：ModernBERT、XLM-RoBERTa

生态对接

上游依赖：Apple MLX、mlx-lm、mlx-vlm、mlx-embeddings
编程工具：Claude Code（专项优化）、OpenClaw、OpenCode、Codex、Pi
模型来源：HuggingFace mlx-community 组织（支持面板内搜索下载）
协议标准：OpenAI API、Anthropic Messages API、MCP

当前最新版本为 v0.3.7（共 67 个 release），采用 Apache-2.0 许可证，由 Jun Kim (jundot) 维护。项目要求 macOS 15.0+ (Sequoia)、Apple Silicon、Python 3.10+。

相关项目

Zylos Core

verl

Kalshi AI Trading Bot

保持更新