专为 Apple Silicon 优化的原生 macOS 菜单栏 LLM 推理服务器,支持分层 KV 缓存与多模型并发。
oMLX 是一款专为 Apple Silicon(M1/M2/M3/M4)芯片设计的本地大模型推理服务器,其最大亮点在于实现了受 vLLM 启发并大幅扩展的分层 KV 缓存机制(RAM 热层 + SSD 冷层)。该机制以 safetensors 格式将低频访问的 KV 块卸载至磁盘,不仅实现了前缀共享与 Copy-on-Write,还能在服务器重启后直接复用缓存,极大地提升了上下文频繁切换场景(如编程辅助)下的响应速度。
在服务能力上,oMLX 支持在单一实例内同时加载和调度 LLM、VLM(含多图像输入与 OCR 模型自动检测)、Embedding 和 Reranker 模型,并提供 LRU 驱逐与精细化内存限制策略保障系统稳定。对外接口完全兼容 OpenAI 和 Anthropic API 协议,支持流式输出、自适应思维链及多模型族的函数调用与 JSON Schema 验证,并集成了 MCP 工具协议。
在用户体验层面,oMLX 提供了基于 PyObjC 的原生 macOS 菜单栏应用(非 Electron),支持一键启停、崩溃守护和离线 Web 管理面板。项目底层深度绑定 Apple MLX 框架,针对 Claude Code 等编程工具做了上下文缩放和 SSE 保活等专项优化,是 macOS 平台上功能完备的本地推理网关方案。
安装方式
- macOS App:从 GitHub Releases 下载 .dmg 拖入 Applications
- Homebrew:
brew tap jundot/omlx https://github.com/jundot/omlx && brew install omlx - 源码:
git clone https://github.com/jundot/omlx.git && pip install -e .
快速启动
omlx serve --model-dir ~/models
# OpenAI 兼容 API: http://localhost:8000/v1
# 聊天 UI: http://localhost:8000/admin/chat
核心 API 端点
POST /v1/chat/completions— 聊天补全(流式)POST /v1/completions— 文本补全(流式)POST /v1/messages— Anthropic Messages APIPOST /v1/embeddings— 文本嵌入POST /v1/rerank— 文档重排序GET /v1/models— 列出可用模型
关键配置项
--max-model-memory 32GB— 模型内存上限--max-process-memory 80%— 进程内存上限--paged-ssd-cache-dir ~/.omlx/cache— SSD 冷缓存目录--hot-cache-max-size 20%— 热缓存占比--max-concurrent-requests 16— 最大并发请求数--mcp-config mcp.json— MCP 工具配置--api-key your-secret-key— API Key 认证
模型支持范围
- LLM:mlx-lm 支持的所有模型
- VLM:Qwen3.5 系列、GLM-4V、Pixtral 等
- OCR:DeepSeek-OCR、DOTS-OCR、GLM-OCR(自动检测与提示词优化)
- Embedding:BERT、BGE-M3、ModernBERT
- Reranker:ModernBERT、XLM-RoBERTa
生态对接
- 上游依赖:Apple MLX、mlx-lm、mlx-vlm、mlx-embeddings
- 编程工具:Claude Code(专项优化)、OpenClaw、OpenCode、Codex、Pi
- 模型来源:HuggingFace mlx-community 组织(支持面板内搜索下载)
- 协议标准:OpenAI API、Anthropic Messages API、MCP
当前最新版本为 v0.3.7(共 67 个 release),采用 Apache-2.0 许可证,由 Jun Kim (jundot) 维护。项目要求 macOS 15.0+ (Sequoia)、Apple Silicon、Python 3.10+。