发现 AI 代理的未来

oMLX

收录于 2026年4月23日
模型与推理框架
开源
Python桌面应用大语言模型模型与推理框架模型训练/推理协议/API/集成

专为 Apple Silicon 优化的原生 macOS 菜单栏 LLM 推理服务器,支持分层 KV 缓存与多模型并发。

oMLX 是一款专为 Apple Silicon(M1/M2/M3/M4)芯片设计的本地大模型推理服务器,其最大亮点在于实现了受 vLLM 启发并大幅扩展的分层 KV 缓存机制(RAM 热层 + SSD 冷层)。该机制以 safetensors 格式将低频访问的 KV 块卸载至磁盘,不仅实现了前缀共享与 Copy-on-Write,还能在服务器重启后直接复用缓存,极大地提升了上下文频繁切换场景(如编程辅助)下的响应速度。

在服务能力上,oMLX 支持在单一实例内同时加载和调度 LLM、VLM(含多图像输入与 OCR 模型自动检测)、Embedding 和 Reranker 模型,并提供 LRU 驱逐与精细化内存限制策略保障系统稳定。对外接口完全兼容 OpenAI 和 Anthropic API 协议,支持流式输出、自适应思维链及多模型族的函数调用与 JSON Schema 验证,并集成了 MCP 工具协议。

在用户体验层面,oMLX 提供了基于 PyObjC 的原生 macOS 菜单栏应用(非 Electron),支持一键启停、崩溃守护和离线 Web 管理面板。项目底层深度绑定 Apple MLX 框架,针对 Claude Code 等编程工具做了上下文缩放和 SSE 保活等专项优化,是 macOS 平台上功能完备的本地推理网关方案。

安装方式

  • macOS App:从 GitHub Releases 下载 .dmg 拖入 Applications
  • Homebrew:brew tap jundot/omlx https://github.com/jundot/omlx && brew install omlx
  • 源码:git clone https://github.com/jundot/omlx.git && pip install -e .

快速启动

omlx serve --model-dir ~/models
# OpenAI 兼容 API: http://localhost:8000/v1
# 聊天 UI: http://localhost:8000/admin/chat

核心 API 端点

  • POST /v1/chat/completions — 聊天补全(流式)
  • POST /v1/completions — 文本补全(流式)
  • POST /v1/messages — Anthropic Messages API
  • POST /v1/embeddings — 文本嵌入
  • POST /v1/rerank — 文档重排序
  • GET /v1/models — 列出可用模型

关键配置项

  • --max-model-memory 32GB — 模型内存上限
  • --max-process-memory 80% — 进程内存上限
  • --paged-ssd-cache-dir ~/.omlx/cache — SSD 冷缓存目录
  • --hot-cache-max-size 20% — 热缓存占比
  • --max-concurrent-requests 16 — 最大并发请求数
  • --mcp-config mcp.json — MCP 工具配置
  • --api-key your-secret-key — API Key 认证

模型支持范围

  • LLM:mlx-lm 支持的所有模型
  • VLM:Qwen3.5 系列、GLM-4V、Pixtral 等
  • OCR:DeepSeek-OCR、DOTS-OCR、GLM-OCR(自动检测与提示词优化)
  • Embedding:BERT、BGE-M3、ModernBERT
  • Reranker:ModernBERT、XLM-RoBERTa

生态对接

  • 上游依赖:Apple MLX、mlx-lm、mlx-vlm、mlx-embeddings
  • 编程工具:Claude Code(专项优化)、OpenClaw、OpenCode、Codex、Pi
  • 模型来源:HuggingFace mlx-community 组织(支持面板内搜索下载)
  • 协议标准:OpenAI API、Anthropic Messages API、MCP

当前最新版本为 v0.3.7(共 67 个 release),采用 Apache-2.0 许可证,由 Jun Kim (jundot) 维护。项目要求 macOS 15.0+ (Sequoia)、Apple Silicon、Python 3.10+。

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。