exo

在本地设备集群上运行前沿大模型的分布式推理框架，基于 Apple MLX 与 libp2p，支持自动设备发现、拓扑感知并行与多 API 兼容。

exo 是一个面向本地设备集群的分布式大模型推理框架，核心目标是让多台消费级设备协同运行单机无法容纳的前沿大模型（如 DeepSeek v3.1 671B、Qwen3-235B）。框架基于 Apple MLX 及 MLX distributed 实现 GPU 加速推理与跨设备通信，通过 libp2p 实现零配置的自动设备发现与集群组网。

在并行策略上，exo 支持张量并行与流水线并行，并通过拓扑感知算法实时评估设备资源与网络状况（包括 Thunderbolt 5 上的 RDMA 能力），自动选择最优分片方案。实测中 2 设备最高获得 1.8× 加速，4 设备最高 3.2× 加速。在 macOS 26.2+ 上，exo Day-0 支持 RDMA over Thunderbolt 5，可将设备间延迟降低约 99%。

在易用性方面，exo 同时兼容 OpenAI Chat Completions、Claude Messages、OpenAI Responses 及 Ollama 四种 API 格式，可直接对接现有工具链。内置 Web Dashboard 提供管理与聊天界面。支持离线模式、集群命名空间隔离、分布式追踪，并可从 HuggingFace Hub 加载自定义 MLX 模型。

当前 Tier 1 平台为 macOS Apple Silicon，Linux 仅支持 CPU 推理（GPU 支持开发中）。提供源码构建、Nix 及 macOS .dmg 三种安装方式。

相关项目

丞相

Xpdite

models

保持更新