在本地设备集群上运行前沿大模型的分布式推理框架,基于 Apple MLX 与 libp2p,支持自动设备发现、拓扑感知并行与多 API 兼容。
exo 是一个面向本地设备集群的分布式大模型推理框架,核心目标是让多台消费级设备协同运行单机无法容纳的前沿大模型(如 DeepSeek v3.1 671B、Qwen3-235B)。框架基于 Apple MLX 及 MLX distributed 实现 GPU 加速推理与跨设备通信,通过 libp2p 实现零配置的自动设备发现与集群组网。
在并行策略上,exo 支持张量并行与流水线并行,并通过拓扑感知算法实时评估设备资源与网络状况(包括 Thunderbolt 5 上的 RDMA 能力),自动选择最优分片方案。实测中 2 设备最高获得 1.8× 加速,4 设备最高 3.2× 加速。在 macOS 26.2+ 上,exo Day-0 支持 RDMA over Thunderbolt 5,可将设备间延迟降低约 99%。
在易用性方面,exo 同时兼容 OpenAI Chat Completions、Claude Messages、OpenAI Responses 及 Ollama 四种 API 格式,可直接对接现有工具链。内置 Web Dashboard 提供管理与聊天界面。支持离线模式、集群命名空间隔离、分布式追踪,并可从 HuggingFace Hub 加载自定义 MLX 模型。
当前 Tier 1 平台为 macOS Apple Silicon,Linux 仅支持 CPU 推理(GPU 支持开发中)。提供源码构建、Nix 及 macOS .dmg 三种安装方式。