发现 AI 代理的未来arrow_forward

Ghost OS

calendar_today收录于 2026年4月23日
category智能体与应用工具
code开源
Python工作流自动化桌面应用MCP多模态AI代理智能体与应用工具文档教程与资源自动化/工作流/RPA协议/API/集成计算机视觉/多模态

面向 AI Agent 的 macOS 全桌面操控系统,通过 29 个 MCP 工具实现结构化感知、视觉定位、合成输入与自学习 Recipe 工作流。

Ghost OS 是一个面向 AI Agent 的 macOS 全桌面操控系统,通过 MCP(Model Context Protocol)将 macOS 的 Accessibility API、视觉模型和合成输入能力统一暴露为 29 个标准工具,使任意 MCP 兼容的 AI Agent 能够"看见"并操控 Mac 上的所有原生应用。

结构化感知与级联回退

系统优先通过 macOS Accessibility API 读取 UI 元素的结构化数据(按钮、文本框、标签、位置、可用动作),响应时间 50–500ms。当 AX Tree 信息不足时(如 Chrome 将 Web 元素扁平化为 AXGroup),自动回退到 Chrome DevTools Protocol 进行 DOM 查询;进一步回退到 ShowUI-2B 本地视觉模型进行像素级定位;最终可回退到 CGEvent 坐标输入。这条 AX Tree → CDP → ShowUI-2B → CGEvent 的级联链确保了在各种应用场景下的鲁棒性。

自学习 Recipe 系统

v2.2.0 引入的核心特性。通过 ghost_learn_start / ghost_learn_stop 以 CGEvent tap + AX Tree 上下文捕获用户操作,由 Claude 将原始序列合成为参数化 JSON Recipe。Recipe 支持参数化复放(如 gmail-send recipe 接收收件人、主题、正文参数),实现"前沿模型学习一次,小模型永远运行"的成本优化模式。Recipe 为本地 JSON 文件,可审计、可团队共享。

完整工具覆盖

29 个 MCP 工具覆盖感知(context、state、find、read、inspect、screenshot、annotate)、操作(click、type、hover、drag、long_press)、导航(scroll、press、hotkey)、窗口管理(window、focus)、等待同步(wait,支持 URL/元素/标题变化条件)、Recipe 管理(增删改查与执行)、学习控制以及视觉定位(ground、parse_screen、element_at)。

本地隐私

ShowUI-2B 视觉模型(~3.0 GB)通过 MLX 在 Apple Silicon 上本地推理,所有数据不离开本机。

运行环境

要求 macOS 14+ (Sonoma)、Apple Silicon 芯片。通过 Homebrew 一键安装,ghost setup 自动处理权限、MCP 配置、Recipe 安装和视觉模型下载。已验证兼容 Claude Code、Cursor、VS Code、Claude Desktop 等 MCP 客户端。核心依赖包括 AXorcist(macOS 无障碍引擎)和 ShowUI-2B(视觉定位模型)。主体语言 Swift(92.1%),约 7,000 行代码,采用 MIT 协议。

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch