本地跨平台桌面自动化智能体,支持多 LLM 提供商直接操控操作系统图形界面
OS AI Computer Use 是一个本地运行的跨平台桌面自动化智能体,通过统一的 LLMClient 抽象层对接 OpenAI GPT-5.4 与 Anthropic Claude Sonnet/Opus 4.6 等大语言模型,实现 AI 对操作系统的直接操控。项目覆盖鼠标移动(缓动曲线)、点击(修饰键)、拖拽(多点路径)、键盘输入(跨平台键位映射)、滚动、文本输入、截图等完整桌面操控原语。
架构设计#
采用 monorepo + workspace 结构,Python 使用 uv 管理多包,核心包括应用逻辑层(core)、OS 抽象层(os/os-macos/os-linux)、LLM 领域类型与适配器(llm/llm_openai/llm_anthropic)、WebSocket/REST 后端及 Flutter 跨平台前端。新增 LLM 提供商只需实现 LLMClient 接口,无需修改上层模块。
核心设计模式:
- LLMClient 抽象:提供商隔离,新增后端无需修改 core/backend/frontend
- ProviderPart:类型化内容块,区分提供商特定数据
- provider_context:不透明状态对象在迭代间传递(如 OpenAI 的
previous_response_id) - Batch Handler:统一入口处理单步和批量操作,对上层透明
- OS 抽象层:端口/驱动接口分离,各平台驱动独立实现
多提供商 AI 引擎#
- OpenAI 适配器:使用 Responses API,支持批量操作 +
previous_response_id连续性 - Anthropic 适配器:使用 Messages API,单步操作 + zoom + 完整消息历史
桌面操控原语#
- 鼠标移动:缓动曲线、基于距离的时长计算
- 点击:支持修饰键(Shift/Ctrl/Alt/Cmd)
- 拖拽:多点路径、hold 前后延迟、分步执行
- 键盘输入:跨平台映射(cmd/ctrl/win)
- 截图:macOS Quartz / Linux scrot & gnome-screenshot / 通用 PyAutoGUI 回退;支持 downscale 适配模型显示分辨率
交互模式#
提供 CLI、WebSocket/REST 后端、Flutter 跨平台 GUI 三种交互模式。支持多会话、持久化历史、重启后上下文恢复、图片上传与剪贴板粘贴。安全 API 密钥管理使用系统 Keychain 存储。
平台支持#
支持 macOS 13+、Windows 10/11、Linux(X11/XWayland)及 Web 端。内置成本追踪(按迭代和总量估算 token 使用与费用)、坐标校准、移动校正、虚拟显示器等工程化能力。
API 端点#
GET /healthz— 健康检查WS /ws— JSON-RPC WebSocket 通信POST /v1/files— 文件上传GET /v1/files/{file_id}— 文件获取GET /metrics— 指标查询
基准声称(待第三方验证)#
- OSWorld:GPT-5.4 后端声称达到 75.0%
- SWE-Bench Verified:GPT-5.4 约 80%,Claude Opus 4.6 为 80.8%
注意:以上基准分数来源于 README 声明,未找到独立论文或可复现评估链接,需第三方验证。
待确认信息#
- "Belief" 组织背景:LICENSE 中版权归属 "Belief, 2025",与 GitHub 用户
777genius的关系不明确 - Windows 集成测试:README 注明 "implemented, not yet integration-tested"
- MCP 架构与沙箱代码执行标注为开发中,当前不可用