发现 AI 代理的未来arrow_forward

OS AI Computer Use

calendar_today收录于 2026年4月25日
category智能体与应用工具
code开源
Python桌面应用大语言模型多模态AI代理CLI智能体与应用工具模型与推理框架自动化/工作流/RPA协议/API/集成计算机视觉/多模态

本地跨平台桌面自动化智能体,支持多 LLM 提供商直接操控操作系统图形界面

OS AI Computer Use 是一个本地运行的跨平台桌面自动化智能体,通过统一的 LLMClient 抽象层对接 OpenAI GPT-5.4 与 Anthropic Claude Sonnet/Opus 4.6 等大语言模型,实现 AI 对操作系统的直接操控。项目覆盖鼠标移动(缓动曲线)、点击(修饰键)、拖拽(多点路径)、键盘输入(跨平台键位映射)、滚动、文本输入、截图等完整桌面操控原语。

架构设计#

采用 monorepo + workspace 结构,Python 使用 uv 管理多包,核心包括应用逻辑层(core)、OS 抽象层(os/os-macos/os-linux)、LLM 领域类型与适配器(llm/llm_openai/llm_anthropic)、WebSocket/REST 后端及 Flutter 跨平台前端。新增 LLM 提供商只需实现 LLMClient 接口,无需修改上层模块。

核心设计模式:

  • LLMClient 抽象:提供商隔离,新增后端无需修改 core/backend/frontend
  • ProviderPart:类型化内容块,区分提供商特定数据
  • provider_context:不透明状态对象在迭代间传递(如 OpenAI 的 previous_response_id
  • Batch Handler:统一入口处理单步和批量操作,对上层透明
  • OS 抽象层:端口/驱动接口分离,各平台驱动独立实现

多提供商 AI 引擎#

  • OpenAI 适配器:使用 Responses API,支持批量操作 + previous_response_id 连续性
  • Anthropic 适配器:使用 Messages API,单步操作 + zoom + 完整消息历史

桌面操控原语#

  • 鼠标移动:缓动曲线、基于距离的时长计算
  • 点击:支持修饰键(Shift/Ctrl/Alt/Cmd)
  • 拖拽:多点路径、hold 前后延迟、分步执行
  • 键盘输入:跨平台映射(cmd/ctrl/win)
  • 截图:macOS Quartz / Linux scrot & gnome-screenshot / 通用 PyAutoGUI 回退;支持 downscale 适配模型显示分辨率

交互模式#

提供 CLI、WebSocket/REST 后端、Flutter 跨平台 GUI 三种交互模式。支持多会话、持久化历史、重启后上下文恢复、图片上传与剪贴板粘贴。安全 API 密钥管理使用系统 Keychain 存储。

平台支持#

支持 macOS 13+、Windows 10/11、Linux(X11/XWayland)及 Web 端。内置成本追踪(按迭代和总量估算 token 使用与费用)、坐标校准、移动校正、虚拟显示器等工程化能力。

API 端点#

  • GET /healthz — 健康检查
  • WS /ws — JSON-RPC WebSocket 通信
  • POST /v1/files — 文件上传
  • GET /v1/files/{file_id} — 文件获取
  • GET /metrics — 指标查询

基准声称(待第三方验证)#

  • OSWorld:GPT-5.4 后端声称达到 75.0%
  • SWE-Bench Verified:GPT-5.4 约 80%,Claude Opus 4.6 为 80.8%

注意:以上基准分数来源于 README 声明,未找到独立论文或可复现评估链接,需第三方验证。

待确认信息#

  • "Belief" 组织背景:LICENSE 中版权归属 "Belief, 2025",与 GitHub 用户 777genius 的关系不明确
  • Windows 集成测试:README 注明 "implemented, not yet integration-tested"
  • MCP 架构与沙箱代码执行标注为开发中,当前不可用

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch