开源的全栈自主计算机智能体框架,支持在 Docker 虚拟环境中通过自然语言控制浏览器、终端和桌面应用。项目由 coasty-ai 组织维护,采用 Apache 2.0 许可证,在 OSWorld Benchmark 中获得 82% 得分。
项目概述#
Open Computer Use 是一个开源的全栈自主虚拟计算机智能体框架,旨在让 AI 像人类一样操作浏览器、终端和桌面应用。项目定位为 "The Open Framework for autonomous virtual computer agents at scale",支持 100% 自托管。
核心能力#
浏览器代理#
- Search-first 策略(基于 Google Search API)
- 智能网页导航与自动表单填充
- 元素检测与智能点击
- 多标签页并行管理
- 截图验证与视觉反馈
终端代理#
- 隔离环境中的命令执行
- 文件操作(读/写/编辑/删除)
- 脚本执行与包安装
- 实时输出流式反馈
桌面代理#
- 基于计算机视觉的 UI 元素检测
- 鼠标与键盘控制、窗口管理
- OCR 文本提取
- 跨平台支持(Linux desktop)
多代理系统#
- AI Planner 进行任务分解
- 顺序执行与上下文传递
- 错误处理与自动重试
- 用户交互确认机制
性能指标(官方数据)#
- OSWorld Benchmark 排名 #1,得分 82%
- 平均任务完成时间约 45 秒
- 单服务器支持 50+ 并发会话
- 工具调用延迟 <500ms
- VM 启动时间约 15 秒
应用场景#
- 研究与数据采集:网页抓取、竞品分析、学术论文收集
- 测试与 QA:自动化 UI 测试、跨浏览器测试、回归测试
- DevOps 与自动化:服务器配置、部署自动化、日志分析
- 电商运营:价格监控、订单管理、库存跟踪
- 商业智能:报告生成、仪表板监控、KPI 跟踪
系统架构#
Frontend (Next.js 15) → Backend API (FastAPI) → Docker VM (Ubuntu 22.04 + XFCE)
前端提供聊天 UI、模型选择、VM 管理界面;后端作为核心编排层,处理 AI 规划、多智能体执行服务、WebSocket 通信;Docker VM 包含 Chrome 浏览器、终端、VNC Server。
安装部署#
前置条件:Node.js 20+、Python 3.10+、Docker & Docker Compose、Supabase 账户、AI 提供商 API 密钥
git clone https://github.com/coasty-ai/open-computer-use.git
cd open-computer-use
cp .env.example .env
cp backend/.env.example backend/.env
npm install
cd backend && python -m venv venv && source venv/bin/activate && pip install -r requirements.txt
docker-compose up --build
访问地址:前端 http://localhost:3000,后端 http://localhost:8001
关键配置#
必需环境变量:Supabase 配置(URL、Anon Key、Service Role)、安全密钥(ENCRYPTION_KEY、CSRF_SECRET)
AI 提供商支持:OpenAI、Anthropic、Google、xAI、Mistral、Azure、Perplexity、OpenRouter(100+ 模型)
BYOK 模式:所有 API 密钥加密存储,用户完全控制 AI 成本和用量
待确认信息#
- OSWorld Benchmark 82% 得分需独立验证
- Windows/macOS VM 支持计划在 Q1 2026
- 暂未发现关联的学术论文