一个安全的云Linux计算机系统,由E2B Desktop Sandbox提供支持,可通过开源大语言模型控制,实现计算机操作自动化。
一分钟了解#
open-computer-use是一个让AI能够操作计算机的系统,它提供了一个安全的云Linux环境,可通过多种开源大语言模型控制。这个系统适合需要AI自动化执行计算机任务的场景,特别是那些需要视觉感知、键盘鼠标交互和shell命令执行能力的应用。
核心价值:让AI能够像人类一样操作计算机,执行复杂的多步骤任务。
快速上手#
安装难度:中 - 需要获取多个API密钥并设置环境变量
# 安装依赖
brew install poetry ffmpeg
# 克隆仓库
git clone https://github.com/e2b-dev/open-computer-use/
# 设置环境变量
# 创建.env文件并添加API密钥
E2B_API_KEY="your-e2b-api-key"
OPENAI_API_KEY=...
ANTHROPIC_API_KEY=...
GROQ_API_KEY=...
# 根据使用的模型添加相应API密钥
# 启动系统
poetry run start --prompt "your-instruction"
适合我的场景吗?
- ✅ AI助手开发:需要实现能够操作计算机的AI助手
- ✅ 自动化测试:让AI自动执行UI测试任务
- ✅ 内容创作:AI自动进行网页操作、图像处理等创作工作
- ❌ 简单脚本需求:只需要基本的脚本自动化,无需复杂交互
- ❌ 离线环境:需要完全离线运行,不依赖云服务
核心能力#
1. 多模型支持系统#
- 支持超过10种不同的LLM模型,包括OpenAI的GPT-4o、Anthropic的Claude、Google的Gemini 2.0等 实际价值:用户可以根据需求选择最适合的模型,平衡性能和成本
2. 实时显示流#
- 实时流式传输沙箱环境的显示画面到客户端计算机 实际价值:用户可以直观地观察AI的操作过程,进行实时干预和指导
3. 多交互方式#
- 支持通过键盘、鼠标和shell命令三种方式控制计算机 实际价值:AI可以执行从简单键盘输入到复杂系统命令的各种操作
4. 用户可干预#
- 用户可以在任何时候暂停并提示AI 实际价值:增强系统的可控性和安全性,防止AI执行不期望的操作
5. 灵活配置#
- 可通过简单的配置文件轻松更换和组合不同的LLM模型 实际价值:无需修改代码即可定制AI的能力组合,适应不同任务需求
技术栈与集成#
开发语言:Python 主要依赖:E2B API、Poetry(Python包管理器)、FFmpeg、多种LLM提供商API 集成方式:API / SDK / Library
维护状态#
- 开发活跃度:活跃开发中,有清晰的模型提供商扩展机制
- 最近更新:近期有更新,支持最新的LLM模型如Llama 3.3
- 社区响应:欢迎社区贡献新的模型提供商,说明项目重视生态建设
文档与学习资源#
- 文档质量:基础
- 官方文档:README中提供基本使用指南
- 示例代码:提供启动命令和配置示例