UI-TARS：开源多模态 AI 智能体框架

由字节跳动开发的开源多模态 AI 智能体（Agent）堆栈，包含通用智能体框架 Agent TARS 和桌面客户端 UI-TARS Desktop，通过视觉语言模型实现基于自然语言的计算机控制、浏览器自动化及 CLI 交互。

一分钟了解#

UI-TARS 是一个能让 AI "看懂"并"操作"电脑屏幕的开源项目。它包含两部分：Agent TARS（一个强大的 CLI/Web 开发框架）和 UI-TARS Desktop（一个可直接使用的桌面控制软件）。通过接入视觉大模型，它不仅能理解你的自然语言指令，还能控制鼠标、键盘和浏览器来帮你完成任务（如订票、写代码、绘图）。

核心价值：将复杂的 GUI 自动化操作转化为简单的自然语言交互，支持本地与远程控制，且提供灵活的开发框架。

快速上手#

安装难度：低 - Agent TARS CLI 可通过 npx 一键启动（需 Node.js >= 22）；桌面端需下载应用包。

# 使用 npx 直接启动 Agent TARS（无需全局安装）
npx @agent-tars/cli@latest

# 或者全局安装
npm install @agent-tars/cli@latest -g

# 启动并配置模型服务商（如火山引擎或 Anthropic）
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 -- apiKey your-api-key

适合我的场景吗？

✅ 自动化繁琐操作：需要重复操作网页、点击按钮、填写表单的场景。

✅ 远程电脑运维：需要远程控制电脑或浏览器进行特定任务。

✅ AI 应用开发者：想基于 MCP 协议或视觉模型构建 Agent 应用。

❌ 极高稳定性要求：由于基于视觉概率模型，偶尔的操作识别偏差在所难免。