由字节跳动开发的开源多模态 AI 智能体(Agent)堆栈,包含通用智能体框架 Agent TARS 和桌面客户端 UI-TARS Desktop,通过视觉语言模型实现基于自然语言的计算机控制、浏览器自动化及 CLI 交互。
一分钟了解#
UI-TARS 是一个能让 AI "看懂"并"操作"电脑屏幕的开源项目。它包含两部分:Agent TARS(一个强大的 CLI/Web 开发框架)和 UI-TARS Desktop(一个可直接使用的桌面控制软件)。通过接入视觉大模型,它不仅能理解你的自然语言指令,还能控制鼠标、键盘和浏览器来帮你完成任务(如订票、写代码、绘图)。
核心价值:将复杂的 GUI 自动化操作转化为简单的自然语言交互,支持本地与远程控制,且提供灵活的开发框架。
快速上手#
安装难度:低 - Agent TARS CLI 可通过 npx 一键启动(需 Node.js >= 22);桌面端需下载应用包。
# 使用 npx 直接启动 Agent TARS(无需全局安装)
npx @agent-tars/cli@latest
# 或者全局安装
npm install @agent-tars/cli@latest -g
# 启动并配置模型服务商(如火山引擎或 Anthropic)
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 -- apiKey your-api-key
适合我的场景吗?
- ✅ 自动化繁琐操作:需要重复操作网页、点击按钮、填写表单的场景。
- ✅ 远程电脑运维:需要远程控制电脑或浏览器进行特定任务。
- ✅ AI 应用开发者:想基于 MCP 协议或视觉模型构建 Agent 应用。
- ❌ 极高稳定性要求:由于基于视觉概率模型,偶尔的操作识别偏差在所难免。
核心能力#
1. UI-TARS Desktop - 个人 AI 操作助手#
- 直接安装在你的电脑上,通过自然语言指令控制本地应用(如 VS Code 设置)、浏览网页或进行远程操作。
- 实际价值:完全本地化处理,隐私安全;支持远程电脑控制,无需复杂配置即可实现远程 AI 代操作。
2. Agent TARS - 开发者智能体框架#
- 提供 CLI 和 Web UI 两种交互模式,支持混合浏览器控制(结合 GUI Agent 和 DOM 操作)。
- 实际价值:基于事件流驱动,便于调试和追踪数据流,内置 MCP (Model Context Protocol) 集成,可轻松挂载各种工具。
3. 视觉理解与精准控制#
- 利用 UI-TARS 和 Seed-1.5/1.6 系列模型,具备强大的截图识别和鼠标键盘精准控制能力。
- 实际价值:不仅仅能"看"屏幕,还能进行像素级的点击和拖拽操作,支持跨平台。
技术栈与集成#
开发语言:JavaScript / TypeScript (Node.js 环境) 主要依赖:Node.js >= 22,视觉语言模型 (VLM) API(如火山引擎 Doubao 或 Anthropic Claude) 集成方式:
- CLI 工具:通过命令行参数配置。
- MCP 协议:内核基于 MCP 构建,支持作为 Server 或 Client 集成到其他生态。
商用与许可#
许可证:Apache-2.0
- ✅ 商用:允许
- ✅ 修改:允许
- ✅ 分发:允许
- ⚠️ 限制:需保留版权声明和许可声明(详见 Apache 2.0 条款)。
文档与学习资源#
- 文档质量:基础完善,提供快速入门指南。
- 官方文档:见项目 README 及 Wiki。
- 社区支持:提供 Discord 社区交流。