发现 AI 代理的未来arrow_forward

MobileAgent

calendar_today收录于 2026年2月23日
category智能体与应用工具
code开源
Python工作流自动化大语言模型多模态AI代理智能体框架智能体与应用工具模型与推理框架自动化/工作流/RPA计算机视觉/多模态

MobileAgent 是一个基于多模态大语言模型(MLLM)的自主移动端智能体框架,通过视觉感知与工具调用实现手机应用的自动化操作与任务执行,支持 Android 真机与模拟器环境。

项目简介#

MobileAgent 旨在解决移动端(主要是 Android 系统)复杂任务的自动化执行问题。传统的自动化脚本(如基于控件树或简单的宏录制)缺乏灵活性,难以应对界面变化和跨应用场景。MobileAgent 通过引入多模态大模型(VLM/MLLM)作为"大脑",结合视觉定位与 ADB 控制工具,构建了一个能够"看懂"屏幕、自主规划步骤、并精确点击滑动的智能体。

核心价值#

  • 视觉原生(Visual-First):直接处理屏幕截图,不依赖应用源码或无障碍服务树,具备跨应用泛化能力
  • 自主规划与反思:Agent 能够将用户的高级指令拆解为多步操作,并根据执行反馈进行自我修正
  • 轻量化部署:主体逻辑基于 Python,不依赖重型中间件,通过 ADB 与手机通讯

核心能力矩阵#

感知能力#

  • 屏幕视觉理解:利用 VLM(如 GPT-4V, Qwen-VL)识别屏幕内容、图标、文本、弹窗
  • UI 元素定位:结合视觉模型输出 bounding box 或中心坐标,实现像素级点击

决策能力#

  • 多步任务规划:Chain-of-Thought 推理,将复杂任务拆解为 Action Sequence
  • 自我反思:执行动作后检查屏幕变化,判断是否成功,若失败则尝试修正或重规划

执行能力#

  • 标准化操作封装:封装 ADB 指令集(Tap 点击、Swipe 滑动、Type 输入、Back、Home 等)
  • 跨应用操作:支持在一个任务流中跨多个 APP(如:打开浏览器查信息 -> 打开备忘录保存)

扩展性#

  • 工具调用:支持 Function Calling 机制,可扩展自定义工具(如调用 API、数据库操作)
  • 多模型支持:架构解耦,支持接入 OpenAI GPT-4V、Anthropic Claude、通义千问 Qwen-VL 等主流 VLM

架构设计#

MobileAgent 采用 Agent Loop 架构:

  1. 环境交互层:通过 ADB 与连接的设备通信,获取屏幕截图,执行操作指令
  2. 核心大脑层:Vision Encoder 处理截图,LLM Planner 接收指令并规划动作
  3. 工具库:定义 click、long_press、scroll、input_text 等基础原语

关键流程:User Request -> [Screenshot -> VLM Analysis -> Plan Action -> ADB Execute] -> Loop until Done

安装部署#

环境要求#

  • Python 3.8+
  • Android SDK(确保 adb 命令可用)
  • 已连接的 Android 设备(开启 USB 调试)或模拟器
  • 有效的 VLM API Key(如 OpenAI API Key 或阿里云 DashScope Key)

安装步骤#

git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt

配置说明#

  • config.py.env 文件中配置 API Key
  • 设置连接设备的 ADB 序列号
  • 可切换模型后端(GPT-4V / Qwen-VL / 其他 VLM)

使用示例#

CLI 方式#

python run.py --task "打开微信发送消息给文件传输助手:Hello MobileAgent"

SDK 方式#

agent = MobileAgent(model="qwen-vl-plus")
agent.setup_device("emulator-5554")
agent.run("在设置中开启深色模式")

适用场景#

  • 端到端自动化测试(E2E Testing)
  • 移动端 RPA(重复性任务自动化,如签到、填表)
  • 个人智能助理(语音/文本指令操控手机)
  • 应用功能探索与巡检

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch