发现 AI 代理的未来

中文 / EN 提交项目

返回项目列表

AppAgent：多模态智能体作为智能手机用户

收录于 2026年1月24日

|

智能体与应用工具

|

开源

Python工作流自动化大语言模型多模态AI代理智能体框架智能体与应用工具自动化/工作流/RPA计算机视觉/多模态

基于大型语言模型的多模态智能体框架，能够以类似人类的方式操作智能手机应用，通过点击和滑动等交互执行任务。

一分钟了解#

AppAgent 是一个创新的多模态智能体框架，它能像真实用户一样操作智能手机应用。无论您是想自动化日常手机操作，还是需要智能助手完成复杂任务，AppAgent 都能通过自主学习或模仿人类行为来掌握新应用的使用方法。

核心价值：无需系统后台权限即可操作任何应用，通过构建知识库实现跨应用的复杂任务执行。

快速上手#

安装难度：中 - 需要配置Android设备、API密钥和Python环境

# 克隆仓库并安装依赖
cd AppAgent
pip install -r requirements.txt

适合我的场景吗？

✅ 自动化重复性手机操作：如社交媒体互动、数据录入等

✅ 跨应用任务执行：如在不同应用间传递信息

❌ 需要系统级权限的任务：如修改系统设置

❌ 精确控制要求高的任务：如精细绘图

核心能力#

1. 自主探索学习 - 无需人工干预#

通过试错方式自主探索应用功能，生成交互元素文档 实际价值：减少人工指导成本，让智能体独立学习新应用

2. 人类演示学习 - 高效模仿人类行为#

通过观察人类操作过程学习应用使用方法 实际价值：提高学习准确率，适用于复杂操作流程的快速掌握

3. 知识库构建 - 跨应用任务执行#

记录所有交互元素和操作方法，形成可复用的知识库 实际价值：智能体可在不同应用间复用已学知识，完成复杂多步骤任务

4. 多模型支持 - 灵活选择基础模型#

支持GPT-4V和通义千问-VL等多种多模态模型 实际价值：可根据成本和性能需求灵活选择合适的基础模型

技术栈与集成#

开发语言：Python 主要依赖：

OpenAI API (GPT-4V) 或阿里云Dashscope API (Qwen VL)
Android Debug Bridge (adb)
多模态视觉-语言模型 集成方式：独立运行的应用程序，通过ADB连接Android设备

生态与扩展#

模型扩展：可通过修改scripts/model.py集成其他多模态模型
界面扩展：支持自定义网格覆盖，点击屏幕任意位置
设备兼容：支持真实Android设备和Android Studio模拟器

维护状态#

开发活跃度：高度活跃，持续更新新功能
最近更新：2025年3月发布AppAgentX下一代版本，带有进化机制
社区响应：通过GitHub Issues和电子邮件提供支持，反应迅速

商用与许可#

许可证：MIT

✅ 商用：允许商用
✅ 修改：允许修改和分发
⚠️ 限制：需包含原始许可证和版权声明

文档与学习资源#

文档质量：全面，包含完整的入门指南、演示视频和评估基准
官方文档：https://github.com/TencentQQGYLab/AppAgent
示例代码：提供完整的学习和运行脚本示例
教程资源：包含详细配置步骤和视频演示

相关项目

Zylos Core

开源自主 AI Agent 基础设施，提供统一通信桥、五层记忆体系、自愈运维与自进化能力，支持 Claude/Codex 双运行时。

Node.js工作流自动化

verl

面向大语言模型的灵活、高效、生产可用的强化学习后训练框架

Kalshi AI Trading Bot

面向 Kalshi 预测市场的多模型 LLM 集成自主交易系统，包含 AI 集成辩论、纯数学边缘及激进模式三种策略，并内置多层风控与可观测性仪表盘。

Python大语言模型

保持更新

获取最新的 AI 工具和趋势，直接发送到您的收件箱。没有垃圾邮件，只有智能。