发现 AI 代理的未来arrow_forward

Open-AutoGLM

calendar_today收录于 2026年1月27日
category智能体与应用工具
code开源
Python工作流自动化多模态AI代理智能体框架智能体与应用工具开发者工具/代码自动化/工作流/RPA计算机视觉/多模态

开源的手机端智能助理框架,通过多模态理解手机屏幕内容并执行自动化操作,帮助用户完成任务。

一分钟了解#

Open-AutoGLM 是一个基于视觉语言模型构建的手机端智能助理框架,能够理解手机屏幕内容并通过自动化操作帮助用户完成任务。它适用于希望实现手机自动化操作的普通用户、开发者和研究人员,可以让您通过自然语言描述需求,如"打开小红书搜索美食",系统即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。

核心价值:让手机自动化操作变得简单自然,无需复杂编程即可实现复杂的手机任务自动化。

快速上手#

安装难度:中 - 需要配置Python环境、安装ADB或HDC工具,并准备相应设备

# 安装依赖
pip install -r requirements.txt
pip install -e .

适合我的场景吗?

  • ✅ 自动化重复性手机操作:如每天自动打开应用签到、执行固定流程
  • ✅ 手机应用测试与自动化:对应用进行自动化测试和操作
  • ✅ 远程手机控制:通过WiFi远程控制手机执行特定任务
  • ❌ 需要极低延迟的实时控制:网络连接可能影响响应速度
  • ❌ 需要极高精度的操作:视觉识别在复杂界面可能存在误差

核心能力#

1. 多模态屏幕理解 - 真实理解界面内容#

通过视觉语言模型实时分析手机屏幕内容,准确识别UI元素、文本信息和界面状态。 实际价值:系统能像人眼一样"看懂"手机界面,理解当前所处的应用和状态,为后续操作提供准确判断。

2. 自然语言任务解析 - 用日常语言下达指令#

接受自然语言描述的任务需求,自动解析用户意图,将"打开美团搜索附近的火锅店"这样的日常指令转化为可执行的操作序列。 实际价值:用户无需学习任何编程语言,只需用自然语言描述需求,系统就能理解并执行。

3. 智能操作规划 - 自动化完成任务流程#

根据任务目标,自动规划操作步骤序列,包括应用切换、元素点击、文本输入等复杂流程。 实际价值:系统能自主完成多步骤任务,减少用户手动操作的繁琐步骤,提高效率。

4. 安全操作机制 - 保护用户数据和隐私#

内置敏感操作确认机制,在执行重要操作前会进行安全验证,支持在登录或验证码场景下进行人工接管。 实际价值:在自动化操作的同时保障用户数据安全,防止误操作造成的数据泄露或损失。

5. 远程控制能力 - 突破物理距离限制#

支持通过WiFi或网络连接设备,实现灵活的远程控制与开发,无需USB连接即可操作手机。 实际价值:用户可以远程控制手机,即使不在设备旁边也能完成自动化任务。

技术栈与集成#

开发语言:Python 主要依赖:视觉语言模型、ADB/HDC调试工具、HTTP API客户端 集成方式:Python API / 命令行工具

生态与扩展#

  • 模型支持:提供AutoGLM-Phone-9B和AutoGLM-Phone-9B-Multilingual两种模型,分别针对中文场景和多语言场景优化
  • 第三方集成:与Midscene.js开源UI自动化SDK完成适配,支持通过JavaScript或Yaml格式实现多平台自动化
  • 跨平台支持:同时支持Android设备和鸿蒙(HarmonyOS)设备,适配不同操作系统环境

维护状态#

  • 开发活跃度:项目处于活跃开发状态,有持续的更新和维护
  • 最近更新:近期有功能更新和文档完善,社区参与度较高
  • 社区响应:有专门的微信社区和开发者激励活动,社区支持良好

文档与学习资源#

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch