发现 AI 代理的未来arrow_forward

CogAgent

calendar_today收录于 2026年2月23日
category智能体与应用工具
code开源
Python工作流自动化PyTorch大语言模型多模态TransformersAI代理智能体与应用工具模型与推理框架自动化/工作流/RPA计算机视觉/多模态

由清华大学与智谱 AI 联合推出的开源端到端视觉语言模型驱动的 GUI 智能体,基于 GLM-4V-9B 双语开源 VLM 基座模型,通过屏幕截图与自然语言指令实现跨平台(Windows/macOS/Android)图形界面自动化操作与推理。

项目概述#

CogAgent 是基于 GLM-4V-9B 视觉语言模型的开源端到端 GUI 智能体,能够"看懂"屏幕截图,理解自然语言任务指令,并预测下一步的交互动作(如点击、输入、滚动)。它不仅能返回动作描述,还能输出精确的像素级坐标和结构化操作指令。

核心能力#

感知与推理#

  • 双语视觉理解:支持中英文自然语言指令与屏幕截图交互
  • GUI 元素定位:预测交互元素的 Bounding Box(边界框),提供精确坐标
  • 多模态推理:结合历史操作步骤进行上下文感知的推理

动作空间#

支持完整的 GUI 交互原语:

  • 鼠标操作CLICK, DOUBLE_CLICK, RIGHT_CLICK, HOVER
  • 文本输入TYPE(支持变量引用 __CogName_xxx__
  • 滚动操作SCROLL_UP, SCROLL_DOWN, SCROLL_LEFT, SCROLL_RIGHT
  • 键盘/组合键KEY_PRESS, GESTURE(支持 KEY_DOWN/UP 序列)
  • 系统/应用LAUNCH(启动应用或 URL), END(任务结束)
  • 高级/上下文QUOTE_TEXT(含 auto_scroll), QUOTE_CLIPBOARD, LLM(调用内部 LLM 能力处理子任务)

输出格式#

提供 5 种预设输出格式以适应不同下游需求:

  1. Action-Operation-Sensitive
  2. Status-Plan-Action-Operation
  3. Status-Action-Operation-Sensitive
  4. Status-Action-Operation
  5. Action-Operation

注:Sensitive 标签用于标识操作是否涉及敏感数据(<<敏感操作>> / <<一般操作>>

平台支持#

  • Desktop:Windows 10/11, macOS 14/15
  • Mobile:Android 13/14/15

性能表现#

在 Screenspot、OmniAct、CogAgentBench-basic-cn、OSWorld 等基准上达到 SOTA(相较 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型)。

应用场景#

  • 跨应用流程自动化:邮件客户端与日历协调、自动发送节日祝福、电商购物筛选
  • 端侧智能助手:集成于 PC 或手机端,作为系统级 Copilot 执行复杂多步任务
  • GUI 智能体研究:作为基座模型或基准,用于开发基于视觉的 Agent 架构
  • 无障碍辅助:辅助视障人士或老年用户操作复杂的图形界面

示例场景#

  • 标记所有邮件为已读(Mac 平台)
  • 自动发送圣诞祝福
  • 在线购物搜索与筛选

架构特性#

  • 基座模型:GLM-4V-9B(双语 VLM),参数量约 9B(BF16)
  • 模型格式:Image-Text-to-Text (Transformers + Safetensors)
  • 视觉编码:图像被编码为约 1600 个 Token
  • 推理后端:支持 HuggingFace Transformers 和 vLLM(OpenAI API 兼容)

资源需求#

  • BF16:至少 29GB 显存
  • INT8:约 15GB 显存(性能损失)
  • INT4:约 8GB 显存(显著性能损失,不推荐)

硬件适配#

  • NVIDIA GPU:主流支持
  • Ascend NPU:已适配(需 torch_npu,测试环境为 Atlas800 集群)

快速开始#

CLI 推理#

python inference/cli_demo.py --model_dir THUDM/cogagent-9b-20241220 --platform "Mac" --max_length 4096 --top_k 1 --output_image_path ./results --format_key status_action_op_sensitive

Web Demo 推理#

python inference/web_demo.py --host 0.0.0.0 --port 7860 --model_dir THUDM/cogagent-9b-20241220 --format_key status_action_op_sensitive --platform "Mac" --output_dir ./results

Agent APP 实战部署#

服务端启动:

python openai_demo.py --model_path THUDM/cogagent-9b-20241220 --host 0.0.0.0 --port 7870

客户端启动:

python client.py --api_key EMPTY --base_url http://127.0.0.1:7870/v1 --client_name 127.0.0.1 --client_port 7860 --model CogAgent

输入格式规范#

必须按以下顺序拼接:

Task: {task}
History steps:
{history}
(Platform: {platform})
(Answer in {format} format.)

微调支持#

  • SFT:Vision Encoder 冻结,batch_size=1,8×A100
  • LoRA:Vision Encoder 不冻结,batch_size=1,1×A100
  • 支持断点续训

实际应用#

已在智谱 AI GLM-PC 产品中应用。

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch