Agent Park - Agent 项目导航

全部项目

17 个项目

Clawd Cursor

✨

AI 桌面代理——通过视觉感知与输入控制，跨应用自主完成任务的智能自动化系统。支持 5 层智能降级管道、多 AI 提供商（Anthropic/OpenAI/Ollama/Kimi），提供 Web Dashboard 与 REST API。

多模态AI代理智能体框架

查看详情 →

Seline

✨

一款本地优先的 AI 桌面应用，集成了对话 AI、视觉生成、向量检索与多渠道消息连接，支持深度研究模式与本地知识库。

多模态MCPRAG

查看详情 →

CogAgent

✨

由清华大学与智谱 AI 联合推出的开源端到端视觉语言模型驱动的 GUI 智能体，基于 GLM-4V-9B 双语开源 VLM 基座模型，通过屏幕截图与自然语言指令实现跨平台（Windows/macOS/Android）图形界面自动化操作与推理。

模型与推理框架大语言模型多模态

查看详情 →

MobileAgent

✨

MobileAgent 是一个基于多模态大语言模型（MLLM）的自主移动端智能体框架，通过视觉感知与工具调用实现手机应用的自动化操作与任务执行，支持 Android 真机与模拟器环境。

模型与推理框架大语言模型多模态

查看详情 →

FilmAgent：多智能体电影自动化框架

✨

FilmAgent是一个在虚拟3D空间中进行端到端电影自动化的多智能体协作系统，模拟电影制作团队中的关键角色，如导演、编剧、演员和摄影师，通过沙盒环境实现高效工作流程。

智能体与应用工具PythonC#

查看详情 →

Open-AutoGLM

✨

开源的手机端智能助理框架，通过多模态理解手机屏幕内容并执行自动化操作，帮助用户完成任务。

智能体与应用工具Python智能体框架

查看详情 →

JarvisArt：智能修图助手

✨

JarvisArt是一个多模态大语言模型驱动的智能修图代理，通过理解用户意图、模拟专业艺术家推理，协调Adobe Lightroom中的200多种工具来解放人类艺术创造力。

智能体与应用工具PythonAI代理

查看详情 →

ScreenAgent：基于视觉语言大模型的计算机控制代理

✨

一个由视觉语言大模型驱动的计算机控制代理，能够让AI通过观察屏幕截图并输出鼠标键盘操作来与GUI交互，完成多步骤任务。

智能体与应用工具PythonPyTorch

查看详情 →

SeeAct: 通用网页智能代理系统

✨

SeeAct 是一个基于大型多模态模型（如 GPT-4V）的通用网页智能代理系统，能够自主在任何网站上执行任务。它包含一个稳健的代码库和创新的框架，支持在实时网站上运行网页智能代理。

智能体与应用工具PythonPlaywright

查看详情 →

Magick - 无代码AI开发环境

✨

一款革命性的可视化AI开发环境，用于构建无代码数据流程和多模态智能体，支持实时代理、社交连接器和多种AI工具集成。

智能体与应用工具DockerPostgreSQL

查看详情 →

每页

第 1 / 2 页 · 共 17 条

按分类筛选

固定项目分类

按领域筛选

按产品形态筛选

全部项目

Clawd Cursor

Seline

CogAgent

MobileAgent

FilmAgent：多智能体电影自动化框架

Open-AutoGLM

JarvisArt：智能修图助手

ScreenAgent：基于视觉语言大模型的计算机控制代理

SeeAct: 通用网页智能代理系统

Magick - 无代码AI开发环境

保持更新