Agent Park - Agent 项目导航

发现 AI 代理的未来arrow_forward

smart_toyAgent Park

中文 / EN 提交项目

全部项目

54 个项目

Clawd Cursor

✨

AI 桌面代理——通过视觉感知与输入控制，跨应用自主完成任务的智能自动化系统。支持 5 层智能降级管道、多 AI 提供商（Anthropic/OpenAI/Ollama/Kimi），提供 Web Dashboard 与 REST API。

多模态AI代理智能体框架

查看详情 →

Edge-Veda

✨

Flutter 端侧全栈 AI SDK，支持 LLM、视觉、语音、绘图与 RAG，具备计算预算合约与自适应 QoS 能力，零云依赖。

大语言模型多模态SDK

查看详情 →

NagaAgent

✨

四服务协同的 AI 桌面助手框架，支持流式工具调用、GRAG 知识图谱记忆、Live2D 虚拟形象、语音交互

RAG多模态AI代理

查看详情 →

Seline

✨

一款本地优先的 AI 桌面应用，集成了对话 AI、视觉生成、向量检索与多渠道消息连接，支持深度研究模式与本地知识库。

多模态MCPRAG

查看详情 →

trackers

✨

即插即用的多目标跟踪（MOT）Python库，提供SORT和ByteTrack等经典算法的模块化实现。采用检测器无关设计，可配合任意目标检测模型（YOLO、DETR等）使用，支持视频文件、摄像头、RTSP流等多种输入源。提供统一CLI工具与Python API，内置CLEAR、HOTA、Identity等标准MOT评估指标计算功能。

多模态深度学习SDK

查看详情 →

MiniCPM-o

✨

清华大学THUNLP推出的端到端全能多模态大模型，支持视觉理解、语音对话和全双工多模态实时流交互，性能接近Gemini 2.5 Flash，可在手机端高效运行。

大语言模型多模态Transformers

查看详情 →

CogAgent

✨

由清华大学与智谱 AI 联合推出的开源端到端视觉语言模型驱动的 GUI 智能体，基于 GLM-4V-9B 双语开源 VLM 基座模型，通过屏幕截图与自然语言指令实现跨平台（Windows/macOS/Android）图形界面自动化操作与推理。

模型与推理框架大语言模型多模态

查看详情 →

MobileAgent

✨

MobileAgent 是一个基于多模态大语言模型（MLLM）的自主移动端智能体框架，通过视觉感知与工具调用实现手机应用的自动化操作与任务执行，支持 Android 真机与模拟器环境。

模型与推理框架大语言模型多模态

查看详情 →

AlphaAvatar

✨

基于 LiveKit 构建的可学习、可配置、高度插件化的全能型实时交互虚拟助手框架，支持多模态记忆、用户画像与外部工具集成。

文档教程与资源RAG多模态

查看详情 →

WiFi DensePose

✨

基于InvisPose研究的生产级WiFi穿墙人体姿态估计系统，利用商用Mesh路由器的CSI信号实现无需摄像头的实时全身追踪，支持多人追踪、跌倒检测等高级分析功能。

多模态深度学习Docker

查看详情 →

每页

第 1 / 6 页 · 共 54 条

保持更新

获取最新的 AI 工具和趋势，直接发送到您的收件箱。没有垃圾邮件，只有智能。

rocket_launch