发现 AI 代理的未来arrow_forward

模型与推理框架

10 个项目

Edge-Veda

Flutter 端侧全栈 AI SDK,支持 LLM、视觉、语音、绘图与 RAG,具备计算预算合约与自适应 QoS 能力,零云依赖。

大语言模型多模态SDK

trackers

即插即用的多目标跟踪(MOT)Python库,提供SORT和ByteTrack等经典算法的模块化实现。采用检测器无关设计,可配合任意目标检测模型(YOLO、DETR等)使用,支持视频文件、摄像头、RTSP流等多种输入源。提供统一CLI工具与Python API,内置CLEAR、HOTA、Identity等标准MOT评估指标计算功能。

多模态深度学习SDK

MiniCPM-o

清华大学THUNLP推出的端到端全能多模态大模型,支持视觉理解、语音对话和全双工多模态实时流交互,性能接近Gemini 2.5 Flash,可在手机端高效运行。

大语言模型多模态Transformers

CogAgent

由清华大学与智谱 AI 联合推出的开源端到端视觉语言模型驱动的 GUI 智能体,基于 GLM-4V-9B 双语开源 VLM 基座模型,通过屏幕截图与自然语言指令实现跨平台(Windows/macOS/Android)图形界面自动化操作与推理。

模型与推理框架大语言模型多模态

MobileAgent

MobileAgent 是一个基于多模态大语言模型(MLLM)的自主移动端智能体框架,通过视觉感知与工具调用实现手机应用的自动化操作与任务执行,支持 Android 真机与模拟器环境。

模型与推理框架大语言模型多模态

WiFi DensePose

基于InvisPose研究的生产级WiFi穿墙人体姿态估计系统,利用商用Mesh路由器的CSI信号实现无需摄像头的实时全身追踪,支持多人追踪、跌倒检测等高级分析功能。

多模态深度学习Docker

Overeasy

一个用于编排零样本计算机视觉模型的Python库,无需收集和标记大型训练数据即可构建自定义端到端视觉解决方案。

模型与推理框架Python多模态

LLaVA-Plus:大型语言与视觉助手

LLaVA-Plus是一个能够学习和使用工具的多模态助手系统,通过将大型语言模型与视觉技术结合,使AI代理能够执行通用视觉任务。

模型与推理框架PythonPyTorch

ChatTTS - 对话式语音生成模型

专为对话场景(如LLM助手)优化的生成式语音模型,支持中英文混合输入,能够生成自然且富有表现力的语音,并提供对笑声、停顿等韵律特征的细粒度控制。

模型与推理框架PythonPyTorch

VoxCPM

VoxCPM 是一个基于连续空间建模的端到端文本转语音(TTS)系统。它摒弃了传统的离散 Token 化方法,支持根据文本语境自动生成富有表现力的语音,并能通过极短的参考音频实现逼真的零样本声音克隆,适用于高质量的语音合成与配音场景。

模型与推理框架PythonPyTorch
每页

第 1 / 1 页 · 共 10 条

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch