trackers
✨即插即用的多目标跟踪(MOT)Python库,提供SORT和ByteTrack等经典算法的模块化实现。采用检测器无关设计,可配合任意目标检测模型(YOLO、DETR等)使用,支持视频文件、摄像头、RTSP流等多种输入源。提供统一CLI工具与Python API,内置CLEAR、HOTA、Identity等标准MOT评估指标计算功能。
即插即用的多目标跟踪(MOT)Python库,提供SORT和ByteTrack等经典算法的模块化实现。采用检测器无关设计,可配合任意目标检测模型(YOLO、DETR等)使用,支持视频文件、摄像头、RTSP流等多种输入源。提供统一CLI工具与Python API,内置CLEAR、HOTA、Identity等标准MOT评估指标计算功能。
清华大学THUNLP推出的端到端全能多模态大模型,支持视觉理解、语音对话和全双工多模态实时流交互,性能接近Gemini 2.5 Flash,可在手机端高效运行。
Stream公司开发的开源视觉智能体框架,支持任何模型或视频提供商,通过Stream的边缘网络实现超低延迟,帮助开发者快速构建视觉AI应用。
Odyssey是一个基于大型语言模型的Minecraft智能代理框架,包含40种基础技能和183种组合技能,使AI能够在开放世界中自主探索、学习并执行多样化任务。
一个使用多模态大语言模型优雅解决 hCaptcha 验证码挑战的项目,不依赖用户脚本或第三方验证码服务。
一个基于强化学习的马里奥AI环境,提供可训练的智能体来玩超级马里奥游戏。
在终端中运行的AI助手,具有本地工具功能:编写代码、使用终端、浏览网页、视觉识别等能力,是ChatGPT和Cursor的本地替代品。
由字节跳动开发的开源多模态 AI 智能体(Agent)堆栈,包含通用智能体框架 Agent TARS 和桌面客户端 UI-TARS Desktop,通过视觉语言模型实现基于自然语言的计算机控制、浏览器自动化及 CLI 交互。
VoxCPM 是一个基于连续空间建模的端到端文本转语音(TTS)系统。它摒弃了传统的离散 Token 化方法,支持根据文本语境自动生成富有表现力的语音,并能通过极短的参考音频实现逼真的零样本声音克隆,适用于高质量的语音合成与配音场景。
第 1 / 1 页 · 共 9 条
获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。