ART (智能体强化训练器)
🧠一个用于训练多步骤智能体执行现实世界任务的强化学习框架,使用GRPO算法,支持Qwen2.5、Qwen3、Llama等多种大语言模型。
模型与推理框架PythonvLLM
一个用于训练多步骤智能体执行现实世界任务的强化学习框架,使用GRPO算法,支持Qwen2.5、Qwen3、Llama等多种大语言模型。
一个用于评估大型语言模型代码生成能力的基准测试平台,包含1140个软件工程导向的编程任务,分为完整和指令两种模式,可测试模型在复杂指令和多样化函数调用场景下的编程能力。
一个用于概率编程和贝叶斯分析的现代化框架,专为科研和数据分析设计,提供直观的API和灵活的模型定义能力。
一个用于评估、训练和进化大型语言模型(LLM)智能体的综合平台,提供多环境支持和标准化基准测试。
一个基于强化学习的马里奥AI环境,提供可训练的智能体来玩超级马里奥游戏。
通义深究是一个开源的深度研究智能体,专为长时程、深度信息检索任务设计,具有305亿总参数,每仅激活33亿参数。该模型在多个智能搜索基准测试中表现出色,包括人类终极考试、浏览竞赛、WebWalkerQA等。
第 1 / 1 页 · 共 6 条
获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。