一个用于训练多步骤智能体执行现实世界任务的强化学习框架,使用GRPO算法,支持Qwen2.5、Qwen3、Llama等多种大语言模型。
一分钟了解#
ART是一个开源的强化学习框架,通过让大语言模型从经验中学习来提高智能体的可靠性。它提供了便捷的集成功能,可以将GRPO强化学习算法引入任何Python应用程序。对于开发者来说,ART无需手动设计奖励函数,使用RULER技术自动评估智能体表现,使开发速度提高2-3倍。
核心价值:让AI智能体通过强化学习从经验中学习,无需手工设计奖励函数即可训练出更可靠的AI助手。
快速上手#
安装难度:中 - 需要Python环境和GPU支持,但提供了详细的安装指南和示例
# 安装ART
pip install openpipe-art
核心能力#
1. RULER奖励系统 - 消除手工设计奖励函数的麻烦#
- 使用大语言模型作为自动评分员,无需标注数据、专家反馈或奖励工程
2. 客户端-服务器架构 - 灵活的训练部署#
- 客户端可在任何Python机器上运行,服务器可在GPU机器上独立运行,支持远程训练
3. 多模型支持 - 广泛的兼容性#
- 支持大多数vLLM/HuggingFace-transformers兼容的因果语言模型
4. LangGraph集成 - 增强多步推理能力#
- 无缝集成LangGraph,提供更智能的多步推理和改进的工具使用
5. MCP•RL技术 - 自动掌握任何MCP服务器#
- 自动训练模型有效使用MCP服务器工具
技术栈与集成#
开发语言:Python 主要依赖:vLLM, Unsloth, trl, torchtune, SkyPilot