AReaL是一个大规模异步强化学习训练系统,专为大语言模型推理和智能体设计。它提供灵活且高性能的训练解决方案,支持从单节点到千级GPU的扩展。
一分钟了解#
AReaL是由清华大学和蚂蚁集团开发的开源异步强化学习系统,专为训练大语言模型推理能力和智能体而设计。它具有行业领先的速度和稳定性,支持多种训练算法和模型架构,适合研究人员和企业构建高性能AI智能体。
核心价值:通过算法与系统协同设计,实现稳定高效的异步RL训练,显著提升智能体性能。
快速上手#
安装难度:中 - 需要Python环境,支持本地和集群部署,但集群配置需要额外设置
# 本地单节点安装
python3 -m areal.launcher.local \
examples/math/gsm8k_rl.py \
--config examples/math/gsm8k_grpo.yaml
适合我的场景吗?
- ✅ 需要训练高性能推理智能体(数学、编程、搜索等)
- ✅ 希望在多GPU集群上异步训练RL模型
- ❌ 需要简单的快速原型设计(可考虑AReaL-lite)
- ❌ 不熟悉分布式训练系统
核心能力#
1. 灵活的多轮智能体工作流#
- 可通过单个文件无缝定制多轮智能体展开工作流,与其他智能体工具框架平滑集成 实际价值:快速定制和实验不同的智能体行为模式,无需复杂重构
2. 行业领先的可扩展性#
- 通过算法-系统协同设计,实现稳定的完全异步RL训练,提供业界领先的速度 实际价值:从单节点扩展到1000+GPU,大幅降低大规模训练时间和资源需求
3. 多算法支持#
- 支持GRPO、GSPO、PPO、DAPO等多种RL算法,以及RLHF奖励建模和SFT 实际价值:为不同任务和数据集选择最优训练算法,提高训练效果
4. 多模型兼容#
- 支持Qwen2/3、Gemma3等大模型,以及视觉语言模型 实际价值:无需更换框架即可适应不同类型和大小的模型
技术栈与集成#
开发语言:Python 主要依赖:PyTorch、Megatron或FSDP(训练)、Ray(集群启动器)、vLLM或SGLang(推理) 集成方式:API/库
生态与扩展#
- 模型支持:支持Qwen系列、Gemma等主流大模型,MoE模型和视觉语言模型
- 训练后端:支持Megatron和PyTorch FSDP多种并行策略
- 推理后端:兼容vLLM和SGLang推理框架
- 智能体生态:提供数学、搜索、工具集成等智能体示例
维护状态#
- 开发活跃度:高,每周计划小版本更新,每月大版本更新
- 最近更新:活跃,持续添加新功能和优化(AReaL-lite、NPU支持等)
- 社区响应:活跃,提供GitHub讨论区和微信群支持
文档与学习资源#
- 文档质量:全面(安装指南、快速开始、CLI配置、异步RL解释、MoE微调、智能体RL等)
- 官方文档:https://github.com/inclusionAI/AReaL#documentation
- 示例代码:有丰富的示例代码(数学、多轮、LoRA、VLM、推理、搜索智能体等)