面向具身智能与智能体 AI 后训练场景的灵活可扩展强化学习训练基础设施,通过 M2Flow 范式实现逻辑工作流构建与高效物理执行解耦。
RLinf 是由清华大学 Yu Wang、Chao Yu 团队开发的面向具身智能与智能体 AI 后训练场景的开源强化学习基础设施,采用 Apache-2.0 许可证,已发布 v0.2 版本。
核心创新:M2Flow 范式#
RLinf 的核心创新在于 Macro-to-Micro Flow Transformation(M2Flow),将高层可组合的 RL 逻辑工作流在时间与空间维度自动分解为优化的执行流,实现逻辑工作流构建与物理通信调度的解耦。论文报告端到端训练吞吐量提升 1.07×–2.43×。
执行模式与调度#
系统提供三种灵活执行模式:
- Collocated:所有 worker 共享全部 GPU
- Disaggregated:细粒度流水线化,worker 按功能拆分
- Hybrid:Collocated + Disaggregated 的自定义组合,具身 RL 场景下较现有框架最高提升 2.434×
调度能力包括动态调度(运行时动态资源分配)、静态调度(基于训练负载自动选择最优执行模式)和秒级在线扩缩容(额外提升效率 20–40%,保持 on-policy 特性)。
算法与模型覆盖#
算法层面覆盖 15 种 RL 算法:On-policy 族(PPO、GRPO、DAPO、Reinforce++、Async PPO)、Off-policy 族(SAC、CrossQ、RLPD、IQL)及具身专项(SAC-Flow、DSRL、RECAP、DAgger、HG-DAgger),并支持全参数 SFT、LoRA SFT、VLM SFT。
模型支持涵盖 VLA 模型(π₀、π₀.₅、OpenVLA、OpenVLA-OFT、GR00T、Dexbotic、StarVLA、LingBot-VLA)、VLM 模型(Qwen2.5-VL、Qwen3-VL)及世界模型(OpenSora、Wan)。
仿真与真实机器人支持#
仿真环境覆盖 ManiSkill3、LIBERO/LIBERO-Pro/LIBERO-Plus、IsaacLab、RoboTwin、RoboVerse、BEHAVIOR、MetaWorld、CALVIN、RoboCasa、Franka-Sim、EmbodiChain 等 12+ 平台。真实机器人支持 Franka(含 ZED 相机、Robotiq 夹爪)、XSquare Turtle2 双臂、DOS-W1 等,通过 RLinf-USER 系统实现在线策略学习与数据采集。
分层架构#
- 编程抽象层:基于 Worker 的编程模型(Actor、Rollout、Environment、Data、Replay Buffer 等),通过 YAML 配置驱动训练工作流定义
- 调度层:M2Flow + profiling-guided scheduling,context switching 与 elastic pipelining 实现流转换
- 通信层:自适应 P2P 通信、Channel Queuing、弹性通信机制
- 后端层:FSDP + HuggingFace/SGLang/vLLM(快速原型)与 Megatron + SGLang/vLLM(大规模训练),支持 5D 并行
- 集群层:基于 Ray 的分布式资源管理与多节点调度
典型应用场景#
① VLA 模型仿真 RL 后训练及 sim-real co-training;② LLM 推理/搜索增强(GRPO on MATH、SearchR1、rStar2、WideSeek-R1);③ 真实世界在线 RL(RLinf-USER);④ 世界模型驱动 VLA 后训练;⑤ 离线 RL(IQL on D4RL、RECAP);⑥ VLM 微调流水线。
安装与上手#
推荐使用 Docker 镜像安装(具身 RL 环境依赖复杂),也可通过 pip 作为库安装(PyPI 可用)。项目提供端到端 SOTA 复现 recipe,快速开始入口包括 PPO 训练 VLA on ManiSkill3、GRPO 训练 LLM on MATH、多节点训练等。
配套论文体系#
主框架论文(M2Flow, 2025)、RLinf-VLA(2025)、RLinf-USER(2026)、WoVR 世界模型后训练(2026)、Sim-Real Co-Training(2026)、WideSeek-R1 多智能体 RL(2026)。
待确认信息#
具体 pip 包名需查看安装文档确认;最低硬件要求未在首页明确列出;与 VeRL 的详细对比待查阅;社区采用企业(AgiBot、X Square Robot、PsiBot)的具体使用规模无量化数据。