RLinf

面向具身智能与智能体 AI 后训练场景的灵活可扩展强化学习训练基础设施，通过 M2Flow 范式实现逻辑工作流构建与高效物理执行解耦。

RLinf 是由清华大学 Yu Wang、Chao Yu 团队开发的面向具身智能与智能体 AI 后训练场景的开源强化学习基础设施，采用 Apache-2.0 许可证，已发布 v0.2 版本。

核心创新：M2Flow 范式#

RLinf 的核心创新在于 Macro-to-Micro Flow Transformation（M2Flow），将高层可组合的 RL 逻辑工作流在时间与空间维度自动分解为优化的执行流，实现逻辑工作流构建与物理通信调度的解耦。论文报告端到端训练吞吐量提升 1.07×–2.43×。

执行模式与调度#

系统提供三种灵活执行模式：

Collocated：所有 worker 共享全部 GPU
Disaggregated：细粒度流水线化，worker 按功能拆分
Hybrid：Collocated + Disaggregated 的自定义组合，具身 RL 场景下较现有框架最高提升 2.434×

调度能力包括动态调度（运行时动态资源分配）、静态调度（基于训练负载自动选择最优执行模式）和秒级在线扩缩容（额外提升效率 20–40%，保持 on-policy 特性）。

算法与模型覆盖#

算法层面覆盖 15 种 RL 算法：On-policy 族（PPO、GRPO、DAPO、Reinforce++、Async PPO）、Off-policy 族（SAC、CrossQ、RLPD、IQL）及具身专项（SAC-Flow、DSRL、RECAP、DAgger、HG-DAgger），并支持全参数 SFT、LoRA SFT、VLM SFT。

模型支持涵盖 VLA 模型（π₀、π₀.₅、OpenVLA、OpenVLA-OFT、GR00T、Dexbotic、StarVLA、LingBot-VLA）、VLM 模型（Qwen2.5-VL、Qwen3-VL）及世界模型（OpenSora、Wan）。

仿真环境覆盖 ManiSkill3、LIBERO/LIBERO-Pro/LIBERO-Plus、IsaacLab、RoboTwin、RoboVerse、BEHAVIOR、MetaWorld、CALVIN、RoboCasa、Franka-Sim、EmbodiChain 等 12+ 平台。真实机器人支持 Franka（含 ZED 相机、Robotiq 夹爪）、XSquare Turtle2 双臂、DOS-W1 等，通过 RLinf-USER 系统实现在线策略学习与数据采集。

分层架构#

编程抽象层：基于 Worker 的编程模型（Actor、Rollout、Environment、Data、Replay Buffer 等），通过 YAML 配置驱动训练工作流定义
调度层：M2Flow + profiling-guided scheduling，context switching 与 elastic pipelining 实现流转换
通信层：自适应 P2P 通信、Channel Queuing、弹性通信机制
后端层：FSDP + HuggingFace/SGLang/vLLM（快速原型）与 Megatron + SGLang/vLLM（大规模训练），支持 5D 并行
集群层：基于 Ray 的分布式资源管理与多节点调度

核心创新：M2Flow 范式#

执行模式与调度#

算法与模型覆盖#

仿真与真实机器人支持#

分层架构#

典型应用场景#

安装与上手#

配套论文体系#

待确认信息#

相关项目

Lobu

Ion

Membrane

保持更新