清华大学 THUDM 推出的 LLM 强化学习后训练框架,深度融合 Megatron-LM 训练能力与 SGLang 推理引擎,支持大规模 RL Scaling,适用于 GLM、Qwen、DeepSeek、Llama 等大模型的分布式强化学习训练。
项目简介#
slime 是由清华大学数据挖掘与知识发现实验室(THUDM)开发的大语言模型后训练框架,专为强化学习规模扩展设计。核心设计理念是将分布式训练框架 Megatron-LM 与高效推理引擎 SGLang 进行深度耦合,构建支持多种 RL 算法的完整训练闭环。
核心能力#
高性能训练#
通过将 Megatron 与 SGLang 相连接,支持多种模式下的高效训练,包括 Tensor Parallel、Pipeline Parallel、Expert Parallel、Sequence Parallel、Context Parallel 等并行策略。
灵活数据生成#
通过自定义数据生成接口与基于服务器的引擎,实现任意训练数据生成工作流,支持 Prompt 初始化、自定义数据注入、Rollout 数据回填。
支持的模型#
- GLM 系列:GLM-5、GLM-4.7、GLM-4.6、GLM-4.5
- Qwen 系列:Qwen3Next、Qwen3MoE、Qwen3、Qwen2.5
- DeepSeek 系列:DeepSeek V3、V3.1、DeepSeek R1
- Llama 系列:Llama 3
支持的训练算法#
- GRPO (Group Relative Policy Optimization)
- GSPO
- Reinforce++ / Reinforce++ Baseline
- PPO (Proximal Policy Optimization)
- On-Policy Distillation
架构设计#
采用 Training - Rollout - Data Buffer 三角架构:
- Training (Megatron):作为消费者,从 Data Buffer 读取训练数据,完成参数更新后将最新权重同步给 Rollout 模块
- Rollout (SGLang + Router):作为生产者,接收最新权重,根据 Prompt 生成 Response 及 Reward/Verifier 输出,将结果存入 Data Buffer
- Data Buffer:作为中枢,管理 Prompt 池、存储生成的轨迹数据,解耦训练与推理流程
核心特性#
- Colocate 模式:支持训练与推理在同一组 GPU 上共享资源,减少通信开销
- 动态批处理:通过
--use-dynamic-batch-size提高 GPU 利用率 - 权重分块更新:针对 MoE 模型的大参数量优化显存使用
- 多轮交互支持:通过
--custom-generate-function-path和--custom-rm-path扩展 - Ray 分布式调度:支持多节点、多 GPU 集群的高效协同
硬件支持#
推荐 NVIDIA B200 系列、H100/H200(具备 CI 保护),已在 64×H100 训练 GLM-4.5、128×H100 训练 DeepSeek-R1 等大规模场景验证。
快速开始#
推荐使用 Docker 部署:
docker pull slimerl/slime:latest
docker run --rm --gpus all --ipc=host --shm-size=16g \
--ulimit memlock=-1 --ulimit stack=67108864 \
-it slimerl/slime:latest /bin/bash
模型权重转换(Hugging Face → Megatron torch_dist):
source scripts/models/glm4-9B.sh
PYTHONPATH=/root/Megatron-LM python tools/convert_hf_to_torch_dist.py \
${MODEL_ARGS[@]} \
--hf-checkpoint /root/GLM-Z1-9B-0414 \
--save /root/GLM-Z1-9B-0414_torch_dist
基于 slime 构建的项目#
- P1:物理奥林匹克推理模型
- RLVE:基于可验证环境的 LM RL 扩展方法
- TritonForge:GPU Kernel 生成的 Agentic RL 训练框架
- APRIL:通过 Active Partial Rollouts 加速 RL 训练
- qqr:面向开放式智能体的 ArenaRL & MCP 框架