slime

清华大学 THUDM 推出的 LLM 强化学习后训练框架，深度融合 Megatron-LM 训练能力与 SGLang 推理引擎，支持大规模 RL Scaling，适用于 GLM、Qwen、DeepSeek、Llama 等大模型的分布式强化学习训练。

项目简介#

slime 是由清华大学数据挖掘与知识发现实验室（THUDM）开发的大语言模型后训练框架，专为强化学习规模扩展设计。核心设计理念是将分布式训练框架 Megatron-LM 与高效推理引擎 SGLang 进行深度耦合，构建支持多种 RL 算法的完整训练闭环。

核心能力#

高性能训练#

通过将 Megatron 与 SGLang 相连接，支持多种模式下的高效训练，包括 Tensor Parallel、Pipeline Parallel、Expert Parallel、Sequence Parallel、Context Parallel 等并行策略。

灵活数据生成#

通过自定义数据生成接口与基于服务器的引擎，实现任意训练数据生成工作流，支持 Prompt 初始化、自定义数据注入、Rollout 数据回填。

支持的模型#

GLM 系列：GLM-5、GLM-4.7、GLM-4.6、GLM-4.5
Qwen 系列：Qwen3Next、Qwen3MoE、Qwen3、Qwen2.5
DeepSeek 系列：DeepSeek V3、V3.1、DeepSeek R1
Llama 系列：Llama 3

支持的训练算法#

GRPO (Group Relative Policy Optimization)
GSPO
Reinforce++ / Reinforce++ Baseline
PPO (Proximal Policy Optimization)
On-Policy Distillation

架构设计#

采用 Training - Rollout - Data Buffer 三角架构：

Training (Megatron)：作为消费者，从 Data Buffer 读取训练数据，完成参数更新后将最新权重同步给 Rollout 模块
Rollout (SGLang + Router)：作为生产者，接收最新权重，根据 Prompt 生成 Response 及 Reward/Verifier 输出，将结果存入 Data Buffer
Data Buffer：作为中枢，管理 Prompt 池、存储生成的轨迹数据，解耦训练与推理流程

核心特性#

Colocate 模式：支持训练与推理在同一组 GPU 上共享资源，减少通信开销
动态批处理：通过 --use-dynamic-batch-size 提高 GPU 利用率
权重分块更新：针对 MoE 模型的大参数量优化显存使用
多轮交互支持：通过 --custom-generate-function-path 和 --custom-rm-path 扩展
Ray 分布式调度：支持多节点、多 GPU 集群的高效协同

硬件支持#

推荐 NVIDIA B200 系列、H100/H200（具备 CI 保护），已在 64×H100 训练 GLM-4.5、128×H100 训练 DeepSeek-R1 等大规模场景验证。

快速开始#

推荐使用 Docker 部署：

docker pull slimerl/slime:latest
docker run --rm --gpus all --ipc=host --shm-size=16g \
  --ulimit memlock=-1 --ulimit stack=67108864 \
  -it slimerl/slime:latest /bin/bash

模型权重转换（Hugging Face → Megatron torch_dist）：

source scripts/models/glm4-9B.sh
PYTHONPATH=/root/Megatron-LM python tools/convert_hf_to_torch_dist.py \
  ${MODEL_ARGS[@]} \
  --hf-checkpoint /root/GLM-Z1-9B-0414 \
  --save /root/GLM-Z1-9B-0414_torch_dist

基于 slime 构建的项目#

P1：物理奥林匹克推理模型
RLVE：基于可验证环境的 LM RL 扩展方法
TritonForge：GPU Kernel 生成的 Agentic RL 训练框架
APRIL：通过 Active Partial Rollouts 加速 RL 训练
qqr：面向开放式智能体的 ArenaRL & MCP 框架

项目简介#

核心能力#

高性能训练#

灵活数据生成#

支持的模型#

支持的训练算法#

架构设计#

核心特性#

硬件支持#

快速开始#

基于 slime 构建的项目#

相关项目

oh-my-codex

Ironcurtain

vibe-remote

保持更新