发现 AI 代理的未来arrow_forward

slime

calendar_today收录于 2026年2月22日
category模型与推理框架
code开源
PythonDockerPyTorch大语言模型Transformers深度学习强化学习CLI模型与推理框架其他模型训练/推理

清华大学 THUDM 推出的 LLM 强化学习后训练框架,深度融合 Megatron-LM 训练能力与 SGLang 推理引擎,支持大规模 RL Scaling,适用于 GLM、Qwen、DeepSeek、Llama 等大模型的分布式强化学习训练。

项目简介#

slime 是由清华大学数据挖掘与知识发现实验室(THUDM)开发的大语言模型后训练框架,专为强化学习规模扩展设计。核心设计理念是将分布式训练框架 Megatron-LM 与高效推理引擎 SGLang 进行深度耦合,构建支持多种 RL 算法的完整训练闭环。

核心能力#

高性能训练#

通过将 Megatron 与 SGLang 相连接,支持多种模式下的高效训练,包括 Tensor Parallel、Pipeline Parallel、Expert Parallel、Sequence Parallel、Context Parallel 等并行策略。

灵活数据生成#

通过自定义数据生成接口与基于服务器的引擎,实现任意训练数据生成工作流,支持 Prompt 初始化、自定义数据注入、Rollout 数据回填。

支持的模型#

  • GLM 系列:GLM-5、GLM-4.7、GLM-4.6、GLM-4.5
  • Qwen 系列:Qwen3Next、Qwen3MoE、Qwen3、Qwen2.5
  • DeepSeek 系列:DeepSeek V3、V3.1、DeepSeek R1
  • Llama 系列:Llama 3

支持的训练算法#

  • GRPO (Group Relative Policy Optimization)
  • GSPO
  • Reinforce++ / Reinforce++ Baseline
  • PPO (Proximal Policy Optimization)
  • On-Policy Distillation

架构设计#

采用 Training - Rollout - Data Buffer 三角架构:

  1. Training (Megatron):作为消费者,从 Data Buffer 读取训练数据,完成参数更新后将最新权重同步给 Rollout 模块
  2. Rollout (SGLang + Router):作为生产者,接收最新权重,根据 Prompt 生成 Response 及 Reward/Verifier 输出,将结果存入 Data Buffer
  3. Data Buffer:作为中枢,管理 Prompt 池、存储生成的轨迹数据,解耦训练与推理流程

核心特性#

  • Colocate 模式:支持训练与推理在同一组 GPU 上共享资源,减少通信开销
  • 动态批处理:通过 --use-dynamic-batch-size 提高 GPU 利用率
  • 权重分块更新:针对 MoE 模型的大参数量优化显存使用
  • 多轮交互支持:通过 --custom-generate-function-path--custom-rm-path 扩展
  • Ray 分布式调度:支持多节点、多 GPU 集群的高效协同

硬件支持#

推荐 NVIDIA B200 系列、H100/H200(具备 CI 保护),已在 64×H100 训练 GLM-4.5、128×H100 训练 DeepSeek-R1 等大规模场景验证。

快速开始#

推荐使用 Docker 部署:

docker pull slimerl/slime:latest
docker run --rm --gpus all --ipc=host --shm-size=16g \
  --ulimit memlock=-1 --ulimit stack=67108864 \
  -it slimerl/slime:latest /bin/bash

模型权重转换(Hugging Face → Megatron torch_dist):

source scripts/models/glm4-9B.sh
PYTHONPATH=/root/Megatron-LM python tools/convert_hf_to_torch_dist.py \
  ${MODEL_ARGS[@]} \
  --hf-checkpoint /root/GLM-Z1-9B-0414 \
  --save /root/GLM-Z1-9B-0414_torch_dist

基于 slime 构建的项目#

  • P1:物理奥林匹克推理模型
  • RLVE:基于可验证环境的 LM RL 扩展方法
  • TritonForge:GPU Kernel 生成的 Agentic RL 训练框架
  • APRIL:通过 Active Partial Rollouts 加速 RL 训练
  • qqr:面向开放式智能体的 ArenaRL & MCP 框架

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch