面向大语言模型的灵活、高效、生产可用的强化学习后训练框架
verl(Volcano Engine Reinforcement Learning for LLMs)是由字节跳动 Seed 团队发起并开源的大语言模型强化学习后训练框架,现由 verl-project 社区组织维护。项目核心创新在于 HybridFlow 编程模型与 3D-HybridEngine:前者通过单控制器(节点间通信)与多控制器(节点内计算)的分层设计,灵活表达 RL 后训练中采样-打分-更新的复杂数据流;后者解决训练阶段(FSDP/Megatron 并行分片)与生成阶段(张量并行分片)间模型分片不一致的难题,实现零内存冗余的 actor 模型 resharding,论文报告吞吐相比 SOTA 基线提升 1.53× ~ 20.57×。
框架采用高度模块化的架构设计,训练后端支持 FSDP、FSDP2、Megatron-LM,推理后端支持 vLLM、SGLang、HF Transformers,各后端可自由组合。算法层面覆盖 PPO、GRPO、DAPO、REINFORCE++、RLOO、ReMax 等 17+ 种 RL 算法,同时支持模型奖励与函数奖励(verifiable reward),适用于数学推理与代码生成等可验证场景。
在高级能力方面,verl 支持多模态 RL(Qwen2.5-vl、Kimi-VL)、多轮对话与工具调用的 Agent RL 训练、LoRA RL 多 GPU 显存优化、Expert Parallelism 扩展至 671B 模型、FP8 RL 与 NVFP4 QAT 低精度训练、序列并行与序列打包,以及 Off-policy / Fully Async Policy 等实验性异步架构。硬件层面兼容 NVIDIA GPU(CUDA ≥ 12.8)、AMD GPU(ROCm)及华为 Ascend NPU。
典型应用场景包括 LLM 对齐(RLHF)、DeepSeek R1 风格推理模型训练、代码与数学能力专项提升、VLM 多模态强化学习、Agent RL 训练等。项目提供完整的 Docker 镜像与快速开始指南,算法配方通过独立的 verl-recipe 仓库管理,确保可复现性。研究成果发表于 EuroSys 2025。