verl

面向大语言模型的灵活、高效、生产可用的强化学习后训练框架

verl（Volcano Engine Reinforcement Learning for LLMs）是由字节跳动 Seed 团队发起并开源的大语言模型强化学习后训练框架，现由 verl-project 社区组织维护。项目核心创新在于 HybridFlow 编程模型与 3D-HybridEngine：前者通过单控制器（节点间通信）与多控制器（节点内计算）的分层设计，灵活表达 RL 后训练中采样-打分-更新的复杂数据流；后者解决训练阶段（FSDP/Megatron 并行分片）与生成阶段（张量并行分片）间模型分片不一致的难题，实现零内存冗余的 actor 模型 resharding，论文报告吞吐相比 SOTA 基线提升 1.53× ~ 20.57×。

框架采用高度模块化的架构设计，训练后端支持 FSDP、FSDP2、Megatron-LM，推理后端支持 vLLM、SGLang、HF Transformers，各后端可自由组合。算法层面覆盖 PPO、GRPO、DAPO、REINFORCE++、RLOO、ReMax 等 17+ 种 RL 算法，同时支持模型奖励与函数奖励（verifiable reward），适用于数学推理与代码生成等可验证场景。

在高级能力方面，verl 支持多模态 RL（Qwen2.5-vl、Kimi-VL）、多轮对话与工具调用的 Agent RL 训练、LoRA RL 多 GPU 显存优化、Expert Parallelism 扩展至 671B 模型、FP8 RL 与 NVFP4 QAT 低精度训练、序列并行与序列打包，以及 Off-policy / Fully Async Policy 等实验性异步架构。硬件层面兼容 NVIDIA GPU（CUDA ≥ 12.8）、AMD GPU（ROCm）及华为 Ascend NPU。

典型应用场景包括 LLM 对齐（RLHF）、DeepSeek R1 风格推理模型训练、代码与数学能力专项提升、VLM 多模态强化学习、Agent RL 训练等。项目提供完整的 Docker 镜像与快速开始指南，算法配方通过独立的 verl-recipe 仓库管理，确保可复现性。研究成果发表于 EuroSys 2025。

相关项目

Zylos Core

Kalshi AI Trading Bot

保持更新