面向大语言模型的强化学习训练环境构建库,提供从开发、测试到规模化 Rollout 采集的完整基础设施,内置丰富的 RLVR 场景与工具调用支持。
NeMo Gym 是 NVIDIA 推出的面向大语言模型(LLM)的强化学习(RL)训练环境构建库。项目基于 Apache 2.0 协议开源(Copyright 2025 NVIDIA),目前处于 Beta 早期开发阶段,API 持续演进中。其核心价值在于解耦了 RL 环境的开发与训练循环,允许开发者独立进行端到端的环境与吞吐量测试。底层架构依托 FastAPI、Uvicorn 和 uvloop 构建异步 HTTP 服务器承载环境,通过 Ray 实现分布式 Rollout 采集,并使用 Pydantic 与 orjson 保证数据校验与序列化性能。项目抽象了 OpenAI 兼容的 API 层,无缝对接 OpenAI、Azure 及 vLLM 等推理后端,同时兼容 NeMo RL、OpenRLHF、Unsloth 等训练框架。内置场景极其丰富,覆盖数学推理(如 GSM8k、Lean4)、代码生成(如 BIRD SQL)、知识增强、复杂 Agent 任务(多跳问答、财报分析)、指令遵循及安全对齐等。配套提供了涵盖服务器启停、Rollout 采集、奖励分析、HF 数据集同步等全生命周期的 ng_* 系列 CLI 工具,配置系统基于 Hydra + OmegaConf 驱动。开发规范严格,要求测试覆盖率不低于 96%,并集成 Ruff、Mypy 等现代 Python 质量工具。