NeMo Gym

面向大语言模型的强化学习训练环境构建库，提供从开发、测试到规模化 Rollout 采集的完整基础设施，内置丰富的 RLVR 场景与工具调用支持。

NeMo Gym 是 NVIDIA 推出的面向大语言模型（LLM）的强化学习（RL）训练环境构建库。项目基于 Apache 2.0 协议开源（Copyright 2025 NVIDIA），目前处于 Beta 早期开发阶段，API 持续演进中。其核心价值在于解耦了 RL 环境的开发与训练循环，允许开发者独立进行端到端的环境与吞吐量测试。底层架构依托 FastAPI、Uvicorn 和 uvloop 构建异步 HTTP 服务器承载环境，通过 Ray 实现分布式 Rollout 采集，并使用 Pydantic 与 orjson 保证数据校验与序列化性能。项目抽象了 OpenAI 兼容的 API 层，无缝对接 OpenAI、Azure 及 vLLM 等推理后端，同时兼容 NeMo RL、OpenRLHF、Unsloth 等训练框架。内置场景极其丰富，覆盖数学推理（如 GSM8k、Lean4）、代码生成（如 BIRD SQL）、知识增强、复杂 Agent 任务（多跳问答、财报分析）、指令遵循及安全对齐等。配套提供了涵盖服务器启停、Rollout 采集、奖励分析、HF 数据集同步等全生命周期的 ng_* 系列 CLI 工具，配置系统基于 Hydra + OmegaConf 驱动。开发规范严格，要求测试覆盖率不低于 96%，并集成 Ruff、Mypy 等现代 Python 质量工具。

相关项目

Basic Memory

vfs (Virtual Function Signatures)

RexCLI

保持更新