发现 AI 代理的未来arrow_forward

NeMo Gym

calendar_today收录于 2026年4月22日
category模型与推理框架
code开源
PythonPyTorch大语言模型Transformers深度学习AI代理强化学习vLLMCLI模型与推理框架其他开发者工具/代码模型训练/推理

面向大语言模型的强化学习训练环境构建库,提供从开发、测试到规模化 Rollout 采集的完整基础设施,内置丰富的 RLVR 场景与工具调用支持。

NeMo Gym 是 NVIDIA 推出的面向大语言模型(LLM)的强化学习(RL)训练环境构建库。项目基于 Apache 2.0 协议开源(Copyright 2025 NVIDIA),目前处于 Beta 早期开发阶段,API 持续演进中。其核心价值在于解耦了 RL 环境的开发与训练循环,允许开发者独立进行端到端的环境与吞吐量测试。底层架构依托 FastAPI、Uvicorn 和 uvloop 构建异步 HTTP 服务器承载环境,通过 Ray 实现分布式 Rollout 采集,并使用 Pydantic 与 orjson 保证数据校验与序列化性能。项目抽象了 OpenAI 兼容的 API 层,无缝对接 OpenAI、Azure 及 vLLM 等推理后端,同时兼容 NeMo RL、OpenRLHF、Unsloth 等训练框架。内置场景极其丰富,覆盖数学推理(如 GSM8k、Lean4)、代码生成(如 BIRD SQL)、知识增强、复杂 Agent 任务(多跳问答、财报分析)、指令遵循及安全对齐等。配套提供了涵盖服务器启停、Rollout 采集、奖励分析、HF 数据集同步等全生命周期的 ng_* 系列 CLI 工具,配置系统基于 Hydra + OmegaConf 驱动。开发规范严格,要求测试覆盖率不低于 96%,并集成 Ruff、Mypy 等现代 Python 质量工具。

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch