Trinity-RFT是一个通用、灵活且用户友好的LLM强化微调(RFT)框架,通过将RFT解耦为三个协同工作的组件:Explorer、Trainer和Buffer,为不同背景的用户提供针对特定领域的训练能力。
一分钟了解#
Trinity-RFT是专为大型语言模型强化微调设计的通用框架,通过Explorer、Trainer和Buffer三个组件的协同工作,使AI应用开发者、强化学习研究人员和数据工程师能够高效地训练和优化LLM智能体。
核心价值:模块化架构支持灵活的RFT模式,无需GPU即可使用,并提供丰富的数据管道和算法支持。
快速上手#
安装难度:中 - 需要Python 3.10-3.12,GPU版本需要CUDA≥12.8和至少2个GPU,但提供无GPU的Tinker后端选项
# 使用CPU后端安装(适合无GPU用户)
pip install -e ".[tinker]"
# 使用GPU安装
pip install -e ".[vllm,flash_attn]"
适合我的场景吗?
- ✅ AI应用开发:训练特定领域的LLM智能体,提升专业能力
- ✅ 强化学习研究:设计、实现和验证新的RL算法
- ✅ 数据工程:创建RFT数据集,构建数据管道
- ❌ 简单分类任务:此框架专注于强化微调,不适合简单的模型微调需求
- ❌ 单机使用:虽支持CPU模式,但最佳性能需分布式训练环境
核心能力(可选)#
1. 灵活的RFT模式 - 满足多样化训练需求#
- 支持同步/异步、在线/离线、策略内/策略外的强化学习模式
- 推理和训练可独立扩展,提高样本和时间效率 实际价值:用户可根据计算资源和任务需求选择最佳训练模式,灵活适应不同场景
2. 智能体RL支持 - 训练复杂多步骤任务#
- 支持连接式和通用多步骤智能体工作流
- 可直接使用AgentScope等智能体框架开发的智能体应用 实际价值:简化从开发到训练的流程,使复杂智能体训练变得简单直观
3. 全生命周期数据管道 - 提升数据质量与效率#
- 实现推理任务和经验样本的管道处理
- 支持优先级排序、清洗、增强等主动数据管理 实际价值:通过数据预处理和优化,提高训练效果和模型性能,减少人工干预
技术栈与集成#
开发语言:Python 3.10-3.12 主要依赖:PyTorch, Ray, vLLM, verl, Data-Juicer 集成方式:库/API框架
生态与扩展(可选)#
- 算法支持:PPO、GRPO、CHORD、REC系列等多种RL算法
- 框架兼容:与Huggingface和ModelScope模型/数据集生态兼容
- 可视化工具:提供Web界面进行配置,支持Wandb/TensorBoard/MLFlow监控
维护状态(可选)#
- 开发活跃度:活跃开发,近期频繁发布更新版本
- 最近更新:2026年1月发布v0.4.1版本,持续改进功能
- 社区响应:有明确的贡献指南和欢迎社区参与
商用与许可(可选)#
许可证:Apache-2.0
- ✅ 商用:允许
- ✅ 修改:允许
- ⚠️ 限制:无特殊限制
文档与学习资源(可选)#
- 文档质量:全面
- 官方文档:包含在仓库中
- 示例代码:提供丰富的教程和示例,包括GRPO在GSM8k上的快速入门