发现 AI 代理的未来arrow_forward

smart_toyAgent Park

中文 / EN 提交项目

arrow_back返回项目列表

Trinity-RFT：大型语言模型强化微调通用框架

calendar_today收录于 2026年1月27日

|

category模型与推理框架

|

code开源

PythonPyTorch大语言模型强化学习CLI模型与推理框架开发者工具/代码模型训练/推理

Trinity-RFT是一个通用、灵活且用户友好的LLM强化微调(RFT)框架，通过将RFT解耦为三个协同工作的组件：Explorer、Trainer和Buffer，为不同背景的用户提供针对特定领域的训练能力。

一分钟了解#

Trinity-RFT是专为大型语言模型强化微调设计的通用框架，通过Explorer、Trainer和Buffer三个组件的协同工作，使AI应用开发者、强化学习研究人员和数据工程师能够高效地训练和优化LLM智能体。

核心价值：模块化架构支持灵活的RFT模式，无需GPU即可使用，并提供丰富的数据管道和算法支持。

快速上手#

安装难度：中 - 需要Python 3.10-3.12，GPU版本需要CUDA≥12.8和至少2个GPU，但提供无GPU的Tinker后端选项

# 使用CPU后端安装(适合无GPU用户)
pip install -e ".[tinker]"

# 使用GPU安装
pip install -e ".[vllm,flash_attn]"

适合我的场景吗？

✅ AI应用开发：训练特定领域的LLM智能体，提升专业能力

✅ 强化学习研究：设计、实现和验证新的RL算法

✅ 数据工程：创建RFT数据集，构建数据管道

❌ 简单分类任务：此框架专注于强化微调，不适合简单的模型微调需求

❌ 单机使用：虽支持CPU模式，但最佳性能需分布式训练环境

核心能力（可选）#

1. 灵活的RFT模式 - 满足多样化训练需求#

支持同步/异步、在线/离线、策略内/策略外的强化学习模式
推理和训练可独立扩展，提高样本和时间效率 实际价值：用户可根据计算资源和任务需求选择最佳训练模式，灵活适应不同场景

2. 智能体RL支持 - 训练复杂多步骤任务#

支持连接式和通用多步骤智能体工作流
可直接使用AgentScope等智能体框架开发的智能体应用 实际价值：简化从开发到训练的流程，使复杂智能体训练变得简单直观

3. 全生命周期数据管道 - 提升数据质量与效率#

实现推理任务和经验样本的管道处理
支持优先级排序、清洗、增强等主动数据管理 实际价值：通过数据预处理和优化，提高训练效果和模型性能，减少人工干预

技术栈与集成#

开发语言：Python 3.10-3.12 主要依赖：PyTorch, Ray, vLLM, verl, Data-Juicer 集成方式：库/API框架

生态与扩展（可选）#

算法支持：PPO、GRPO、CHORD、REC系列等多种RL算法
框架兼容：与Huggingface和ModelScope模型/数据集生态兼容
可视化工具：提供Web界面进行配置，支持Wandb/TensorBoard/MLFlow监控

维护状态（可选）#

开发活跃度：活跃开发，近期频繁发布更新版本
最近更新：2026年1月发布v0.4.1版本，持续改进功能
社区响应：有明确的贡献指南和欢迎社区参与

商用与许可（可选）#

许可证：Apache-2.0

✅ 商用：允许
✅ 修改：允许
⚠️ 限制：无特殊限制

文档与学习资源（可选）#

文档质量：全面
官方文档：包含在仓库中
示例代码：提供丰富的教程和示例，包括GRPO在GSM8k上的快速入门

相关项目

查看全部 arrow_forward

oh-my-codex

该项目信息不完整，已保留可验证数据供后续补充。基于URL推测为GitHub用户Yeachan-Heo的仓库，名称暗示可能与代码生成、OpenAI Codex或开发工具有关。

查看详情 arrow_forward

Ironcurtain

该项目信息不完整，已保留可验证数据供后续补充。GitHub仓库 https://github.com/provos/ironcurtain 因技术限制（浏览器上下文不可用）暂时无法访问验证。

智能体与应用工具Python

查看详情 arrow_forward

vibe-remote

由 cyhhao 维护的 GitHub 开源项目。项目名称暗示可能与远程操作或连接相关，具体功能定位因访问限制待确认。

智能体与应用工具Python

查看详情 arrow_forward

保持更新

获取最新的 AI 工具和趋势，直接发送到您的收件箱。没有垃圾邮件，只有智能。

rocket_launch