专为超大规模MoE模型设计的下一代大语言模型训练引擎,提供高效率、高可扩展性的训练解决方案,支持高达1T参数规模的模型训练。
一分钟了解#
XTuner是专为超大规模MoE(专家混合)模型设计的下一代大语言模型训练引擎。它突破了传统3D并行训练架构的限制,专为当前学术界主流的MoE训练场景优化,可支持高达1T参数规模的大模型训练,在Ascend A3 Supernode上训练效率甚至超过NVIDIA H800。
核心价值:通过创新的并行策略和内存优化技术,实现MoE模型的高效训练,解决了传统架构在大规模MoE模型训练中的瓶颈问题。
快速上手#
安装难度:中 - 作为专业训练框架,需要一定的分布式训练和GPU/NPU硬件知识
# 克隆仓库并安装
git clone https://github.com/InternLM/xtuner
cd xtuner
pip install -e .
适合我的场景吗?
- ✅ 大规模MoE模型训练:适合需要训练200B-1T参数MoE模型的研究团队和企业
- ✅ 多模态模型训练:支持视觉-语言模型的多模态预训练和指令微调
- ❌ 小规模模型训练:对小于10B的常规模型训练,可能过于复杂
- ❌ 资源有限环境:需要高性能计算集群,普通个人电脑无法发挥其性能
核心能力#
1. 无专家丢失训练 - 解决大规模MoE训练瓶颈#
- 通过优化的并行策略,可在不需要全专家并行的情况下训练200B规模的MoE模型,600B模型仅需节点内专家并行 实际价值:大幅降低大规模MoE模型训练的技术门槛和资源需求
2. 长序列支持 - 突破上下文长度限制#
- 通过先进的内存优化技术,可以在不使用序列并行的情况下,在64k序列长度上训练200B MoE模型 实际价值:支持更长文本的处理和训练,适合需要处理长文档的应用场景
3. 卓越训练效率 - 业界领先的性能表现#
- 首次实现FSDP训练吞吐量超越传统3D并行方案,在200B以上规模MoE模型上表现出色 实际价值:显著降低大模型训练时间和成本,提高研发效率
4. 多模态能力 - 支持视觉-语言模型训练#
- 完整支持视觉-语言模型的多模态预训练和监督微调,优化指令跟随能力 实际价值:能同时处理文本和图像数据,拓展应用场景
5. 强化学习支持 - 先进的RLHF能力#
- 实现GRPO(Group Relative Policy Optimization),计划支持MPO和DAPO等高级优化算法 实际价值:提升模型对人类指令的遵循能力和输出质量