一个极简、可修改的 LLM 训练实验框架,支持从预训练到 ChatGPT 风格 UI 的全流程,设计用于单 GPU 节点运行。
一分钟了解#
nanochat 是一个简单的 LLM 训练实验框架,专为单 GPU 节点设计。它可以仅花费约 72 美元(在 8xH100 上运行 3 小时)训练出具有 GPT-2 能力的模型。
快速上手#
- 训练 (8xH100): 执行
runs/speedrun.sh。 - CPU/MPS: 执行
runs/runcpu.sh。 - 聊天界面: 运行
python -m scripts.chat_web。
核心能力#
- 涵盖所有主要 LLM 阶段:分词、预训练、微调、评估和推理。
- 包含类似 ChatGPT 的网页交互界面。
技术栈与集成#
- 语言: Python
- 框架: PyTorch
- 许可: MIT
维护状态#
- 状态: 活跃
- 最后提交: 2026-02-05
许可#
MIT