Unsloth

一个旨在显著加速大语言模型（LLM）微调并优化显存占用的开源库，专注于支持 Llama 3、Mistral 等模型在消费级硬件（如 Google Colab 免费算力）上的高效训练。

一分钟了解#

Unsloth 是一个与 Hugging Face 生态系统完全兼容的优化库，用于微调 Llama、Mistral、Phi 和 Gemma 等大语言模型。通过手动优化的 CUDA 内核，它在不改变模型精度的前提下，将训练速度提升了 2 倍以上，并减少了 70% 的显存占用。这使得在免费的 Google Colab（T4 GPU）上微调 Llama 3 8b 等大模型成为可能。

核心价值：让大模型微调更快、更省资源，且仅需极少的代码改动即可无缝接入现有的 Hugging Face 工作流。

快速上手#

安装难度：低 - 仅需 pip 安装，无需复杂的系统环境配置。

Unsloth 专为易用性设计，安装非常简单：

pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"

核心能力#

1. 极致的性能优化 - 突破硬件限制#

通过手动编写的 Triton 内核替代 PyTorch 原生实现，大幅提升计算效率。

2. 广泛的模型支持 - 覆盖主流 SOTA#

官方支持 Llama 3、Mistral、Phi-3、Gemma 和 Qwen 等多种架构。

3. 原生 Hugging Face 兼容性 - 零学习成本#

生成的模型文件是标准的 Hugging Face 格式，可以直接使用 .save_pretrained() 和 .push_to_hub()。

技术栈与集成#

开发语言：Python (基于 PyTorch) 主要依赖：

PyTorch 2.x
xFormers (用于 Flash Attention)
Hugging Face Transformers / PEFT / TRL
Triton (用于 GPU 内核优化)

维护状态#

开发活跃度：极高，紧跟 Hugging Face 和主流模型（如 Llama 3）的发布节奏进行更新。
最近更新：持续更新中，包含对新模型架构（如 Gemma 2, Llama 3.1）的即时支持。
社区响应：拥有活跃的 Discord 社区和 GitHub Discussions，对issues响应迅速。

一分钟了解#

快速上手#

核心能力#

1. 极致的性能优化 - 突破硬件限制#

2. 广泛的模型支持 - 覆盖主流 SOTA#

3. 原生 Hugging Face 兼容性 - 零学习成本#

技术栈与集成#

维护状态#

相关项目

Zylos Core

verl

Kalshi AI Trading Bot

保持更新