AutoRound

Intel 官方的大语言模型与视觉-语言模型后训练量化工具包，基于 SignRound 算法支持 2-4 bit 极低比特量化与自动混合精度方案生成，可跨 Intel CPU/GPU、NVIDIA GPU、Habana Gaudi 部署。

AutoRound 是 Intel 官方维护的大语言模型（LLM）和视觉-语言模型（VLM）后训练量化工具包，核心基于 SignRound 算法——通过 SignSGD 在约 200 步内优化舍入值与权重裁剪，融合量化感知训练（QAT）与后训练量化（PTQ）的优势，不引入额外推理开销。在 2-bit 权重量化下，SignRoundV1 论文报告平均零样本精度提升 6.91%–33.22%。

项目支持丰富的量化数据类型组合：W2A16、W3A16、W4A16、W8A16、W4A4（研究阶段）、NVFP4、MXFP4、Block-wise FP8、W8A8 等，并可导出为 AutoRound 原生格式、AutoAWQ、AutoGPTQ、GGUF、LLM-Compressor 五种格式。SignRoundV2 算法进一步引入快速敏感度指标指导逐层比特分配，以及轻量级量化缩放预调优搜索。

AutoScheme 功能可在数分钟内自动生成逐层混合比特/数据类型的量化方案（额外内存开销约 BF16 模型体积的 1.1–1.5 倍），支持通过 layer_config 对特定层定制精度。在工程层面，7B 模型在单 GPU 上约 10 分钟完成 W4A16 量化，提供三种预设方案（auto-round / auto-round-best / auto-round-light）覆盖不同精度-速度需求。

量化后模型可直接在 Transformers、vLLM、SGLang 等主流推理框架中加载，无需额外代码修改。同一量化流程适配 Intel Xeon CPU、Intel GPU（XPU）、NVIDIA GPU（CUDA）、Habana Gaudi（HPU）多种硬件后端。此外支持 10+ VLM 模型开箱即用量化、Multi-Token Prediction（MTP）层量化，以及通过环境变量切换 HuggingFace 与 ModelScope 模型来源。

底层 CUDA 量化内核复用 AutoGPTQ、AutoAWQ、GPTQModel、Triton、Marlin、ExLLaMAV2 等开源库。学术基础包括 EMNLP 2024 Findings 收录的 SignRoundV1 论文及后续 SignRoundV2 论文。

相关项目

agent-coworker

Project N.E.K.O.（猫娘计划）

WebAgents

保持更新