发现 AI 代理的未来arrow_forward

AutoRound

calendar_today收录于 2026年4月24日
category模型与推理框架
code开源
PythonPyTorch大语言模型多模态TransformersCLI模型与推理框架模型训练/推理计算机视觉/多模态

Intel 官方的大语言模型与视觉-语言模型后训练量化工具包,基于 SignRound 算法支持 2-4 bit 极低比特量化与自动混合精度方案生成,可跨 Intel CPU/GPU、NVIDIA GPU、Habana Gaudi 部署。

AutoRound 是 Intel 官方维护的大语言模型(LLM)和视觉-语言模型(VLM)后训练量化工具包,核心基于 SignRound 算法——通过 SignSGD 在约 200 步内优化舍入值与权重裁剪,融合量化感知训练(QAT)与后训练量化(PTQ)的优势,不引入额外推理开销。在 2-bit 权重量化下,SignRoundV1 论文报告平均零样本精度提升 6.91%–33.22%。

项目支持丰富的量化数据类型组合:W2A16、W3A16、W4A16、W8A16、W4A4(研究阶段)、NVFP4、MXFP4、Block-wise FP8、W8A8 等,并可导出为 AutoRound 原生格式、AutoAWQ、AutoGPTQ、GGUF、LLM-Compressor 五种格式。SignRoundV2 算法进一步引入快速敏感度指标指导逐层比特分配,以及轻量级量化缩放预调优搜索。

AutoScheme 功能可在数分钟内自动生成逐层混合比特/数据类型的量化方案(额外内存开销约 BF16 模型体积的 1.1–1.5 倍),支持通过 layer_config 对特定层定制精度。在工程层面,7B 模型在单 GPU 上约 10 分钟完成 W4A16 量化,提供三种预设方案(auto-round / auto-round-best / auto-round-light)覆盖不同精度-速度需求。

量化后模型可直接在 Transformers、vLLM、SGLang 等主流推理框架中加载,无需额外代码修改。同一量化流程适配 Intel Xeon CPU、Intel GPU(XPU)、NVIDIA GPU(CUDA)、Habana Gaudi(HPU)多种硬件后端。此外支持 10+ VLM 模型开箱即用量化、Multi-Token Prediction(MTP)层量化,以及通过环境变量切换 HuggingFace 与 ModelScope 模型来源。

底层 CUDA 量化内核复用 AutoGPTQ、AutoAWQ、GPTQModel、Triton、Marlin、ExLLaMAV2 等开源库。学术基础包括 EMNLP 2024 Findings 收录的 SignRoundV1 论文及后续 SignRoundV2 论文。

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch