发现 AI 代理的未来arrow_forward

Heretic

calendar_today收录于 2026年2月23日
category模型与推理框架
code开源
PythonPyTorch大语言模型多模态TransformersCLI模型与推理框架模型训练/推理安全/隐私

语言模型全自动审查移除工具,通过方向性消融与TPE参数优化自动移除模型安全对齐,在最小化拒绝行为的同时保留模型原始能力。支持稠密模型、多模态模型和MoE架构。

Heretic - 语言模型全自动审查移除工具#

项目概述#

Heretic 是一个针对基于 Transformer 的大语言模型(LLM)的自动化审查移除工具。其核心功能是自动识别并消融模型中的"拒绝方向"(refusal direction),从而移除模型的安全对齐机制(safety alignment),使其能够回答原本会被拒绝的提示,无需昂贵的后训练。

核心特性#

自动审查移除#

  • 全自动流程,无需人工配置或昂贵后训练
  • 基于方向性消融(abliteration)技术,参考 Arditi et al. 2024, Lai 2025 的研究

TPE 参数优化#

  • 通过 Optuna 提供的 Tree-structured Parzen Estimator 自动搜索最优消融参数
  • 默认进行 200 次优化试验,前 60 次为随机采样探索阶段

联合优化目标#

  • 同时最小化拒绝数量和与原始模型的 KL 散度
  • 在移除审查的同时尽可能保留原始模型的智能

技术创新(相比现有 abliteration 系统)#

  1. 灵活的消融权重核:高度可配置的权重核形状,配合自动参数优化改善合规性/质量权衡
  2. 浮点拒绝方向索引:支持浮点数索引,可在两个最近拒绝方向向量间进行线性插值
  3. 按组件分别选择消融参数:注意力机制和 MLP 使用不同的消融权重(MLP 干预通常对模型损伤更大)

支持的模型架构#

类型支持情况
稠密模型✅ 大多数主流稠密 Transformer 模型
多模态模型✅ 支持多模态架构
MoE 架构✅ 支持多种 Mixture of Experts 架构
SSM/混合模型❌ 不支持
非均质层模型❌ 不支持
某些新型注意力系统❌ 不支持

性能表现#

gemma-3-12b-it 为基准的对比测试:

模型变体"有害"提示拒绝数/100KL 散度("无害"提示)
google/gemma-3-12b-it(原始)97/1000(基准)
mlabonne/gemma-3-12b-it-abliterated-v23/1001.04
huihui-ai/gemma-3-12b-it-abliterated3/1000.45
p-e-w/gemma-3-12b-it-heretic3/1000.16

社区已基于 Heretic 创建并发布超过 1,000 个模型变体。

安装与快速开始#

环境要求#

  • Python >= 3.10
  • PyTorch >= 2.2
  • 推荐 GPU(CPU 可运行但效率低)

安装命令#

# 基础安装
pip install -U heretic-llm

# 包含研究功能(可视化等)
pip install -U heretic-llm[research]

快速使用#

# 基础用法 - 完全自动,无需配置
heretic Qwen/Qwen3-4B-Instruct-2507

# 查看帮助
heretic --help

# 评估已有模型
heretic --model google/gemma-3-12b-it --evaluate-model p-e-w/gemma-3-12b-it-heretic

研究功能(需 [research] extra)#

功能命令输出
残差向量可视化--plot-residualsPaCMAP 投影图和动画 GIF
残差几何分析--print-residual-geometry详细指标表

消融机制#

  1. 对每个支持的 transformer 组件(attention out-projection 和 MLP down-projection)进行处理
  2. 识别每个 transformer 层中的关联权重矩阵
  3. 基于示例提示计算首个 token 残差的均值差作为拒绝方向
  4. 对拒绝方向进行正交化处理,抑制该方向在矩阵乘法结果中的表达

关键配置参数#

参数默认值说明
n_trials200优化过程中的消融试验次数
n_startup_trials60随机采样探索的试验数
kl_divergence_scale1.0KL 散度的典型值
kl_divergence_target0.01目标 KL 散度阈值
quantization"none"量化方法,可选 "bnb_4bit"
batch_size0(自动)并行处理的输入序列数

输出选项#

  • 保存处理后的模型到本地
  • 上传模型至 Hugging Face Hub
  • 交互式聊天测试效果

典型处理时间#

硬件配置模型处理时间
RTX 3090 + 默认配置Llama-3.1-8B-Instruct约 45 分钟

版本信息#

  • PyPI 包名:heretic-llm
  • 当前版本:1.2.0
  • 许可证:AGPL-3.0-or-later
  • 作者:Philipp Emanuel Weidmann

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch