受互补学习系统理论启发的语言模型持久记忆系统,通过 MEMIT 权重编辑实现清醒期即时记忆,经 LoRA 训练在睡眠周期中完成知识巩固。
Sleeping LLM 实现了一种"清醒-睡眠"双阶段记忆架构。清醒期通过 MEMIT 将对话事实直接注入模型 MLP 层权重,无需检索或外部数据库,充当短期记忆;睡眠期执行 8 步维护与巩固管线,包括审计退化编辑、零空间约束修复、LoRA 训练与融合,将知识从 MEMIT 逐步转移至 LoRA 长期记忆。每个事实通过逐事实门控独立追踪巩固阶段(0–3),MEMIT 缩放按 [1.0, 0.5, 0.1, 0.0] 递减直至完全溶解以释放容量。
系统支持 Apple Silicon(MLX)与 NVIDIA GPU(PyTorch+PEFT)双后端,基于 Llama-3.2-3B/3.1-8B/3.1-70B 验证,可在 MacBook Air M3 8GB 上运行 3B 模型处理 15 个事实,睡眠周期约 5 分钟。
实验结果
- 5–20 个事实 LoRA 巩固推进率均达 100%,Chat recall 在 2–3 个睡眠周期内达 1.00
- 30 个事实在 4 个睡眠周期内从 40% 召回恢复至 100%
- 8B 模型清醒容量存在约 13 编辑的相变阈值(13 编辑→0.92 召回,14 编辑→0.57 召回)
- RLHF 对齐会抑制 LoRA 知识注入(3B: 47%, 8B: 37%, 70B: 0%)
交互命令:/sleep 触发完整睡眠周期,/nap 快速审计最近事实,/status 显示状态,/compact 压缩上下文窗口。
已知限制:当前验证仅限于 person-city 合成三元组,未覆盖真实对话场景;未与 RAG 方法进行对比;70B 模型在约 30 事实/会话时 2×H100 可能 OOM;5 篇论文均为 Zenodo 预印本,未见正式会议/期刊录用记录。