Sleeping LLM

受互补学习系统理论启发的语言模型持久记忆系统，通过 MEMIT 权重编辑实现清醒期即时记忆，经 LoRA 训练在睡眠周期中完成知识巩固。

Sleeping LLM 实现了一种"清醒-睡眠"双阶段记忆架构。清醒期通过 MEMIT 将对话事实直接注入模型 MLP 层权重，无需检索或外部数据库，充当短期记忆；睡眠期执行 8 步维护与巩固管线，包括审计退化编辑、零空间约束修复、LoRA 训练与融合，将知识从 MEMIT 逐步转移至 LoRA 长期记忆。每个事实通过逐事实门控独立追踪巩固阶段（0–3），MEMIT 缩放按 [1.0, 0.5, 0.1, 0.0] 递减直至完全溶解以释放容量。

系统支持 Apple Silicon（MLX）与 NVIDIA GPU（PyTorch+PEFT）双后端，基于 Llama-3.2-3B/3.1-8B/3.1-70B 验证，可在 MacBook Air M3 8GB 上运行 3B 模型处理 15 个事实，睡眠周期约 5 分钟。

实验结果

5–20 个事实 LoRA 巩固推进率均达 100%，Chat recall 在 2–3 个睡眠周期内达 1.00
30 个事实在 4 个睡眠周期内从 40% 召回恢复至 100%
8B 模型清醒容量存在约 13 编辑的相变阈值（13 编辑→0.92 召回，14 编辑→0.57 召回）
RLHF 对齐会抑制 LoRA 知识注入（3B: 47%, 8B: 37%, 70B: 0%）

交互命令：/sleep 触发完整睡眠周期，/nap 快速审计最近事实，/status 显示状态，/compact 压缩上下文窗口。

已知限制：当前验证仅限于 person-city 合成三元组，未覆盖真实对话场景；未与 RAG 方法进行对比；70B 模型在约 30 事实/会话时 2×H100 可能 OOM；5 篇论文均为 Zenodo 预印本，未见正式会议/期刊录用记录。

相关项目

Basic Memory

vfs (Virtual Function Signatures)

RexCLI

保持更新