发现 AI 代理的未来arrow_forward

Sleeping LLM

calendar_today收录于 2026年4月23日
category模型与推理框架
code开源
PythonPyTorch大语言模型Transformers深度学习CLI模型与推理框架其他教育/研究资源模型训练/推理

受互补学习系统理论启发的语言模型持久记忆系统,通过 MEMIT 权重编辑实现清醒期即时记忆,经 LoRA 训练在睡眠周期中完成知识巩固。

Sleeping LLM 实现了一种"清醒-睡眠"双阶段记忆架构。清醒期通过 MEMIT 将对话事实直接注入模型 MLP 层权重,无需检索或外部数据库,充当短期记忆;睡眠期执行 8 步维护与巩固管线,包括审计退化编辑、零空间约束修复、LoRA 训练与融合,将知识从 MEMIT 逐步转移至 LoRA 长期记忆。每个事实通过逐事实门控独立追踪巩固阶段(0–3),MEMIT 缩放按 [1.0, 0.5, 0.1, 0.0] 递减直至完全溶解以释放容量。

系统支持 Apple Silicon(MLX)与 NVIDIA GPU(PyTorch+PEFT)双后端,基于 Llama-3.2-3B/3.1-8B/3.1-70B 验证,可在 MacBook Air M3 8GB 上运行 3B 模型处理 15 个事实,睡眠周期约 5 分钟。

实验结果

  • 5–20 个事实 LoRA 巩固推进率均达 100%,Chat recall 在 2–3 个睡眠周期内达 1.00
  • 30 个事实在 4 个睡眠周期内从 40% 召回恢复至 100%
  • 8B 模型清醒容量存在约 13 编辑的相变阈值(13 编辑→0.92 召回,14 编辑→0.57 召回)
  • RLHF 对齐会抑制 LoRA 知识注入(3B: 47%, 8B: 37%, 70B: 0%)

交互命令/sleep 触发完整睡眠周期,/nap 快速审计最近事实,/status 显示状态,/compact 压缩上下文窗口。

已知限制:当前验证仅限于 person-city 合成三元组,未覆盖真实对话场景;未与 RAG 方法进行对比;70B 模型在约 30 事实/会话时 2×H100 可能 OOM;5 篇论文均为 Zenodo 预印本,未见正式会议/期刊录用记录。

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch