基于离策略强化学习(OAPL)训练知识智能体的开源框架,源自 Databricks KARL 论文,使模型学会多步搜索与推理策略。
KONASH(Knowledge-grounded Off-policy Networks for Agentic System Harnesses)是 Databricks 2026 年 KARL 论文架构的开源实现,通过离策略强化学习训练知识智能体,使其学会如何搜索、检索和推理,而非仅记忆事实。
框架提供从语料索引构建到模型训练的完整流水线:Agentic QA Synthesis 通过多轮智能体循环探索语料库生成有依据的问答对;OAPL Training 在成功搜索轨迹上以平方优势损失训练模型;推理阶段通过 Value-Guided Search 进行并行 BFS 树搜索,结合 N=10–20 的 Parallel Rollouts 聚合提升准确性。
支持的数据集包括 FinanceBench、QAMPARI、BrowseComp-Plus、FreshStack 及任意本地文档文件夹(覆盖 .txt、.md、.csv、.json、.html、.py 等十余种格式)。为内置数据集预置 Qwen3-Embedding 索引。训练基于 Unsloth + PEFT/LoRA 实现参数高效微调,推荐模型为 GLM 4.5 Air 和 MiniMax M2.5,部署侧集成 vLLM 支持 LoRA 热切换。
在 FinanceBench(SEC 财报)基准上,基线 GLM 4.5 Air 单次 rollout 准确率 69%,经 RL 训练后达 76%。宣称单次迭代训练成本约 $100。通过 Shadeform 实现 GPU 云端自动调度,CLI 一键完成训练全流程,同时提供 Python API 和内置 Arena UI 评测界面。