KONASH

基于离策略强化学习（OAPL）训练知识智能体的开源框架，源自 Databricks KARL 论文，使模型学会多步搜索与推理策略。

KONASH（Knowledge-grounded Off-policy Networks for Agentic System Harnesses）是 Databricks 2026 年 KARL 论文架构的开源实现，通过离策略强化学习训练知识智能体，使其学会如何搜索、检索和推理，而非仅记忆事实。

框架提供从语料索引构建到模型训练的完整流水线：Agentic QA Synthesis 通过多轮智能体循环探索语料库生成有依据的问答对；OAPL Training 在成功搜索轨迹上以平方优势损失训练模型；推理阶段通过 Value-Guided Search 进行并行 BFS 树搜索，结合 N=10–20 的 Parallel Rollouts 聚合提升准确性。

支持的数据集包括 FinanceBench、QAMPARI、BrowseComp-Plus、FreshStack 及任意本地文档文件夹（覆盖 .txt、.md、.csv、.json、.html、.py 等十余种格式）。为内置数据集预置 Qwen3-Embedding 索引。训练基于 Unsloth + PEFT/LoRA 实现参数高效微调，推荐模型为 GLM 4.5 Air 和 MiniMax M2.5，部署侧集成 vLLM 支持 LoRA 热切换。

在 FinanceBench（SEC 财报）基准上，基线 GLM 4.5 Air 单次 rollout 准确率 69%，经 RL 训练后达 76%。宣称单次迭代训练成本约 $100。通过 Shadeform 实现 GPU 云端自动调度，CLI 一键完成训练全流程，同时提供 Python API 和内置 Arena UI 评测界面。

相关项目

PowerMem

claude-code-aso-skill

GraphBit

保持更新