AI Agent 驱动的自动化实验框架,指向任意代码仓库自主分析、设计、运行实验并保留有效改进
PaperFarm 将研究实验的全流程抽象为四阶段自动化流水线:Scout 分析代码库并设计评估指标,Prepare 自动解析环境与依赖,Review 在交互式 TUI 中供用户确认方案,Experiment 通过 Manager → Critic → Experiment 循环自主运行并仅保留指标提升的改进。
框架支持 Claude Code、Codex CLI、Aider、OpenCode、Kimi CLI、Gemini CLI 六种 Agent 后端,未指定时自动检测。安全机制方面,每个实验使用独立 Git 提交、失败自动回滚、配备超时看门狗与崩溃计数器(默认连续崩溃 3 次暂停),多 GPU 场景通过 Git worktree 隔离并行 Worker,并持久化失败记忆按恢复成功率排序。
交互层提供基于 Textual 的三标签页 TUI 指挥中心(Execution/Metrics/Logs,含 braille 趋势图与颜色编码事件流),同时支持 Headless 模式输出 JSON Lines 以对接 CI/CD。内置 Demo 可通过 paperfarm demo 无需 Agent 或 API Key 即可体验完整 TUI。
架构上采用 entry-points 插件化设计,覆盖 storage、graph、scheduler、agents、orchestrator、execution、bootstrap、cli、tui 九大扩展点。运行时状态统一存放在 .research/ 目录,支持断点恢复。
适用场景涵盖 ML 超参搜索与架构优化、研究复现(baseline→实验闭环)、非 ML 性能优化(如 Python JSON 解析器吞吐量)、GPU 集群并行实验调度。官方示例覆盖 nanoGPT、Liger-Kernel、HF GLUE、CIFAR-10 Speedrun、YOLO Tiny、Whisper 微调、CartPole RL、Code Perf 等。
环境要求 Python 3.10–3.13,构建系统为 Hatchling,主要语言构成 Python 96.8%、Jinja 2.3%。当前处于 Alpha 阶段(v0.2.0b1,2026-03-09 发布)。
待确认信息:pyproject.toml 中 Homepage/Repository 指向 https://github.com/open-researcher/open-researcher,与实际仓库 https://github.com/shatianming5/PaperFarm 不一致,两者关系待确认;源码中存在 open_researcher_v2 子包并有独立 CLI 入口,README 未说明其与 v1 的差异;PyPI 页面未直接验证可访问性。