PaperFarm

AI Agent 驱动的自动化实验框架，指向任意代码仓库自主分析、设计、运行实验并保留有效改进

PaperFarm 将研究实验的全流程抽象为四阶段自动化流水线：Scout 分析代码库并设计评估指标，Prepare 自动解析环境与依赖，Review 在交互式 TUI 中供用户确认方案，Experiment 通过 Manager → Critic → Experiment 循环自主运行并仅保留指标提升的改进。

框架支持 Claude Code、Codex CLI、Aider、OpenCode、Kimi CLI、Gemini CLI 六种 Agent 后端，未指定时自动检测。安全机制方面，每个实验使用独立 Git 提交、失败自动回滚、配备超时看门狗与崩溃计数器（默认连续崩溃 3 次暂停），多 GPU 场景通过 Git worktree 隔离并行 Worker，并持久化失败记忆按恢复成功率排序。

交互层提供基于 Textual 的三标签页 TUI 指挥中心（Execution/Metrics/Logs，含 braille 趋势图与颜色编码事件流），同时支持 Headless 模式输出 JSON Lines 以对接 CI/CD。内置 Demo 可通过 paperfarm demo 无需 Agent 或 API Key 即可体验完整 TUI。

架构上采用 entry-points 插件化设计，覆盖 storage、graph、scheduler、agents、orchestrator、execution、bootstrap、cli、tui 九大扩展点。运行时状态统一存放在 .research/ 目录，支持断点恢复。

适用场景涵盖 ML 超参搜索与架构优化、研究复现（baseline→实验闭环）、非 ML 性能优化（如 Python JSON 解析器吞吐量）、GPU 集群并行实验调度。官方示例覆盖 nanoGPT、Liger-Kernel、HF GLUE、CIFAR-10 Speedrun、YOLO Tiny、Whisper 微调、CartPole RL、Code Perf 等。

环境要求 Python 3.10–3.13，构建系统为 Hatchling，主要语言构成 Python 96.8%、Jinja 2.3%。当前处于 Alpha 阶段（v0.2.0b1，2026-03-09 发布）。

待确认信息：pyproject.toml 中 Homepage/Repository 指向 https://github.com/open-researcher/open-researcher，与实际仓库 https://github.com/shatianming5/PaperFarm 不一致，两者关系待确认；源码中存在 open_researcher_v2 子包并有独立 CLI 入口，README 未说明其与 v1 的差异；PyPI 页面未直接验证可访问性。

相关项目

ufoo

MCPJam Inspector

OpenGuardrails

保持更新