面向 Claude Code / OpenCode / OpenAI Codex 的自主迭代改进引擎,通过"修改→验证→保留/丢弃"原子循环驱动代码库持续优化。
Claude Autoresearch 是一套基于 Markdown 协议的 Skill/Plugin 定义(约 5,000+ 行),灵感来自 Andrej Karpathy 的 autoresearch 方法论。它将"改进代码库"抽象为严格的科学实验流程:定义量化目标与验证命令后,Agent 每次仅执行一个原子变更,用机械性指标验证效果,失败自动 revert,成功则保留并继续。
核心自主循环#
- Modify → Verify → Keep/Discard 原子循环:每次仅做单一变更,Git 记录实验,失败自动 revert,永不停止或运行 N 次后汇总
- 噪声处理机制:多次运行取中位数、最小 delta 阈值过滤、确认运行
- 崩溃恢复:自动修复最多 3 次,失败后跳过继续
- 卡住检测与升级:连续 5 次丢弃后触发——重新阅读全部文件、组合之前成功变更、尝试反向/激进方案
10 个子命令体系#
| 命令 | 功能 | 关键方法 |
|---|---|---|
/autoresearch | 核心自主改进循环 | 目标→修改→验证→保留/丢弃 |
/autoresearch:plan | 交互式配置向导 | 自然语言 → Scope / Metric / Verify 配置 |
/autoresearch:debug | 自主 Bug 狩猎 | 科学方法 + 7 种调查技术 |
/autoresearch:fix | 自主错误修复 | 逐个修复直到零错误 |
/autoresearch:security | 自主安全审计 | STRIDE + OWASP + 红队对抗 |
/autoresearch:ship | 通用发布工作流 | 支持 9 种交付类型 |
/autoresearch:scenario | 场景驱动用例生成 | 12 个维度、5 个领域 |
/autoresearch:predict | 多人设预测分析 | 5 位专家独立分析后辩论收敛 |
/autoresearch:learn | 自主文档引擎 | 扫描代码库、生成/更新/验证文档 |
/autoresearch:reason | 对抗性精炼 | 盲评小组多 Agent 辩论收敛主观内容 |
安全与编排能力#
- Guard 命令:可选安全网,确保变更不破坏已有测试
- 命令链式调用:子命令可串联组合(如
predict → debug → fix → ship) - MCP Server 集成:循环中可调用任何已配置的 MCP Server(数据库、分析平台、外部 API 等)
核心配置参数#
| 配置项 | 说明 |
|---|---|
Goal | 自然语言改进目标 |
Scope | glob 模式限定可修改文件 |
Metric | 机械性量化指标(必须输出数字) |
Verify | 验证 shell 命令(输出可提取数值) |
Direction | 优化方向(higher/lower is better) |
Guard | 可选安全命令,必须始终通过 |
Iterations: N | 有界模式运行次数限制 |
安装方式#
Claude Code(Plugin 方式):
/plugin marketplace add uditgoenka/autoresearch
/plugin install autoresearch@autoresearch
OpenCode / OpenAI Codex: 通过 ./scripts/install.sh --opencode|--codex --global 安装。
本质形态#
非可执行代码,而是一套 Markdown 协议/Skill 定义,通过宿主 Agent 的原生工具链(Read、Edit、Write、Bash、Git)驱动实际文件操作。核心循环协议为 8 阶段:Plan → Loop → Debug → Fix → Secure → Ship。遵循 7 大通用原则:约束即赋能、策略≠战术、机械指标、快速验证、迭代成本决定行为、Git 即记忆、坦诚局限。结果以 Git 提交(experiment: 前缀)和 TSV 日志形式记录。
待确认信息#
- Claude Code Plugin Marketplace 具体最低版本要求未在 README 中明确标注
- 未见独立学术论文发表(Karpathy 原版有 arXiv:2603.07300,本项目为衍生作品)
- 各子命令在 OpenCode / Codex 平台的完整兼容性未经验证