发现 AI 代理的未来arrow_forward

Harbor

calendar_today收录于 2026年4月24日
category智能体与应用工具
code开源
Python工作流自动化DockerPyTorch大语言模型AI代理强化学习CLI智能体与应用工具模型与推理框架教育/研究资源模型训练/推理

面向容器化沙箱环境的 AI 代理与语言模型评估优化框架,支持标准化基准评测、大规模并行执行与 RL 训练数据生成。

核心定位#

Harbor 解决的核心问题是:如何安全、可重复、大规模地对 CLI 型 AI 代理(如 Claude Code、OpenHands、Codex CLI)及底层语言模型进行标准化评测与强化学习优化。Harbor 聚焦于"环境编排 + 代理调度 + 结果收集",本身不包含 LLM 推理或代理逻辑——代理行为由外部 CLI 工具驱动,模型切换通过 --model 参数委托给 litellm 实现。

能力矩阵#

主题特性说明
代理评估标准化 CLI 代理评测预集成 Claude Code、OpenHands、Codex CLI 等,通过 --agent 参数指定
基准注册中心内置数据集浏览与版本管理harbor datasets list 可列出 SWE-Bench、Aider Polyglot、Terminal-Bench-2.0 等
沙箱隔离容器化任务执行环境所有任务在隔离容器中运行,保障安全性与可重复性
大规模并行多云沙箱后端调度支持 Daytona、Modal、E2B、Runloop、ISLO、TensorLake、GKE,千级并发
RL 优化Rollout 数据生成与框架集成可生成 RL 训练轨迹;已集成 SkyRL、GEPA
自定义扩展用户自建基准与环境支持构建、分享自定义评测基准和容器化任务环境
CI/CD 集成持续集成中的代理测试可嵌入 CI 流水线
奖励建模RewardKit 子包packages/rewardkit 提供独立奖励建模能力
可视化前端查看器apps/viewer 提供 Web 端结果查看
技能系统可复用技能定义skills/ + skills-lock.json 管理技能声明与版本锁定

适用场景#

  • 在标准基准(Terminal-Bench-2.0、SWE-Bench、Aider Polyglot 等)上横向对比代理/模型能力
  • 企业内部构建专有任务集进行代理回归测试
  • 批量生成代理执行轨迹用于 RL 训练数据
  • CI/CD 流程中嵌入代理能力自动化测试
  • 利用云沙箱实现百级至千级并发的大规模实验

架构要点#

仓库结构(monorepo 风格):

  • src/harbor/ — 核心框架源码,CLI 入口为 harbor.cli.main:app(基于 Typer)
  • packages/rewardkit/ — 奖励模型子包,独立 Python 包
  • adapters/ — 代理适配器实现层,将不同 CLI 代理统一接入框架
  • apps/viewer/ — 前端可视化查看应用(TypeScript)
  • skills/ + skills-lock.json — 技能定义与锁定文件
  • rfcs/ — 设计文档
  • docs/examples/ — 文档与示例

核心依赖:Typer(CLI)、Rich(终端渲染)、Pydantic(数据校验)、litellm(多 LLM 调用)、HuggingFace datasets(数据获取)、Jinja2(模板渲染)、FastAPI + Uvicorn(服务端)、Supabase(后端存储)。构建系统使用 uv_build + uv 包管理器。

执行流程:用户通过 CLI 指定数据集、代理、模型及并发数 → 框架从注册中心拉取任务定义 → 按并发策略调度沙箱环境(本地 Docker 或云后端) → 在隔离容器中启动代理执行任务 → 收集执行轨迹与结果 → 可选送入 RewardKit 评分或导出为 RL rollout 数据。

安装与快速开始#

环境要求:Python ≥ 3.12

# 安装(任选其一)
uv tool install harbor
pip install harbor

# 云后端可选依赖(按需安装)
harbor[e2b] / harbor[daytona] / harbor[modal] / harbor[runloop] / harbor[gke] / harbor[tensorlake] / harbor[islo]
harbor[cloud]    # 安装全部云后端
harbor[tinker]   # Tinker 生态集成

本地 Docker 运行 Terminal-Bench-2.0

export ANTHROPIC_API_KEY=<YOUR-KEY>
harbor run --dataset terminal-bench@2.0 \
   --agent claude-code \
   --model anthropic/claude-opus-4-1 \
   --n-concurrent 4

云端并行(Daytona,100 并发)

export ANTHROPIC_API_KEY=<YOUR-KEY>
export DAYTONA_API_KEY=<YOUR-KEY>
harbor run --dataset terminal-bench@2.0 \
   --agent claude-code \
   --model anthropic/claude-opus-4-1 \
   --n-concurrent 100 \
   --env daytona

CLI 核心#

  • 入口命令:harbor / hr / hb(三者等价)
  • harbor run --dataset <dataset@version> --agent <agent> --model <model> — 运行评测
  • harbor datasets list — 列出可用基准数据集
  • 关键参数:--dataset(数据集@版本)、--agent(被测代理)、--model(litellm 格式模型)、--n-concurrent(并发数)、--env(沙箱后端)

生态关联#

  • 上游:由 Terminal-Bench 创建者开发,Terminal-Bench-2.0 为默认内置基准
  • 代理集成:Claude Code、OpenHands、Codex CLI
  • 云沙箱:Daytona、Modal、E2B、Runloop、ISLO、TensorLake、GKE
  • RL 框架:SkyRL、GEPA
  • 数据集:SWE-Bench、Aider Polyglot、Terminal-Bench-2.0(通过注册中心浏览)

补充说明#

  • 关联论文:README 提及项目来自 Terminal-Bench 创建者,但 Harbor 本身无正式论文链接,Terminal-Bench 论文与 Harbor 的引用关系待确认。
  • ISLO 与 Tinker 集成的具体功能未在公开材料中详述。
  • 线上注册中心(https://registry.harborframework.com/)正在升级,具体功能与开放程度待确认。
  • 后端 FastAPI 的具体端点文档及 RewardKit 详细 API 有待补充。
  • 当前版本 0.5.0,采用 Apache-2.0 许可证。

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch