面向自然科学领域的终端 AI Agent 基准评测数据集,基于真实科研工作流构建,覆盖生命科学、物理科学、地球科学与数学计算四大领域。
项目概述#
Terminal-Bench-Science(TB-Science)是 Terminal-Bench 系列的自然科学领域扩展,由 Stanford University 与 Laude Institute 联合开发,项目负责人为 Steven Dillmann。项目将领先研究实验室的真实科学计算工作流转化为容器化基准任务,通过确定性程序化验证与可选的 Agent Judge 机制评估 AI Agent 在终端环境中执行端到端科研任务的能力。
评测设计#
- 真实工作流转化:来自领先研究实验室的真实科学计算工作流,经容器化改造为可执行基准任务
- 确定性程序化验证:通过
test.sh+ pytest 实现可复现的二值(0/1)奖励信号,输出至/logs/verifier/reward.txt,生成 CTRF 格式测试报告 - Agent Judge + Rubric 评分:可选的 LLM 驱动评审机制,弥补纯程序化验证在开放性任务上的不足
- 无需 Oracle 解法:支持不依赖参考解法的评测模式
任务特征#
- 长周期级联错误:任务链路长,前序错误会在后续步骤级联放大
- 丰富环境:包含真实研究代码库与仪器数据,非简化玩具环境
- 专家级科学知识:要求 Agent 具备领域专业知识才能正确执行
- 跨学科覆盖:生命科学(生物学、医学、神经科学)、物理科学(天文学、化学与材料、物理学)、地球科学(大气科学、地质科学、海洋科学)、数学与计算科学(应用数学、科学计算、数据科学与统计学)
- 高难度设计:目标发布时前沿模型仅能完成 10–20% 的任务
质量保障机制#
- 防数据污染:任务文件自动添加 Canary Strings
- 自动化 PR 评审:提交后自动运行任务概览、静态检查、29 项标准的 LLM 评审
- PR 命令系统:支持
/overview、/review、/validate、/run、/cheat等命令
架构与实现#
评测引擎基于 Harbor 框架(Python 90.6%),TB-Science 本身作为任务数据集与规范定义存在。每个任务在独立 Docker 容器中运行,通过 task.toml 声明式配置资源需求(CPU、内存、GPU、存储、网络访问权限)。
任务目录结构#
tasks/<domain>/<field>/<task-name>/
├── instruction.md # Agent 任务指令
├── task.toml # 配置与元数据
├── environment/
│ ├── Dockerfile # 容器环境定义
│ └── data/ # 可选:数据文件
├── solution/
│ └── solve.sh # 参考解法(Oracle)
└── tests/
└── test.sh # 测试脚本
task.toml 核心配置段#
| 配置段 | 说明 |
|---|---|
[metadata] | 作者信息、难度说明、领域/字段/子字段标签、专家估计时间 |
[verifier] | 验证超时(默认 120s) |
[agent] | Agent 运行超时(默认 1800s,困难任务可达数小时) |
[environment] | Docker 构建超时、CPU/内存/存储/GPU 资源限制、网络访问权限 |
任务创建与准入流程#
harbor tasks init → 编辑文件 → harbor check(LLM 质量评审)
→ harbor run -a oracle(可解性验证)→ harbor run -a nop(空 Agent 基线)
→ PR 提交 → 自动评审(29 项标准)+ 人工评审 → 合并
实验性功能#
- GPU 资源容器:支持 ML 训练/推理与仿真任务(具体可用 GPU 类型待确认)
- 多容器任务:跨容器协作的评测场景(支持程度待确认)
安装与快速开始#
前置依赖:Docker(docker ps 可正常运行)
# 安装 Harbor 评测框架
uv tool install harbor
# 配置 API 密钥
export ANTHROPIC_API_KEY=<your_anthropic_key>
export OPENAI_API_KEY=<your_openai_key>
export GEMINI_API_KEY=<your_gemini_key>
# 验证任务可解性
harbor run -p tasks/<task-domain>/<task-field>/<task-name> -a oracle
# 运行 AI Agent 评测
harbor run -p tasks/<task-domain>/<task-field>/<task-name> -a <agent> -m <provider/model>
质量检查#
# LLM 驱动的质量检查
harbor check -r rubrics/task-implementation.toml -m anthropic/claude-opus-4-6 tasks/<domain>/<field>/<task-name>
# 本地静态检查
for check in ci_checks/check-*.sh; do bash "$check" tasks/<domain>/<field>/<task-name>; done
当前进度与规划#
- 已合并 2 个任务(Neuroscience 1 个、Chemistry & Materials 1 个),目标 100+
- Q1 2026 启动,计划 Q3 2026 公开发布并同步上线 Leaderboard
- 论文计划 Q3 2026 投稿顶级自然科学期刊或顶级 ML 会议(尚未发表)
- Terminal-Bench 系列已出现在 Claude Opus 4.6、GPT-5.3-Codex、Gemini 3.1 Pro 的模型卡片中
- 主要语言构成:Python (56.6%), Shell (25.1%), Rust (10.1%), Julia (5.4%), Dockerfile (2.8%)
待确认信息#
- 论文具体投稿期刊/会议未定
- 已合并任务的具体名称与描述需查看
tasks/目录确认 - GPU 任务的可用 GPU 类型与配额机制未明确
- 多容器任务的具体编排方式与网络拓扑未明确
- Harbor 框架的完整 Agent 支持列表需进一步查阅文档