英国 AI 安全研究所开源的大语言模型评估框架,采用模块化 Datasets/Solvers/Scorers 三层架构,支持多模型、多工具、沙箱环境的标准化评测,包含 100+ 预构建评估基准。
项目概述#
Inspect 是由英国 AI 安全研究所(UK AISI)开发的大语言模型评估框架,旨在提供统一、可扩展的评估标准与工具链。项目采用 MIT 开源许可证,代码托管于英国政府官方 GitHub 组织。
核心架构#
采用 Task 为中心的模块化设计:Dataset (输入) -> Solver (处理/推理) -> Scorer (评分) -> Result
三层核心组件:
- Datasets:带标签样本,输入为提示词,目标为字面值或评分指南
- Solvers:可链式组合的执行单元(
generate(),chain_of_thought(),self_critique()) - Scorers:支持 Exact Match、Model Graded 及自定义评分
主要特性#
Agent 与工具支持#
- Tool Calling:Custom Tools、MCP Tools、Bash、Python、Web Search/Browsing、Computer Tools
- Agent 评估:内置 ReAct Agent、Multi-Agent、外部 Agent(Claude Code、Codex CLI、Gemini CLI)
- 沙箱执行:Docker、Kubernetes、Modal、Proxmox
- Tool Approval:细粒度工具调用审批策略
模型提供商支持#
| 类型 | 提供商 |
|---|---|
| 商业 API | OpenAI、Anthropic、Google、Grok、Mistral、AWS Bedrock、Azure AI、TogetherAI、Groq |
| 本地/开源 | vLLM、Ollama、llama-cpp-python、HuggingFace |
预构建评估库(100+)#
- Safeguards:AgentHarm、StrongREJECT、WMDP
- Coding:HumanEval、SWE-bench、BigCodeBench
- Knowledge:MMLU、GPQA、TruthfulQA
- Mathematics:AIME、GSM8K、MATH
- Reasoning:ARC、BBH、DROP
- Assistants:GAIA、OSWorld、Mind2Web
开发者工具#
- CLI:
inspect eval、inspect view - Inspect View:Web 端评估监控与可视化
- VS Code Extension:评估编写、调试与可视化
安装与使用#
pip install inspect-ai
export OPENAI_API_KEY=your-key
inspect eval examples/task.py --model openai/gpt-4o
技术规格#
| 属性 | 值 |
|---|---|
| 开发者 | UK AI Security Institute |
| 许可证 | MIT License |
| 主要语言 | Python (81%)、TypeScript (17.3%) |
| Python 版本 | >= 3.10 |
| 首次发布 | 2024-05 |
扩展机制#
支持通过 Python 包扩展:Elicitation/Scoring 技术、Model APIs、Tool Execution Environments、Storage Platforms