Inspect (Inspect AI)

英国 AI 安全研究所开源的大语言模型评估框架，采用模块化 Datasets/Solvers/Scorers 三层架构，支持多模型、多工具、沙箱环境的标准化评测，包含 100+ 预构建评估基准。

项目概述#

Inspect 是由英国 AI 安全研究所（UK AISI）开发的大语言模型评估框架，旨在提供统一、可扩展的评估标准与工具链。项目采用 MIT 开源许可证，代码托管于英国政府官方 GitHub 组织。

采用 Task 为中心的模块化设计：Dataset (输入) -> Solver (处理/推理) -> Scorer (评分) -> Result

三层核心组件：

Tool Calling：Custom Tools、MCP Tools、Bash、Python、Web Search/Browsing、Computer Tools
Agent 评估：内置 ReAct Agent、Multi-Agent、外部 Agent（Claude Code、Codex CLI、Gemini CLI）
沙箱执行：Docker、Kubernetes、Modal、Proxmox
Tool Approval：细粒度工具调用审批策略

类型	提供商
商业 API	OpenAI、Anthropic、Google、Grok、Mistral、AWS Bedrock、Azure AI、TogetherAI、Groq
本地/开源	vLLM、Ollama、llama-cpp-python、HuggingFace

pip install inspect-ai
export OPENAI_API_KEY=your-key
inspect eval examples/task.py --model openai/gpt-4o

支持通过 Python 包扩展：Elicitation/Scoring 技术、Model APIs、Tool Execution Environments、Storage Platforms