发现 AI 代理的未来arrow_forward

Inspect (Inspect AI)

calendar_today收录于 2026年2月25日
category智能体与应用工具
code开源
Python大语言模型AI代理SDKCLI智能体与应用工具模型与推理框架模型训练/推理安全/隐私

英国 AI 安全研究所开源的大语言模型评估框架,采用模块化 Datasets/Solvers/Scorers 三层架构,支持多模型、多工具、沙箱环境的标准化评测,包含 100+ 预构建评估基准。

项目概述#

Inspect 是由英国 AI 安全研究所(UK AISI)开发的大语言模型评估框架,旨在提供统一、可扩展的评估标准与工具链。项目采用 MIT 开源许可证,代码托管于英国政府官方 GitHub 组织。

核心架构#

采用 Task 为中心的模块化设计:Dataset (输入) -> Solver (处理/推理) -> Scorer (评分) -> Result

三层核心组件

  • Datasets:带标签样本,输入为提示词,目标为字面值或评分指南
  • Solvers:可链式组合的执行单元(generate(), chain_of_thought(), self_critique()
  • Scorers:支持 Exact Match、Model Graded 及自定义评分

主要特性#

Agent 与工具支持#

  • Tool Calling:Custom Tools、MCP Tools、Bash、Python、Web Search/Browsing、Computer Tools
  • Agent 评估:内置 ReAct Agent、Multi-Agent、外部 Agent(Claude Code、Codex CLI、Gemini CLI)
  • 沙箱执行:Docker、Kubernetes、Modal、Proxmox
  • Tool Approval:细粒度工具调用审批策略

模型提供商支持#

类型提供商
商业 APIOpenAI、Anthropic、Google、Grok、Mistral、AWS Bedrock、Azure AI、TogetherAI、Groq
本地/开源vLLM、Ollama、llama-cpp-python、HuggingFace

预构建评估库(100+)#

  • Safeguards:AgentHarm、StrongREJECT、WMDP
  • Coding:HumanEval、SWE-bench、BigCodeBench
  • Knowledge:MMLU、GPQA、TruthfulQA
  • Mathematics:AIME、GSM8K、MATH
  • Reasoning:ARC、BBH、DROP
  • Assistants:GAIA、OSWorld、Mind2Web

开发者工具#

  • CLIinspect evalinspect view
  • Inspect View:Web 端评估监控与可视化
  • VS Code Extension:评估编写、调试与可视化

安装与使用#

pip install inspect-ai
export OPENAI_API_KEY=your-key
inspect eval examples/task.py --model openai/gpt-4o

技术规格#

属性
开发者UK AI Security Institute
许可证MIT License
主要语言Python (81%)、TypeScript (17.3%)
Python 版本>= 3.10
首次发布2024-05

扩展机制#

支持通过 Python 包扩展:Elicitation/Scoring 技术、Model APIs、Tool Execution Environments、Storage Platforms

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch