开源的 AI 监控与治理引擎,提供 LLM 幻觉检测、PII 识别、提示注入防御及传统 ML 模型评估功能,支持实时防护栏与 OpenInference 规范。
项目概述#
Arthur Engine 由 Arthur AI 公司开发,是一个用于监控和管理 AI/ML 工作负载的完整服务框架。它支持传统机器学习和生成式 AI 应用的评估、基准测试和实时防护。
核心能力#
GenAI 评估#
- 幻觉检测:基于 Claim 的 LLM Judge 技术
- 响应质量:测量相关性、Token 计数、延迟
安全与合规#
- 提示注入检测:Deberta-v3-base-prompt-injection-v2
- 有毒性检测:RoBERTa toxicity classifier
- 敏感数据识别:Few-shot 优化的 LLM Judge
- PII 识别:基于 Presidio 的命名实体识别
ML 评估#
- 模型监控:漂移、准确率、精确率、召回率、F1、AUC
- 分析工具:模型比较、特征重要性分析、优化区域识别
实时防护栏#
- 可配置的实时检测指标
- 插件式扩展支持自定义模型(包括 HuggingFace)
部署方式#
Docker Compose 快速部署#
git clone https://github.com/arthur-ai/arthur-engine.git
cd arthur-engine/deployment/docker-compose/genai-engine
cp .env.template .env
docker compose up
# 访问 http://localhost:3030/docs
开发环境设置#
pip install poetry
cd genai-engine
poetry shell && poetry env use 3.12
poetry install
docker compose up # 启动 Postgres
poetry run serve
前置要求:Docker Desktop、OpenAI 兼容的 GPT 模型访问权限
API 使用#
POST /api/v2/task:创建新的 LLM 应用任务POST /api/v2/tasks/{task_id}/rules:配置评估规则- Task Based Validation 端点:提交 LLM 提示和响应进行评估
认证:使用 GENAI_ENGINE_ADMIN_KEY 通过 /docs 页面的 Authorize 按钮配置
生态集成#
完全支持 OpenInference 规范,可连接:LangChain、LangGraph、LlamaIndex、Vercel AI SDK、FastAPI/Flask 应用、OpenAI、Anthropic、Google 等模型提供商。
项目架构#
arthur-engine/
├── genai-engine/ # GenAI 引擎核心
├── ml-engine/ # 机器学习引擎
├── deployment/ # Docker Compose / CloudFormation / Helm
└── docs/ # 文档
技术栈:Python (55.4%) / TypeScript (43.6%)、FastAPI/Uvicorn、PostgreSQL + Alembic、Poetry、Docker