Arthur Engine

开源的 AI 监控与治理引擎，提供 LLM 幻觉检测、PII 识别、提示注入防御及传统 ML 模型评估功能，支持实时防护栏与 OpenInference 规范。

项目概述#

Arthur Engine 由 Arthur AI 公司开发，是一个用于监控和管理 AI/ML 工作负载的完整服务框架。它支持传统机器学习和生成式 AI 应用的评估、基准测试和实时防护。

核心能力#

GenAI 评估#

幻觉检测：基于 Claim 的 LLM Judge 技术
响应质量：测量相关性、Token 计数、延迟

安全与合规#

提示注入检测：Deberta-v3-base-prompt-injection-v2
有毒性检测：RoBERTa toxicity classifier
敏感数据识别：Few-shot 优化的 LLM Judge
PII 识别：基于 Presidio 的命名实体识别

ML 评估#

模型监控：漂移、准确率、精确率、召回率、F1、AUC
分析工具：模型比较、特征重要性分析、优化区域识别

实时防护栏#

可配置的实时检测指标
插件式扩展支持自定义模型（包括 HuggingFace）

部署方式#

Docker Compose 快速部署#

git clone https://github.com/arthur-ai/arthur-engine.git
cd arthur-engine/deployment/docker-compose/genai-engine
cp .env.template .env
docker compose up
# 访问 http://localhost:3030/docs

开发环境设置#

pip install poetry
cd genai-engine
poetry shell && poetry env use 3.12
poetry install
docker compose up  # 启动 Postgres
poetry run serve

前置要求：Docker Desktop、OpenAI 兼容的 GPT 模型访问权限

API 使用#

POST /api/v2/task：创建新的 LLM 应用任务
POST /api/v2/tasks/{task_id}/rules：配置评估规则
Task Based Validation 端点：提交 LLM 提示和响应进行评估

认证：使用 GENAI_ENGINE_ADMIN_KEY 通过 /docs 页面的 Authorize 按钮配置

生态集成#

完全支持 OpenInference 规范，可连接：LangChain、LangGraph、LlamaIndex、Vercel AI SDK、FastAPI/Flask 应用、OpenAI、Anthropic、Google 等模型提供商。

项目架构#

arthur-engine/
├── genai-engine/      # GenAI 引擎核心
├── ml-engine/         # 机器学习引擎
├── deployment/        # Docker Compose / CloudFormation / Helm
└── docs/              # 文档

技术栈：Python (55.4%) / TypeScript (43.6%)、FastAPI/Uvicorn、PostgreSQL + Alembic、Poetry、Docker

项目概述#

核心能力#

GenAI 评估#

安全与合规#

ML 评估#

实时防护栏#

部署方式#

Docker Compose 快速部署#

开发环境设置#

API 使用#

生态集成#

项目架构#

相关资源#

相关项目

oh-my-codex

Ironcurtain

vibe-remote

保持更新