开源的 AI 可观测性与评估平台,提供基于 OpenTelemetry 的分布式追踪、LLM-as-a-Judge 评估、数据集版本管理与提示词优化功能,适用于 RAG 与 Agent 应用的调试与监控。
项目概述#
Phoenix 是由 Arize AI 公司开发的开源 AI 可观测性与评估平台,基于 OpenTelemetry 构建,遵循 OpenInference 规范。当前版本 v13.3.0,采用 Elastic License 2.0 (ELv2) 许可证。
核心功能模块#
| 功能 | 描述 |
|---|---|
| Tracing | 基于 OTLP 协议的分布式追踪,捕获模型调用、检索、工具使用和自定义逻辑 |
| Evaluation | LLM-as-a-Judge 自动化评估,支持 RAG relevance、answer relevance 等指标 |
| Datasets | 版本化示例数据集管理,用于实验、评估和微调 |
| Experiments | 跟踪提示词、LLM 和检索组件的变更效果 |
| Playground | 交互式环境优化提示词、比较模型、重放追踪 |
| Prompt Management | 提示词版本控制、标签管理与实验集成 |
应用场景#
- LLM 应用调试:查看完整执行流程,定位问题根因
- RAG 系统优化:评估检索相关性与答案质量
- Agent 行为分析:追踪工具调用与多步骤推理过程
- 生产监控:持续追踪 AI 应用性能,识别回归问题
安装方式#
pip install arize-phoenix
# 或
conda install -c conda-forge arize-phoenix
轻量级客户端:arize-phoenix-otel、arize-phoenix-client、arize-phoenix-evals
部署选项#
- 本地机器 / Jupyter Notebook
- Docker 容器 / Docker Compose
- Kubernetes (Helm Chart / Kustomize)
- Phoenix Cloud 托管服务
架构要点#
- 追踪层:OpenTelemetry + OpenInference 语义规范
- 存储层:PostgreSQL (推荐 v16)
- 服务层:Python 后端,OpenAPI REST 接口
- 前端层:TypeScript Web UI
- 安全机制:RBAC、API Keys、数据保留策略
框架集成#
原生支持 OpenAI、LangChain、LlamaIndex、DSPy、CrewAI、Anthropic、AWS Bedrock、MistralAI、Google GenAI 等主流框架的 instrumentation 包。