发现 AI 代理的未来arrow_forward

Rhesis

calendar_today收录于 2026年2月25日
category智能体与应用工具
code开源
PythonDocker大语言模型FastAPIRAGAI代理Web应用SDKCLI智能体与应用工具模型与推理框架开发者工具/代码知识管理/检索/RAG安全/隐私

开源 LLM 与智能体应用测试平台,支持 AI 驱动的测试生成、对抗性红队测试及 60+ 评估指标,适用于 RAG 幻觉检测与对话一致性验证。

项目概述#

Rhesis 是由 Rhesis AI GmbH(德国波茨坦)开发的开源 LLM 与智能体应用测试平台,旨在解决大语言模型应用和 Agentic 系统在开发与部署中的行为不确定性、安全漏洞(如提示注入、PII 泄露)以及缺乏系统性测试手段的痛点。

核心能力#

测试生成(Test Generation)#

  • AI-Powered Synthesis:基于自然语言描述的需求自动生成数百个测试场景,覆盖边缘情况和对抗性提示
  • Knowledge-Aware:通过文件上传或 MCP 连接上下文源(Notion、GitHub、Jira、Confluence)优化测试生成
  • 支持单轮测试与复杂对话流模拟

对抗性测试(Red-Teaming)#

Polyphemus Agent 主动发现安全漏洞:

  • 越狱尝试和提示注入检测
  • PII 泄露和数据提取测试
  • 有害内容生成检测
  • 角色违规和指令绕过测试
  • 内置 Garak LLM 漏洞扫描器集成

对话模拟#

Penelope Agent 模拟真实用户对话,测试:

  • 上下文保持能力
  • 角色一致性
  • 对话连贯性

评估指标体系(60+ 预置指标)#

  • RAGAS:上下文相关性、忠实度、答案准确性
  • DeepEval:偏见、毒性、PII 泄露、角色违规、轮次相关性、知识保持
  • Garak:越狱检测、提示注入、XSS、恶意软件生成、数据泄露
  • 自定义:NumericJudge、CategoricalJudge 用于领域特定评估
  • 所有指标包含 LLM-as-Judge 推理解释

可观测性与追踪#

  • 基于 OpenTelemetry 的追踪系统
  • 监控 LLM 调用、延迟、Token 使用量
  • 将追踪与测试结果关联以进行调试

架构设计#

  • 前端:TypeScript/React 应用(位于 apps/ 目录)
  • 后端:Python 服务(位于 apps/sdk/ 目录)
  • 数据层:支持 Docker 本地部署数据库
  • 基础设施:提供 Terraform 配置,支持 Kubernetes 部署

核心组件#

  1. Polyphemus Agent:对抗性测试智能体
  2. Penelope Agent:对话模拟智能体
  3. Synthesizers:测试场景生成器(如 PromptSynthesizer)
  4. Metrics Framework:评估指标执行引擎
  5. Tracing Module:OpenTelemetry 追踪模块

测试生命周期#

  1. Projects:配置 AI 应用、上传上下文源、设置 SDK 连接器
  2. Requirements:定义期望行为(应做和不应做)
  3. Metrics:选择预置指标或创建自定义评估
  4. Tests:生成单轮和对话模拟测试场景
  5. Execution:通过 UI/SDK/API 运行测试,集成 CI/CD
  6. Collaboration:通过评论、任务、工作流进行团队协作

安装部署#

云平台(最快)#

访问 https://app.rhesis.ai 创建免费账户

Python SDK#

pip install rhesis-sdk

Docker 本地部署(零配置)#

git clone https://github.com/rhesis-ai/rhesis.git
cd rhesis
./rh start

SDK 使用示例#

端点装饰器#

from rhesis.sdk.decorators import endpoint

@endpoint(name="my-chatbot")
def chat(message: str) -> str:
    # Your LLM logic here
    return response

可观测性追踪#

from rhesis.sdk.decorators import observe

@observe.llm(model="gpt-4")
def generate_response(prompt: str) -> str:
    # Your LLM call here
    return response

测试生成器#

from rhesis.sdk.synthesizers import PromptSynthesizer

synthesizer = PromptSynthesizer(
    prompt="Generate tests for a medical chatbot that must never provide diagnosis"
)
test_set = synthesizer.generate(num_tests=10)

适用场景#

  • 对话式 AI:对话模拟、角色一致性和知识保持测试
  • RAG 系统:上下文相关性、忠实度和幻觉检测
  • NL-to-SQL / NL-to-Code:查询准确性、语法验证和边缘情况处理
  • 智能体系统:工具选择、目标达成和多智能体协调

目标用户#

  • 开发工程师:代码优先的 SDK 集成
  • 产品经理:定义需求和期望行为
  • 领域专家:审查测试结果
  • 法务和合规团队:确保符合合规要求

模型与框架集成#

云服务支持:OpenAI, Anthropic, Google Gemini, Mistral, Cohere, Groq, Together AI

本地/自托管:Ollama, vLLM, LiteLLM

框架集成:LangChain, LangGraph, AutoGen, LiteLLM, Google Gemini, Ollama, OpenRouter, Vertex AI, HuggingFace, REST API

项目活跃度#

  • 3,805 commits
  • 86 releases
  • 18+ contributors
  • 主要语言:Python (67.7%), TypeScript (27.6%)
  • MIT License(核心功能)

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch