OpenGuardrails

面向企业级 AI 应用的全栈安全护栏平台，统一覆盖 LLM 内容安全与自主 Agent 执行安全。

OpenGuardrails 是一个面向企业级 AI 应用的全栈安全护栏平台，同时覆盖大语言模型（LLM）的内容安全与自主 AI Agent 的执行安全。平台基于单一 14B LLM（GPTQ 量化至 3.3B）构建统一检测架构，在三大风险维度提供防护：内容安全（有害/显式文本检测）、操纵防御（Prompt 注入、越狱攻击、代码解释器滥用）、数据泄露（敏感/隐私信息外泄）。

核心技术亮点包括：可配置策略适配（per-request 动态调整不安全类别与敏感度阈值，通过概率化 logit-space 控制实现精度-召回权衡）、统一 LLM 护栏架构（单模型同时执行内容安全与操纵检测，优于独立模型部署）、量化可扩展模型设计（14B 量化至 3.3B 保留 98%+ 准确率）。

生产级能力涵盖：119 种语言支持且跨语言基准 SOTA、P95 延迟 274.6ms 的高并发部署、文本与图像多模态检测、基于完整对话上下文的风险判断、用户粒度封禁策略，以及 OpenAI 兼容 API 实现一行代码接入。

在 Agent 安全领域，项目提供 TrustedExecBench 评估框架，覆盖邮件/日历/文件管理、金融交易、家居安防、本地系统自动化等场景，评估自主 Agent 是否存在越权越界行为。生态层面提供 Python/Go/Java/Node.js 多语言 SDK，以及 Dify 插件、n8n 节点、LiteLLM 代理集成等工作流组件，并包含基于 EDR 遥测的 AI Agent 资产发现工具。

关键基准数据：English Prompt F1 87.1%（+2.8% vs 次优）、English Response F1 88.5%（+8.0% vs 次优）、Multilingual Prompt F1 97.3%（+12.3% vs 次优）、Multilingual Response F1 97.2%（+19.1% vs 次优）。

相关项目

Debug Helper

MindsDB

podman-mcp-server

保持更新