面向企业级 AI 应用的全栈安全护栏平台,统一覆盖 LLM 内容安全与自主 Agent 执行安全。
OpenGuardrails 是一个面向企业级 AI 应用的全栈安全护栏平台,同时覆盖大语言模型(LLM)的内容安全与自主 AI Agent 的执行安全。平台基于单一 14B LLM(GPTQ 量化至 3.3B)构建统一检测架构,在三大风险维度提供防护:内容安全(有害/显式文本检测)、操纵防御(Prompt 注入、越狱攻击、代码解释器滥用)、数据泄露(敏感/隐私信息外泄)。
核心技术亮点包括:可配置策略适配(per-request 动态调整不安全类别与敏感度阈值,通过概率化 logit-space 控制实现精度-召回权衡)、统一 LLM 护栏架构(单模型同时执行内容安全与操纵检测,优于独立模型部署)、量化可扩展模型设计(14B 量化至 3.3B 保留 98%+ 准确率)。
生产级能力涵盖:119 种语言支持且跨语言基准 SOTA、P95 延迟 274.6ms 的高并发部署、文本与图像多模态检测、基于完整对话上下文的风险判断、用户粒度封禁策略,以及 OpenAI 兼容 API 实现一行代码接入。
在 Agent 安全领域,项目提供 TrustedExecBench 评估框架,覆盖邮件/日历/文件管理、金融交易、家居安防、本地系统自动化等场景,评估自主 Agent 是否存在越权越界行为。生态层面提供 Python/Go/Java/Node.js 多语言 SDK,以及 Dify 插件、n8n 节点、LiteLLM 代理集成等工作流组件,并包含基于 EDR 遥测的 AI Agent 资产发现工具。
关键基准数据:English Prompt F1 87.1%(+2.8% vs 次优)、English Response F1 88.5%(+8.0% vs 次优)、Multilingual Prompt F1 97.3%(+12.3% vs 次优)、Multilingual Response F1 97.2%(+19.1% vs 次优)。