面向 SRE/DevOps 团队的只读基础设施诊断 AI Agent 平台,通过多 Agent 协同实现 K8s、网络与系统级故障的自动化根因分析。
项目定位#
Siclaw 解决 SRE 与 DevOps 团队在处理 Kubernetes、网络及操作系统级故障时排障高度依赖个人经验、流程难以标准化的问题,提供自动化、安全且可审计的诊断手段。专注于"只读调查"与"根因分析",不直接对生产环境发起变更操作。
核心能力#
Deep Investigation 诊断引擎#
4 阶段工作流:收集证据 → 形成假设 → 并行验证 → 得出根因结论,内置 3 个并行子 Agent 协同工作。
Multi-Agent Workspace#
- k8s-agent:调查 Pod、Deployment、集群事件,作用域为 K8s API / kubectl 工具集 / K8s Playbook
- network-agent:追踪延迟、丢包、DNS 和路由问题
- system-agent:检查 CPU、内存、磁盘和内核级故障
安全与合规#
默认只读访问所有目标,受控执行通过 Credential 管理实现,确保生产安全。
知识沉淀与持续学习#
- Skill System:可复用的诊断脚本/Playbook,需审查后生效
- Knowledge Library:每个 Agent 拥有独立的版本化知识 Wiki
- Investigation Memory:每次调查结果进入记忆库(SQLite + FTS5 + bge-m3 embeddings),持续学习优化后续调查
交互与自动化#
- 多通道访问:终端 TUI、Web UI(Portal)、Slack / Discord / Telegram / Lark
- Cron Patrols:支持自然语言描述定时健康检查,如 "Check GPU every 6h"
MCP 扩展#
通过 Model Context Protocol 连接外部工具和数据源:Prometheus、Grafana、Elasticsearch、Loki、PagerDuty、Alertmanager、GitHub、GitLab 等。
架构设计#
整体分层#
- Control Plane:Portal + Gateway + 共享 DB,存储 Agent 配置及绑定资源
- AgentBox:会话级隔离,K8s 中每用户一个 Pod,本地每用户一个进程,运行 Deep Investigation Engine
数据层#
- Portal 数据库:生产环境 MySQL,本地模式 node:sqlite,单套 DDL 通过 DATABASE_URL scheme 切换驱动
- Memory 数据库:node:sqlite + FTS5 全文检索 + bge-m3 向量嵌入
前端与通信#
React + Vite + Tailwind CSS 构建界面,WebSocket (ws) 实现实时通信。
容器化部署#
Helm Chart 包含 3 个容器镜像:runtime / portal / agentbox。
运行环境#
- Node.js ≥ 22.12.0(ESM-only)、TypeScript 5.9
- 底层依赖:pi-coding-agent(Agent 框架)、@kubernetes/client-node(K8s 客户端)、@modelcontextprotocol/sdk(MCP 集成)
部署模式#
TUI 模式(个人本地):npm install -g siclaw && siclaw
Local Server(推荐日常):siclaw local 启动轻量 Web UI(SQLite 后端),访问 http://localhost:3000
Kubernetes(团队/企业级):通过 Helm Chart 部署,支持 MySQL 后端
配置要点#
- LLM Provider:支持任何 OpenAI 兼容端点(OpenAI、DeepSeek、Qwen、Kimi、Ollama 等)
- K8s 凭证:Web UI Clusters 页面导入 kubeconfig
- SSH 主机/凭证:Web UI Hosts 页面管理
- 数据存储:
.siclaw/data/portal.db、.siclaw/local-secrets.json、.siclaw/traces/
待确认事项#
- scitix 组织背景未在 README 中明确
- pi-coding-agent 框架仓库链接和能力边界未公开
- bge-m3 embeddings 具体实现和推理方式未详细说明
- 当前 v0.1.4,长期维护计划和路线图未公开