构建语义层与上下文图的决策智能框架,支持可解释性与血缘追踪。
项目简介#
Semantica 是一个开源的语义层与上下文图框架,旨在解决 AI 系统中的"语义鸿沟"与"黑盒"问题。它提供从非结构化数据(PDF/DOCX/HTML/JSON/CSV/Excel/PPTX)到结构化知识图谱的完整链路,集成了 NER、关系抽取、本体生成与向量检索。
核心能力#
语义与知识#
- Context Graphs — 结构化知识表示,包含实体关系与语义上下文
- Decision Tracking — 完整决策生命周期管理,支持先例搜索与因果分析
- KG Algorithms — 内置中心性分析、社区检测、Node2Vec/DeepWalk 节点嵌入
- Provenance Tracking — 基于 W3C PROV-O 规范的数据血缘追踪,跨 17 个模块集成
数据处理#
- Universal Ingestion — 支持 PDF, DOCX, HTML, JSON, CSV, Excel, PPTX 及数据库流数据
- Entity/Relation Extraction — NER、关系抽取、事件检测,支持 LLM 增强
- Ontology Generation — 6 阶段 LLM 流水线自动生成 OWL 本体,支持 HermiT/Pellet 验证
- Custom Ontology Import — 支持 OWL, RDF, Turtle, JSON-LD 格式导入
治理与质量#
- Conflict Detection — 语义冲突检测与解决机制
- Deduplication — 基于 Jaro-Winkler 相似度的实体去重
- Change Management — 企业级版本控制,SHA-256 完整性验证
AI 增强#
- GraphRAG — 知识图谱增强的检索生成,支持多跳推理与语义重排序
- Unified LLM Interface — 支持 Groq, OpenAI, HuggingFace, LiteLLM(100+ LLMs)
架构设计#
采用三层架构:
- Input Layer — 受控数据摄取,支持 Docling、OCR、APIs
- Semantic Layer — 信任与推理引擎,执行 NER、关系抽取、本体归纳、去重、冲突检测
- Output Layer — 可审计知识资产,输出 Knowledge Graphs、OWL Ontologies、Vector Embeddings
存储后端支持#
- Vector Store: FAISS, PostgreSQL/pgvector, Weaviate, Qdrant, Milvus, Pinecone, InMemory
- Graph Store: Neo4j, FalkorDB, Amazon Neptune, Apache AGE
- Triplet Store: Blazegraph, Jena, RDF4J
安装方式#
# PyPI 安装(推荐)
pip install semantica
# 安装所有可选依赖
pip install semantica[all]
# 源码开发安装
git clone https://github.com/Hawksight-AI/semantica.git
cd semantica
pip install -e ".[all]"
快速上手#
from semantica.context import AgentContext, ContextGraph
from semantica.vector_store import VectorStore
# 初始化
vs = VectorStore(backend="faiss", dimension=768)
kg = ContextGraph(advanced_analytics=True)
context = AgentContext(
vector_store=vs,
knowledge_graph=kg,
decision_tracking=True,
advanced_analytics=True,
kg_algorithms=True,
)
# 存储记忆并自动构建上下文图
memory_id = context.store(
"User is working on a React project with FastAPI",
conversation_id="session_1"
)
# 记录决策
decision_id = context.graph_builder.add_decision(
category="technology_choice",
scenario="Framework selection for web API",
reasoning="React ecosystem with FastAPI provides best performance",
outcome="selected_fastapi",
confidence=0.92
)
典型应用场景#
- 🏥 医疗健康:临床决策支持、药物相互作用分析、医学文献推理
- 💰 金融风控:欺诈检测、监管合规(SOX, GDPR, MiFID II)、信用风险评估
- ⚖️ 法律合规:证据支持的法律研究、合同分析、法规变更追踪
- 🔒 网络安全:威胁归因、事件响应、安全审计追踪
- 🏛️ 政府与国防:治理 AI 系统、政策决策、国防情报
- 🚗 自动驾驶系统:无人车决策日志、机器人安全
设计原则#
- Opt-In 设计 — Provenance 默认关闭,零破坏性变更
- 模块化架构 — 可独立使用各模块,易于组件替换
- 生产就绪 — 完整的错误处理、可扩展性设计