NVIDIA 官方开源的上下文感知 RAG 库,支持从视频/文本自动构建知识图谱与向量索引,提供多种检索策略(VectorRAG、GraphRAG、FRAG、COT、Planner 等),适用于视频理解、安全监控与 Agent 集成场景。
NVIDIA Context Aware RAG(CA-RAG)是一个面向知识图谱摄取与检索的上下文感知 RAG 库,可将 VLM 生成的视频 caption 同时写入向量库和图数据库,形成双通道知识底座。
核心能力
CA-RAG 提供完整的数据摄取与检索流水线。摄取端支持并行异步处理、Batcher 批次机制(固定大小 + 去重)、多流并发(stream_id 隔离)。检索端提供 OpenAI 兼容的 /chat/completions 接口和按时间范围的 /summary 摘要端点,支持 json_mode 与 function_calling 结构化输出。
六种检索策略
- VectorRAG:基于 VLM caption embedding 的向量相似度检索 + reranking + LLM 生成
- GraphRAG:从 caption 抽取实体关系存入图数据库,通过图谱查询检索上下文
- Foundation-RAG (FRAG):集成 NVIDIA RAG blueprint 的高级向量检索
- Chain-of-Thought (COT):在 GraphRAG 基础上增加多步图谱链式推理
- VLM Retrieval:集成视觉语言模型的多模态检索
- Planner:多步查询规划 + 工具集成(chunk_search / chunk_filter / entity_search / chunk_reader)
架构设计
系统分为数据摄取服务(port 8001)和数据检索服务(port 8000),通过共享数据库和 UUID 关联,可独立扩展。核心组件 Context Manager 作为中央协调器,编排 Functions(处理逻辑)和 Tools(外部服务交互)的异步流程。数据库后端可插拔,支持 Milvus、Elasticsearch、Neo4j、ArangoDB。Web 框架采用 FastAPI + Uvicorn,LLM 集成基于 LangChain 与 langchain-nvidia-ai-endpoints,Agent 框架使用 LangGraph 与 FastMCP。
可观测性与告警
集成 OpenTelemetry 与 OpenInference,兼容 Phoenix、Prometheus 等监控工具。告警系统支持用自然语言定义规则,LLM 逐条分析文档后触发通知(EchoNotificationTool、AlertSSETool)。
Agent 集成
提供 5 个 MCP 工具(query / find_event / find_object / find_event_formatted / summary_retriever),使 Cursor 等 AI Agent 可通过 Model Context Protocol 直接调用 CA-RAG 能力。
部署方式
支持从源码安装(uv 包管理器,Python >= 3.12)和 Docker Compose 全栈部署(含 Neo4j、Milvus、OTel Collector、Phoenix、Prometheus)。仓库包含 helm/ 目录,支持 Kubernetes Helm 部署。PyPI 包名为 vss_ctx_rag,可选插件包括 ArangoDB 支持和 NAT 支持。