NVIDIA Context Aware RAG

NVIDIA 官方开源的上下文感知 RAG 库，支持从视频/文本自动构建知识图谱与向量索引，提供多种检索策略（VectorRAG、GraphRAG、FRAG、COT、Planner 等），适用于视频理解、安全监控与 Agent 集成场景。

NVIDIA Context Aware RAG（CA-RAG）是一个面向知识图谱摄取与检索的上下文感知 RAG 库，可将 VLM 生成的视频 caption 同时写入向量库和图数据库，形成双通道知识底座。

核心能力

CA-RAG 提供完整的数据摄取与检索流水线。摄取端支持并行异步处理、Batcher 批次机制（固定大小 + 去重）、多流并发（stream_id 隔离）。检索端提供 OpenAI 兼容的 /chat/completions 接口和按时间范围的 /summary 摘要端点，支持 json_mode 与 function_calling 结构化输出。

六种检索策略

VectorRAG：基于 VLM caption embedding 的向量相似度检索 + reranking + LLM 生成
GraphRAG：从 caption 抽取实体关系存入图数据库，通过图谱查询检索上下文
Foundation-RAG (FRAG)：集成 NVIDIA RAG blueprint 的高级向量检索
Chain-of-Thought (COT)：在 GraphRAG 基础上增加多步图谱链式推理
VLM Retrieval：集成视觉语言模型的多模态检索
Planner：多步查询规划 + 工具集成（chunk_search / chunk_filter / entity_search / chunk_reader）

架构设计

系统分为数据摄取服务（port 8001）和数据检索服务（port 8000），通过共享数据库和 UUID 关联，可独立扩展。核心组件 Context Manager 作为中央协调器，编排 Functions（处理逻辑）和 Tools（外部服务交互）的异步流程。数据库后端可插拔，支持 Milvus、Elasticsearch、Neo4j、ArangoDB。Web 框架采用 FastAPI + Uvicorn，LLM 集成基于 LangChain 与 langchain-nvidia-ai-endpoints，Agent 框架使用 LangGraph 与 FastMCP。

可观测性与告警

集成 OpenTelemetry 与 OpenInference，兼容 Phoenix、Prometheus 等监控工具。告警系统支持用自然语言定义规则，LLM 逐条分析文档后触发通知（EchoNotificationTool、AlertSSETool）。

Agent 集成

提供 5 个 MCP 工具（query / find_event / find_object / find_event_formatted / summary_retriever），使 Cursor 等 AI Agent 可通过 Model Context Protocol 直接调用 CA-RAG 能力。

部署方式

支持从源码安装（uv 包管理器，Python >= 3.12）和 Docker Compose 全栈部署（含 Neo4j、Milvus、OTel Collector、Phoenix、Prometheus）。仓库包含 helm/ 目录，支持 Kubernetes Helm 部署。PyPI 包名为 vss_ctx_rag，可选插件包括 ArangoDB 支持和 NAT 支持。

NVIDIA Context Aware RAG

相关项目

Project Golem

Golemancy

TEMM1E

保持更新