Spice

便携式加速 SQL 查询、搜索与 LLM 推理引擎，统一数据联邦与 AI 网关，专为数据驱动的 AI 应用与智能体构建。

核心定位#

Spice.ai 是一个由 Rust 构建的高性能数据与 AI 基础设施引擎。项目以 Apache DataFusion 为核心查询引擎、Apache Arrow 为内存格式，提供统一的 SQL 接口（HTTP / Arrow Flight / Arrow Flight SQL / ODBC / JDBC / ADBC）与 OpenAI 兼容的 LLM 推理 API。其设计理念是不替代底层存储，而是作为轻量级的计算与缓存层（Database CDN / Query Mesh），在数据源与 AI 应用之间提供统一的联邦查询、本地物化加速以及原生推理网关能力。

接口与协议#

SQL 与搜索接口：HTTP、Arrow Flight、Arrow Flight SQL、ODBC、JDBC、ADBC；内置 vector_search 与 text_search UDTF。
OpenAI 兼容 API：HTTP 接口，支持 OpenAI SDK 无缝对接，本地模型推理（CUDA/Metal 加速）与托管模型网关。
Iceberg Catalog REST API：统一的 Iceberg REST Catalog 访问端点。
MCP HTTP+SSE API：通过 Model Context Protocol (MCP) 集成外部工具调用。

数据联邦与查询优化#

支持跨任意数据库、数据仓库、数据湖执行标准 SQL，具备高级查询下推优化能力。通过 Apache Ballista 集成，可从单节点扩展到分布式多节点查询执行。

数据加速与物化#

多引擎支持：Arrow（内存）、DuckDB、SQLite、PostgreSQL、Spice Cayenne（基于 Vortex 列式格式 + SQLite 元数据）。
存储模式：memory（内存）与 file（文件持久化）。
冷启动优化：支持从 S3 引导加速快照实现快速冷启动。
数据同步：基于 Debezium 的 CDC（变更数据捕获），刷新模式支持 full / append / changes。

企业级搜索#

关键词搜索：Tantivy 驱动的 BM25 全文搜索。
向量搜索：PB 级向量相似度搜索，后端支持 Amazon S3 Vectors、pgvector、DuckDB Vector、SQLite Vec。
混合搜索：内置 RRF（Reciprocal Rank Fusion）融合策略。

AI 应用与智能体#

RAG 工作流：内置嵌入生成管道，支持 AWS Bedrock、HuggingFace、Model2Vec（静态嵌入）等。
Text-to-SQL：支持 NSQL 模型。
推理与可观测性：LLM 记忆管理与推理可观测性，构建语义知识层。

模型与嵌入提供方#

LLM 提供方：OpenAI（兼容）、本地文件、HuggingFace、Azure、Amazon Bedrock、Anthropic、xAI。
嵌入提供方：OpenAI、本地文件、HuggingFace、Model2Vec、Azure、Bedrock。
格式支持：ONNX、GGUF、GGML、SafeTensor。

数据连接器（30+）#

Stable：PostgreSQL、MySQL、Databricks/Delta Lake、DuckDB、S3 (Parquet/CSV)、File、GitHub、Dremio、Spice.ai Cloud。
Beta/RC：GraphQL、DynamoDB、Iceberg、Snowflake、Spark、FlightSQL、MSSQL、ODBC。
Alpha：Oracle、ClickHouse、MongoDB、Kafka、Debezium CDC、GCS、Azure BlobFS、FTP/SFTP、IMAP 等。
目录集成：Spice.ai Cloud、Unity Catalog、Databricks、Apache Iceberg、AWS Glue。

架构要点#

核心语言：Rust（Cargo workspace，crates/ 目录下多子 crate）。
查询引擎：Apache DataFusion（SQL 解析、优化、执行）。
数据格式：Apache Arrow（内存列式）、Parquet、CSV。
传输协议：Arrow Flight、Arrow Flight SQL、HTTP、ODBC、JDBC、ADBC。
分布式执行：Apache Ballista。
推理机制：本地 ONNX Runtime 执行量化模型，远端通过 OpenAI 兼容端点调用。
存储分离：计算与 disaggregated storage 分离，本地维护物化工作集，源数据保留远端。
部署形态：单节点 / 分布式集群 / Kubernetes Sidecar / 边缘到云原生。

安装与快速开始#

curl https://install.spiceai.org | /bin/bash
# 或
brew install spiceai/spiceai/spice

spice init my_project
cd my_project
spice run

核心配置通过 spicepod.yml 声明式定义，包括数据源（from）、加速引擎（acceleration.engine）、刷新策略（refresh_mode）、模型定义及密钥引用等。

典型应用场景#

数据驱动的 Agentic AI：通过 MCP 或 OpenAI 兼容 API 跨库取数，联邦 SQL 查询多数据源。
RAG：向量 + 全文混合检索，语义知识层，Text-to-SQL。
Database CDN / Query Mesh：数据加速物化到本地，亚秒级查询响应。
实时仪表盘：加速数据刷新，BI 工具对接。
遗留系统迁移：统一端点联邦查询多源异构数据。
分布式数据网格：多节点分布式查询，边缘到云原生部署。

版本状态#

当前 v1.1.1-stable 已发布（1.0 正式版已 GA），v2.0-rc.3 已发布，采用 Apache-2.0 许可证，由 Spice AI, Inc. 开发维护。