基于 FastAPI 的 AI 智能助手服务栈,通过 Llama Stack 集成 OpenAI、Azure、VertexAI、WatsonX、vLLM 等多源 LLM 提供商,支持 MCP 工具调用、RAG 配置、流式查询及企业级 Kubernetes 部署。
Lightspeed Core Stack (LCS) 是一个 AI 驱动的智能助手服务,通过后端 LLM 服务、Agent 和 RAG 数据库回答产品相关问题。
核心特性#
- 多 LLM 提供商支持: OpenAI (gpt-5, gpt-4o, o1, o3, o4)、Azure OpenAI、Google VertexAI (gemini-2.0-flash, gemini-2.5-pro)、IBM WatsonX、vLLM
- MCP 服务器集成: 支持静态文件 Token、K8s Service Account、客户端 Token、OAuth、自动 Header 传播等多种认证方式
- RAG 配置: 向量存储和检索增强生成
- 用户数据收集: 反馈数据和对话转录存储,支持导出至 Red Hat Dataverse
- 安全防护 (Safety Shields): 输入/输出流监控
- 系统提示词: 支持路径引用/字面量/自定义 Profile 三种配置方式
部署模式#
| 模式 | 说明 |
|---|---|
| Server Mode | Llama Stack 作为独立服务,LCS 通过 REST API 连接 |
| Library Mode | Llama Stack 作为库嵌入 LCS 进程中 |
REST API 端点#
| 端点 | 方法 | 说明 |
|---|---|---|
/v1/query | POST | 非流式查询 |
/v1/streaming-query | POST | 流式查询 |
/v1/models | GET | 获取可用模型列表 |
/v1/readiness | GET | 就绪检查 |
/v1/liveness | GET | 存活检查 |
快速开始#
# PyPI 安装
pip install lightspeed-stack
# 容器化部署
podman pull quay.io/lightspeed-core/lightspeed-stack:latest
podman run -it -p 8080:8080 \
-v my-config.yaml:/app-root/lightspeed-stack.yaml:Z \
quay.io/lightspeed-core/lightspeed-stack:latest
配置示例#
name: lightspeed-service
service:
host: localhost
port: 8080
auth_enabled: false
llama_stack:
use_as_library_client: false
url: http://localhost:8321
user_data_collection:
feedback_enabled: true
transcripts_enabled: true
mcp_servers:
- name: "filesystem-tools"
url: "http://localhost:9000"
项目信息#
- 主要语言: Python 93.5% (要求 3.12 或 3.13)
- 框架: FastAPI + Uvicorn
- 许可协议: Apache-2.0
- 容器镜像: quay.io/lightspeed-core/lightspeed-stack