无代码 LLM 平台,通过可视化 Prompt Studio 设计文档提取逻辑,一键部署为 REST API、ETL 管道或 MCP Server。支持 PDF、Word、Excel、图像等多种格式,集成 OpenAI、Anthropic、Azure 等主流 LLM,适用于金融表单处理、数据仓库 ETL 和 Agent 数据层构建。
项目概述#
Unstract 是面向企业的无代码 LLM 平台,专注于从非结构化文档中提取结构化数据。核心组件 Prompt Studio 提供可视化提示词工程环境,支持多 LLM 实时对比、填充率监控和成本评估,用户可通过拖拽配置完成提取逻辑设计,一键发布为 REST API、ETL 管道、MCP Server 或 n8n 节点。
解决的问题#
- 传统 IDP 和 OCR 方案处理复杂文档时准确率受限
- 手工编写文档解析脚本维护成本高、泛化能力弱
- LLM 直接调用存在幻觉风险,难以在高合规场景落地
- 企业海量历史文档无法高效入仓/入湖
- Agent 和 RAG 应用缺乏可靠的结构化数据供给层
核心能力#
Prompt Studio 提示词工程#
- 专为文档数据提取设计的可视化开发环境
- 多 LLM 并排输出对比和成本评估
- 实时验证与反馈,快速迭代优化
- 填充率监控,量化提示词质量
- 一键启动提取 API
部署与集成模式#
| 模式 | 面向用户 | 特点 |
|---|---|---|
| API Deployments | 开发/业务团队 | 任意项目一键生成 REST API |
| ETL Pipelines | 数据工程团队 | 批量处理,直接写入数据仓库 |
| MCP Servers | Agent/LLM 开发者 | 提供 MCP 协议结构化数据提取 |
| n8n Nodes | 低代码/运维团队 | 拖拽节点方式调用 |
企业级增强功能#
- LLMChallenge:双 LLM 交叉验证,消除幻觉
- SinglePass Extraction:减少 token 消耗最高 8 倍
- SummarizedExtraction:token 节省最高 6 倍
- Human-In-The-Loop:提取结果与原文并排比对
- SSO Support:企业级统一身份认证
文档格式支持#
文字处理(DOCX/DOC/ODT)、演示文稿(PPTX/PPT/ODP)、电子表格(XLSX/XLS/ODS)、文档(PDF/TXT/CSV/JSON)、图像(BMP/GIF/JPEG/PNG/TIFF/WEBP)
架构设计#
设计原则#
- No-Code First:业务用户无需编程
- Zero Trust Security:内存处理、容器隔离
- Scalable Microservices:从开发到企业级部署
四层架构#
| 层级 | 职责 |
|---|---|
| External Integrations | AI 服务与数据服务集成 |
| Application | 核心平台、业务逻辑、工作流协调 |
| Persistence | PostgreSQL+pgvector、Redis、RabbitMQ、MinIO |
| Tool Execution | 独立容器执行,自动清理 |
核心服务#
| 服务 | 技术栈 | 职责 |
|---|---|---|
| Frontend | React 18 + Ant Design | Prompt Studio 与 Workflow Studio SPA |
| Backend | Django 4.2 + DRF | 公共 API、多租户管理、认证授权 |
| Platform Service | Flask | 工具网关、连接器认证 |
| Prompt Service | Flask | LLM 统一接口、LlamaIndex 集成 |
| Runner | Python + Docker API | 容器生命周期管理 |
| X2Text Service | Flask | 文档格式转换 |
数据架构#
- PostgreSQL 14+ with pgvector(多租户 schema、向量存储)
- RabbitMQ + Celery(异步任务队列)
- Redis(会话、缓存、速率限制)
- MinIO(S3 兼容对象存储)
生态系统#
LLM 提供商:OpenAI, Azure OpenAI, Anthropic, Google VertexAI/Gemini, Bedrock, Ollama, Mistral AI
向量数据库:Qdrant, Weaviate, Pinecone, Milvus, PostgreSQL pgvector
文本提取器:LLMWhisperer V2, Unstructured.io, LlamaIndex Parse
ETL 数据源:AWS S3, MinIO, GCS, Azure Blob, Google Drive, Dropbox, SFTP
ETL 目标:Snowflake, Redshift, BigQuery, PostgreSQL, MySQL, SQL Server, Oracle
安装部署#
系统要求#
- 内存:8GB RAM(最低)
- 操作系统:Linux 或 macOS
- 依赖:Docker, Docker Compose, Git
快速启动#
git clone https://github.com/Zipstack/unstract.git
cd unstract
./run-platform.sh
# 访问 http://frontend.unstract.localhost
# 默认凭证:unstract/unstract
三步工作流#
- Prompt Studio:设计针对特定文档类型的提取逻辑
- 连接源与目标:配置数据源和数据仓库
- 部署:选择 API、ETL 管道或 Q&A 应用
典型应用场景#
- 金融文档处理(银行对账单、票据、合同)
- 政府与保险表单自动化
- 复杂业务流程中的长文档理解
- 数据仓库/数据湖前的非结构化数据 ETL
- Agent/LLM 应用的结构化数据供给层