Unstract

无代码 LLM 平台，通过可视化 Prompt Studio 设计文档提取逻辑，一键部署为 REST API、ETL 管道或 MCP Server。支持 PDF、Word、Excel、图像等多种格式，集成 OpenAI、Anthropic、Azure 等主流 LLM，适用于金融表单处理、数据仓库 ETL 和 Agent 数据层构建。

项目概述#

Unstract 是面向企业的无代码 LLM 平台，专注于从非结构化文档中提取结构化数据。核心组件 Prompt Studio 提供可视化提示词工程环境，支持多 LLM 实时对比、填充率监控和成本评估，用户可通过拖拽配置完成提取逻辑设计，一键发布为 REST API、ETL 管道、MCP Server 或 n8n 节点。

解决的问题#

传统 IDP 和 OCR 方案处理复杂文档时准确率受限
手工编写文档解析脚本维护成本高、泛化能力弱
LLM 直接调用存在幻觉风险，难以在高合规场景落地
企业海量历史文档无法高效入仓/入湖
Agent 和 RAG 应用缺乏可靠的结构化数据供给层

核心能力#

Prompt Studio 提示词工程#

专为文档数据提取设计的可视化开发环境
多 LLM 并排输出对比和成本评估
实时验证与反馈，快速迭代优化
填充率监控，量化提示词质量
一键启动提取 API

部署与集成模式#

模式	面向用户	特点
API Deployments	开发/业务团队	任意项目一键生成 REST API
ETL Pipelines	数据工程团队	批量处理，直接写入数据仓库
MCP Servers	Agent/LLM 开发者	提供 MCP 协议结构化数据提取
n8n Nodes	低代码/运维团队	拖拽节点方式调用

企业级增强功能#

LLMChallenge：双 LLM 交叉验证，消除幻觉
SinglePass Extraction：减少 token 消耗最高 8 倍
SummarizedExtraction：token 节省最高 6 倍
Human-In-The-Loop：提取结果与原文并排比对
SSO Support：企业级统一身份认证

No-Code First：业务用户无需编程
Zero Trust Security：内存处理、容器隔离
Scalable Microservices：从开发到企业级部署

四层架构#

层级	职责
External Integrations	AI 服务与数据服务集成
Application	核心平台、业务逻辑、工作流协调
Persistence	PostgreSQL+pgvector、Redis、RabbitMQ、MinIO
Tool Execution	独立容器执行，自动清理

核心服务#

服务	技术栈	职责
Frontend	React 18 + Ant Design	Prompt Studio 与 Workflow Studio SPA
Backend	Django 4.2 + DRF	公共 API、多租户管理、认证授权
Platform Service	Flask	工具网关、连接器认证
Prompt Service	Flask	LLM 统一接口、LlamaIndex 集成
Runner	Python + Docker API	容器生命周期管理
X2Text Service	Flask	文档格式转换

数据架构#

PostgreSQL 14+ with pgvector（多租户 schema、向量存储）
RabbitMQ + Celery（异步任务队列）
Redis（会话、缓存、速率限制）
MinIO（S3 兼容对象存储）

生态系统#

LLM 提供商：OpenAI, Azure OpenAI, Anthropic, Google VertexAI/Gemini, Bedrock, Ollama, Mistral AI

向量数据库：Qdrant, Weaviate, Pinecone, Milvus, PostgreSQL pgvector

文本提取器：LLMWhisperer V2, Unstructured.io, LlamaIndex Parse

ETL 数据源：AWS S3, MinIO, GCS, Azure Blob, Google Drive, Dropbox, SFTP

ETL 目标：Snowflake, Redshift, BigQuery, PostgreSQL, MySQL, SQL Server, Oracle

安装部署#

系统要求#

内存：8GB RAM（最低）
操作系统：Linux 或 macOS
依赖：Docker, Docker Compose, Git

快速启动#

git clone https://github.com/Zipstack/unstract.git
cd unstract
./run-platform.sh
# 访问 http://frontend.unstract.localhost
# 默认凭证：unstract/unstract

三步工作流#

Prompt Studio：设计针对特定文档类型的提取逻辑
连接源与目标：配置数据源和数据仓库
部署：选择 API、ETL 管道或 Q&A 应用

典型应用场景#

金融文档处理（银行对账单、票据、合同）
政府与保险表单自动化
复杂业务流程中的长文档理解
数据仓库/数据湖前的非结构化数据 ETL
Agent/LLM 应用的结构化数据供给层

项目概述#

解决的问题#

核心能力#

Prompt Studio 提示词工程#

部署与集成模式#

企业级增强功能#

文档格式支持#

架构设计#

设计原则#

四层架构#

核心服务#

数据架构#

生态系统#

安装部署#

系统要求#

快速启动#

三步工作流#

典型应用场景#

相关项目

oh-my-codex

Ironcurtain

vibe-remote

保持更新