发现 AI 代理的未来arrow_forward

Unstract

calendar_today收录于 2026年2月23日
category智能体与应用工具
code开源
Python工作流自动化Docker大语言模型MCP多模态AI代理Web应用智能体与应用工具模型与推理框架自动化/工作流/RPA协议/API/集成企业应用/办公

无代码 LLM 平台,通过可视化 Prompt Studio 设计文档提取逻辑,一键部署为 REST API、ETL 管道或 MCP Server。支持 PDF、Word、Excel、图像等多种格式,集成 OpenAI、Anthropic、Azure 等主流 LLM,适用于金融表单处理、数据仓库 ETL 和 Agent 数据层构建。

项目概述#

Unstract 是面向企业的无代码 LLM 平台,专注于从非结构化文档中提取结构化数据。核心组件 Prompt Studio 提供可视化提示词工程环境,支持多 LLM 实时对比、填充率监控和成本评估,用户可通过拖拽配置完成提取逻辑设计,一键发布为 REST API、ETL 管道、MCP Server 或 n8n 节点。

解决的问题#

  • 传统 IDP 和 OCR 方案处理复杂文档时准确率受限
  • 手工编写文档解析脚本维护成本高、泛化能力弱
  • LLM 直接调用存在幻觉风险,难以在高合规场景落地
  • 企业海量历史文档无法高效入仓/入湖
  • Agent 和 RAG 应用缺乏可靠的结构化数据供给层

核心能力#

Prompt Studio 提示词工程#

  • 专为文档数据提取设计的可视化开发环境
  • 多 LLM 并排输出对比和成本评估
  • 实时验证与反馈,快速迭代优化
  • 填充率监控,量化提示词质量
  • 一键启动提取 API

部署与集成模式#

模式面向用户特点
API Deployments开发/业务团队任意项目一键生成 REST API
ETL Pipelines数据工程团队批量处理,直接写入数据仓库
MCP ServersAgent/LLM 开发者提供 MCP 协议结构化数据提取
n8n Nodes低代码/运维团队拖拽节点方式调用

企业级增强功能#

  • LLMChallenge:双 LLM 交叉验证,消除幻觉
  • SinglePass Extraction:减少 token 消耗最高 8 倍
  • SummarizedExtraction:token 节省最高 6 倍
  • Human-In-The-Loop:提取结果与原文并排比对
  • SSO Support:企业级统一身份认证

文档格式支持#

文字处理(DOCX/DOC/ODT)、演示文稿(PPTX/PPT/ODP)、电子表格(XLSX/XLS/ODS)、文档(PDF/TXT/CSV/JSON)、图像(BMP/GIF/JPEG/PNG/TIFF/WEBP)

架构设计#

设计原则#

  • No-Code First:业务用户无需编程
  • Zero Trust Security:内存处理、容器隔离
  • Scalable Microservices:从开发到企业级部署

四层架构#

层级职责
External IntegrationsAI 服务与数据服务集成
Application核心平台、业务逻辑、工作流协调
PersistencePostgreSQL+pgvector、Redis、RabbitMQ、MinIO
Tool Execution独立容器执行,自动清理

核心服务#

服务技术栈职责
FrontendReact 18 + Ant DesignPrompt Studio 与 Workflow Studio SPA
BackendDjango 4.2 + DRF公共 API、多租户管理、认证授权
Platform ServiceFlask工具网关、连接器认证
Prompt ServiceFlaskLLM 统一接口、LlamaIndex 集成
RunnerPython + Docker API容器生命周期管理
X2Text ServiceFlask文档格式转换

数据架构#

  • PostgreSQL 14+ with pgvector(多租户 schema、向量存储)
  • RabbitMQ + Celery(异步任务队列)
  • Redis(会话、缓存、速率限制)
  • MinIO(S3 兼容对象存储)

生态系统#

LLM 提供商:OpenAI, Azure OpenAI, Anthropic, Google VertexAI/Gemini, Bedrock, Ollama, Mistral AI

向量数据库:Qdrant, Weaviate, Pinecone, Milvus, PostgreSQL pgvector

文本提取器:LLMWhisperer V2, Unstructured.io, LlamaIndex Parse

ETL 数据源:AWS S3, MinIO, GCS, Azure Blob, Google Drive, Dropbox, SFTP

ETL 目标:Snowflake, Redshift, BigQuery, PostgreSQL, MySQL, SQL Server, Oracle

安装部署#

系统要求#

  • 内存:8GB RAM(最低)
  • 操作系统:Linux 或 macOS
  • 依赖:Docker, Docker Compose, Git

快速启动#

git clone https://github.com/Zipstack/unstract.git
cd unstract
./run-platform.sh
# 访问 http://frontend.unstract.localhost
# 默认凭证:unstract/unstract

三步工作流#

  1. Prompt Studio:设计针对特定文档类型的提取逻辑
  2. 连接源与目标:配置数据源和数据仓库
  3. 部署:选择 API、ETL 管道或 Q&A 应用

典型应用场景#

  • 金融文档处理(银行对账单、票据、合同)
  • 政府与保险表单自动化
  • 复杂业务流程中的长文档理解
  • 数据仓库/数据湖前的非结构化数据 ETL
  • Agent/LLM 应用的结构化数据供给层

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch