LAYRA是一款企业级开箱即用的解决方案,通过视觉RAG和无限视觉多步骤代理工作流编排,解锁下一代智能系统。它能够像人类一样理解文档,保留布局和图形元素,并提供全Python控制的复杂工作流执行能力。
一分钟了解#
LAYRA是全球首个"视觉原生"AI自动化引擎,它能够像人类一样查看和理解文档,保留完整的布局和图形元素,并通过全Python控制执行任意复杂的工作流。从视觉驱动的检索增强生成(RAG)到多步骤代理工作流编排,LAYRA使您能够构建下一代智能系统—无限制,无妥协。
核心价值:通过纯视觉嵌入技术实现文档的无损理解,结合强大工作流引擎,提供端到端的视觉驱动自动化解决方案。
快速上手#
安装难度:中 - 需要Docker和Docker Compose,可选的GPU配置
# 克隆仓库
git clone https://github.com/liweiphys/layra.git
cd layra
# 配置环境变量
vim .env
# 构建并启动服务
docker compose up -d --build
适合我的场景吗?
- ✅ 企业级文档理解与处理:需要保留文档原始布局和结构的场景
- ✅ 复杂AI工作流构建:需要多步骤、循环嵌套和条件分支的自动化流程
- ✅ 视觉RAG应用:需要处理包含图表、表格等非文本元素的文档
- ❌ 简单文本问答:对文档布局理解要求不高的基础应用
核心能力#
1. 视觉原生多模态文档理解#
- 使用ColQwen 2.5/Jina-Embeddings-v4将文档转换为语义向量存储在Milvus中
- 完整保留文档布局结构、表格完整性和嵌入的视觉元素 实际价值:AI能够像人类一样理解文档,包括表格、图表、层次结构等,提供更准确的上下文理解
2. 强大的工作流引擎#
- 构建复杂、循环嵌套且可调试的工作流,具有全Python执行能力
- 支持人在回环集成,可在关键节点注入人工审批 实际价值:构建完全自定义的AI自动化流程,处理复杂业务逻辑,同时保留人工干预能力
3. 高级调试与监控#
- 节点级别的断点调试,可检查变量、暂停/恢复执行
- 实时流式执行结果展示 实际价值:开发复杂的AI工作流时能够可视化和调试每个步骤,提高可靠性和效率
技术栈与集成#
开发语言:TypeScript (前端), Python (后端) 主要依赖:Next.js 15, TailwindCSS 4.0, FastAPI, Redis, MySQL, MongoDB, Kafka, MinIO 集成方式:完整平台/服务
维护状态#
- 开发活跃度:活跃开发,定期发布功能更新
- 最近更新:2025年8月新增嵌入模型支持和中文语言支持
- 社区响应:提供用户讨论组和官方微信公众号支持
文档与学习资源#
- 文档质量:全面,包含详细的安装指南、教程和系统架构说明
- 官方文档:GitHub Pages上的教程指南
- 示例代码:提供完整的工作流示例和配置说明