企业级API优先的LLM工作空间,专注于非结构化文档处理,提供数据提取、标注、权限管理和AI助手等功能,支持私有部署和团队协作。
一分钟了解#
OpenContracts是一个开源的文档智能分析平台,专为需要掌控数据安全和团队协作的用户设计。它结合了文档管理、AI分析和协作功能,支持PDF和文本文件的结构化提取和标注,让用户能够通过AI助手与文档进行交互式对话。
核心价值:提供私有部署的完整文档生命周期管理,从上传、分析到提取数据,所有操作都在自己掌控的数据环境中进行。
快速上手#
安装难度:中 - 需要Docker和基本的数据库知识,项目提供了完整的部署指南
# 开环境快速启动
git clone https://github.com/JSv4/OpenContracts.git
cd OpenContracts
docker compose -f local.yml up
适合我的场景吗?
- ✅ 法律文档审查:可以高效标注和提取合同中的关键条款
- ✅ 批量文档分析:支持数百个文档的批量处理和数据分析
- ✅ 团队协作审阅:提供讨论线程、提及功能和版本控制
- ❌ 简单文本处理:对于不需要AI增强的简单文档处理可能过于复杂
- ❌ 移动端需求:主要针对桌面浏览器使用,移动支持有限
核心能力#
1. 智能文档处理 - 从非结构化到结构化#
- 自动从PDF和文本文件中提取结构和内容,基于机器学习的解析器确保高精度
- 生成向量嵌入,支持语义搜索,快速定位相关内容 实际价值:将杂乱的文档转化为可搜索、可分析的结构化数据,大幅提升文档处理效率
2. 高级标注与分析 - 构建知识体系#
- 支持多页标注和自定义标签系统,建立文档间的关联关系
- 提供结构化数据提取界面,验证和审查提取结果 实际价值:将个人和团队的文档知识转化为可重用的分析资产,支持复杂的业务需求
3. AI文档助手 - 智能交互与分析#
- 基于PydanticAI构建的AI代理,可以与文档进行实时对话
- 支持搜索、加载文档和查询标注等功能,提供即时分析 实际价值:无需手动翻阅大量文档,AI助手可以快速回答问题、总结内容,提高工作效率
4. 团队协作平台 - 集体智慧汇聚#
- 在全局、语料库和文档级别支持线程化讨论
- 提及功能、投票系统和声誉跟踪,促进高质量协作 实际价值:打破文档审查中的信息孤岛,团队成员可以就特定内容进行讨论并达成共识
5. 数据提取与导出 - 将信息转化为数据#
- 定义提取架构,支持多种问题类型
- 在文档集合中批量运行提取,验证并导出结构化结果 实际价值:将非结构化的文档内容转化为可用于分析、报表和集成的结构化数据
技术栈与集成#
开发语言:Python(后端),JavaScript/TypeScript(前端) 主要依赖:
- Django(后端框架)
- React(前端框架)
- PydanticAI(LLM集成)
- pgvector(向量存储)
- Docling/NLM-Ingest(文档解析)
集成方式:API优先的架构,支持通过API或SDK集成到现有工作流
维护状态#
- 开发活跃度:积极开发中,最近发布了v3.0.0.b3版本,新增了协作功能
- 最近更新:近期有活跃的开发活动,包含新功能开发和bug修复
- 社区响应:拥有活跃的贡献者社区,基于开源协议发展
商用与许可#
许可证:AGPL-3.0
- ✅ 商用:允许商业使用,但需要遵守AGPL条款
- ✅ 修改:允许修改和分发
- ⚠️ 限制:如果通过网络提供服务,必须提供源代码
文档与学习资源#
- 文档质量:全面,包含架构指南、部署指南、API文档和教程
- 官方文档:https://jsv4.github.io/OpenContracts/
- 示例代码:包含多个使用示例和自定义组件开发指南