基于多智能体协作的 AI 漫剧生成平台,8 个专业 Agent 端到端完成从创意到视频的创作流程。
openOii 是一个基于多智能体协作的 AI 漫剧生成平台,通过 8 个专业 AI Agent 的分工协作,实现从故事创意到完整视频作品的端到端自动化创作。
核心创作流程为:用户输入故事创意与风格偏好后,OnboardingAgent 解析需求,DirectorAgent 制定导演规划,ScriptwriterAgent 自动生成角色、场景和分镜脚本,CharacterArtistAgent 生成一致性角色图像,StoryboardArtistAgent 为每个镜头生成分镜首帧,VideoGeneratorAgent 完成视频生成(支持文生视频与图生视频),VideoMergerAgent 使用 FFmpeg 拼接完整作品,最终由 ReviewAgent 处理用户反馈并支持单节点精准重生成。
多智能体协作体系#
- OnboardingAgent:需求分析,解析用户输入的创意与风格偏好
- DirectorAgent:导演规划,制定角色与场景方案
- ScriptwriterAgent:剧本创作,自动生成分镜脚本
- CharacterArtistAgent:角色图生成,基于描述产出一致性角色图像
- StoryboardArtistAgent:分镜图生成,为每个镜头生成分镜首帧
- VideoGeneratorAgent:视频生成,支持文生视频与图生视频
- VideoMergerAgent:视频拼接,将各镜头视频合成为完整作品
- ReviewAgent:用户反馈处理,支持对单个内容节点精准重生成
图像与视频生成#
- 图像生成支持文生图(快速原型)与图生图(以角色图为参考,提升人物一致性)两种模式
- 视频生成支持文生视频与图生视频,图生视频提供
first_frame(首帧参考)和reference(参考图)两种模式 - 图像与视频服务均通过 OpenAI 兼容接口对接,可灵活切换后端
交互与体验#
- WebSocket 实时推送各 Agent 生成进度
- 集成 tldraw 无限画布,支持自由拖动、缩放剧本/角色/分镜/视频卡片
- 前端内置配置管理界面,支持在线修改数据库、LLM、图像、视频服务配置
架构概要#
平台采用前后端分离架构。后端基于 FastAPI + SQLModel + PostgreSQL + Redis,通过 WebSocket 实时推送各 Agent 执行进度;前端基于 React 18 + TypeScript + Vite,集成 tldraw 无限画布,并提供可视化配置管理界面。图像与视频生成均通过 OpenAI 兼容接口对接外部服务,LLM 使用 Claude Agent SDK,可灵活切换后端供应商(如智谱 GLM、魔搭 ModelScope、豆包火山引擎等)。
部署方式#
- Docker 一键部署(推荐):
git clone后编辑backend/.env填写 API 密钥,执行docker-compose up -d,前端访问http://localhost:15173,API 文档http://localhost:18765/docs - 本地开发部署:需 Python 3.10+、Node.js 18+、PostgreSQL 14+、Redis 6+、FFmpeg 4.0+
待确认事项#
- README 声明采用 MIT 许可证,但仓库根目录下未找到 LICENSE 文件
- 仅 1 位贡献者、27 次提交,项目处于早期开发阶段
- CharacterArtistAgent 的一致性角色图像具体技术手段未说明
- 各 Agent 调用外部 API 失败时的重试与降级策略未说明