JarvisArt是一个多模态大语言模型驱动的智能修图代理,通过理解用户意图、模拟专业艺术家推理,协调Adobe Lightroom中的200多种工具来解放人类艺术创造力。
一分钟了解#
JarvisArt是NeurIPS 2025入选项目,一个通过自然语言指挥200+专业修图工具的智能修图代理。它能让用户像与专业艺术家对话一样进行照片编辑,无需精通复杂的专业工具即可实现高质量修图。
核心价值:将复杂的专业修图过程转化为自然语言交互,大幅降低专业修图门槛。
快速上手#
安装难度:中 - 需要一定Python和机器学习基础知识,但提供了完整的Gradio Demo和在线演示
# Gradio Demo运行方法
# 具体步骤请参考项目README中的Gradio Demo部分
适合我的场景吗?
- ✅ 专业摄影师/修图师:可自动化复杂修图流程,提高工作效率
- ✅ 摄影爱好者:无需专业修图技能即可实现高质量图片调整
- ✅ 图像研究人员:可用于图像处理和编辑算法的研究
- ❌ 商业应用场景:项目明确禁止商用
核心能力#
1. 多粒度修图控制#
- 支持从场景级别调整到特定区域精细化的多层次修图目标 实际价值:用户可灵活控制编辑范围,实现全局优化与局部调整的完美结合
2. 自然语言交互#
- 通过文本提示和边界框进行直观、自由形式的编辑操作 实际价值:将专业修图知识转化为自然语言描述,降低使用门槛
3. 专业工具协调#
- 协调Adobe Lightroom中的200+专业工具执行修图任务 实际价值:无需掌握Lightroom复杂操作,即可调用专业级修图能力
4. 创新训练框架#
- 采用两阶段训练框架:思维链监督微调+修图相关群体相对策略优化(GRPO-R) 实际价值:确保模型具备专业级推理能力和决策能力
5. 多场景适配#
- 支持全局修图和局部修图等多种应用场景 实际价值:满足不同编辑需求,从整体风格调整到局部细节优化
技术栈与集成#
开发语言:Python(具体依赖需查看代码库)
主要依赖:多模态大语言模型框架、Adobe Lightroom集成协议
集成方式:API/SDK/协议 - 提供Agent-to-Lightroom Protocol与Adobe Lightroom无缝集成
维护状态#
- 开发活跃度:非常活跃,从2025年6月至12月持续发布更新
- 最近更新:2025年12月发布评估数据集MMArt-Bench和训练脚本
- 社区响应:提供微信讨论群组,积极收集用户反馈
商用与许可#
许可证:Apache License 2.0(特殊修改版)
- ✅ 商用:禁止(明确声明不得用于商业用途)
- ✅ 修改:允许(在Apache 2.0条款下)
- ⚠️ 限制:任何商业应用都需要作者明确书面许可
文档与学习资源#
- 文档质量:全面
- 官方文档:https://github.com/LYL1015/JarvisArt
- 示例代码:完整(推理代码、训练脚本、数据脚本、评估代码)
- 教程资源:Gradio Demo、在线演示、Agent-to-Lightroom Protocol文档、训练指南