发现 AI 代理的未来arrow_forward

JarvisArt:智能修图助手

calendar_today收录于 2026年1月27日
category智能体与应用工具
code开源
Python工作流自动化大语言模型多模态AI代理智能体与应用工具自动化/工作流/RPA计算机视觉/多模态

JarvisArt是一个多模态大语言模型驱动的智能修图代理,通过理解用户意图、模拟专业艺术家推理,协调Adobe Lightroom中的200多种工具来解放人类艺术创造力。

一分钟了解#

JarvisArt是NeurIPS 2025入选项目,一个通过自然语言指挥200+专业修图工具的智能修图代理。它能让用户像与专业艺术家对话一样进行照片编辑,无需精通复杂的专业工具即可实现高质量修图。

核心价值:将复杂的专业修图过程转化为自然语言交互,大幅降低专业修图门槛。

快速上手#

安装难度:中 - 需要一定Python和机器学习基础知识,但提供了完整的Gradio Demo和在线演示

# Gradio Demo运行方法
# 具体步骤请参考项目README中的Gradio Demo部分

适合我的场景吗?

  • ✅ 专业摄影师/修图师:可自动化复杂修图流程,提高工作效率
  • ✅ 摄影爱好者:无需专业修图技能即可实现高质量图片调整
  • ✅ 图像研究人员:可用于图像处理和编辑算法的研究
  • ❌ 商业应用场景:项目明确禁止商用

核心能力#

1. 多粒度修图控制#

  • 支持从场景级别调整到特定区域精细化的多层次修图目标 实际价值:用户可灵活控制编辑范围,实现全局优化与局部调整的完美结合

2. 自然语言交互#

  • 通过文本提示和边界框进行直观、自由形式的编辑操作 实际价值:将专业修图知识转化为自然语言描述,降低使用门槛

3. 专业工具协调#

  • 协调Adobe Lightroom中的200+专业工具执行修图任务 实际价值:无需掌握Lightroom复杂操作,即可调用专业级修图能力

4. 创新训练框架#

  • 采用两阶段训练框架:思维链监督微调+修图相关群体相对策略优化(GRPO-R) 实际价值:确保模型具备专业级推理能力和决策能力

5. 多场景适配#

  • 支持全局修图和局部修图等多种应用场景 实际价值:满足不同编辑需求,从整体风格调整到局部细节优化

技术栈与集成#

开发语言:Python(具体依赖需查看代码库)

主要依赖:多模态大语言模型框架、Adobe Lightroom集成协议

集成方式:API/SDK/协议 - 提供Agent-to-Lightroom Protocol与Adobe Lightroom无缝集成

维护状态#

  • 开发活跃度:非常活跃,从2025年6月至12月持续发布更新
  • 最近更新:2025年12月发布评估数据集MMArt-Bench和训练脚本
  • 社区响应:提供微信讨论群组,积极收集用户反馈

商用与许可#

许可证:Apache License 2.0(特殊修改版)

  • ✅ 商用:禁止(明确声明不得用于商业用途)
  • ✅ 修改:允许(在Apache 2.0条款下)
  • ⚠️ 限制:任何商业应用都需要作者明确书面许可

文档与学习资源#

  • 文档质量:全面
  • 官方文档https://github.com/LYL1015/JarvisArt
  • 示例代码:完整(推理代码、训练脚本、数据脚本、评估代码)
  • 教程资源:Gradio Demo、在线演示、Agent-to-Lightroom Protocol文档、训练指南

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch