发现 AI 代理的未来arrow_forward

SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

calendar_today收录于 2026年4月23日
category智能体与应用工具
code开源
Python工作流自动化PyTorchMCP多模态深度学习AI代理智能体框架智能体与应用工具模型与推理框架教育/研究资源计算机视觉/多模态

面向具身智能的规模化 Agentic 3D 场景生成框架,支持从自然语言任务描述自动批量生成 Isaac Sim 仿真就绪的 3D 室内环境与机器人训练数据,内置 10k 场景数据集。

SAGE(Scalable Agentic 3D Scene Generation for Embodied AI)由 NVIDIA Research 联合 UIUC、Cornell、Stanford 开发,是一个端到端的 3D 场景生成与机器人数据生产框架。其核心流程为:用户输入自然语言任务描述(如"从厨房取水壶"),系统通过 LLM(gpt-oss-120b)理解任务意图,由 VLM(Qwen3-VL)进行视觉推理,经 MCP(Model Context Protocol)架构协调 TRELLIS 3D 资产生成、MatFuse/FLUX 材质合成、场景布局求解等模块,最终输出 Isaac Sim 可直接加载的完整 3D 场景。

框架采用 Client-Server 分离架构。Server 端承载基础模型推理与 3D 生成服务,Client 端运行 Isaac Sim 仿真引擎与本地材质生成,双方通过 MCP 协议通信。所有大模型均通过 vLLM 部署,支持 tensor parallel 异步调度。

在数据增强方面,SAGE 提供布局级增强(保持任务语义、重新生成背景布局)、姿态增强(小物体姿态随机化)和类别级物体替换三种策略。在机器人数据生成方面,集成 M2T2 可生成接触丰富的操作轨迹,支持静态 Franka Arm 和移动 Franka 两种配置,产出 HDF5 格式数据可直接用于 robomimic 策略训练。

SAGE-10k 数据集包含 10,000 个多样化室内场景,覆盖 50 种房间类型与风格,包含 565K 唯一 3D 物体,托管于 Hugging Face。所有场景生成脚本均支持图像条件输入(image conditioning),可用于 Real2Sim 研究流程。

运行依赖较重:需 Isaac Sim 4.2.0、GPU 集群(客户端 VLM 需 8-GPU tensor parallel)、HuggingFace Token 及 objathor 基础数据。

主要语言为 Python(约 98.6%),主体仓库采用 Apache-2.0 许可证。论文以 arXiv 预印本形式发布(2602.10116)。仓库目前无 release 发布,仅有一个 commit,成熟度待观察。

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch