面向以人为中心的具身 AI 交互式闭环仿真框架,集成大语言模型进行高层规划与社会化交互。
项目定位#
FreeAskWorld 是一个面向以人为中心的具身 AI 交互式闭环仿真框架,由 AIR-DISCOVER 组织维护,相关论文发表于 AAAI 2026 Oral。该框架旨在解决传统视觉语言导航(VLN)任务中智能体缺乏与人类真实交互能力的问题,提出了"方向询问任务(Direction Inquiry Task)"这一新范式。
核心能力#
- LLM 驱动的智能体:支持意图建模、逻辑推理、自然对话与指令生成。
- 真实人类模拟:为 NPC 赋予个性化档案、日程安排以及特定的运动与导航风格。
- 动态世界生成:支持天气、光照、交通流量和场景布局的随机化。
- 闭环同步机制:基于 WebSocket 的状态交换机制,支持仿真环境与模型的实时交互。
- 方向询问任务:扩展传统 VLN,允许智能体主动向仿真人类求助并自适应调整规划路线。
数据生成与标注#
基于 Unity Perception 构建的模块化数据生成管线,可产出包含以下标注的大规模多模态数据集(6 个任务、16 个物体类别、63,429 帧、17+ 小时交互数据):
- 视觉标注:2D/3D 边界框、实例分割、语义分割
- 几何标注:深度图、表面法线图
- 视觉观测:全景 RGB 图像、六个 90° 透视图
- 交互数据:自然语言指令、对话历史、智能体轨迹
- 空间表示:2D 占用热力图、环境元数据
架构设计#
- 仿真引擎:基于 Unity Perception 构建
- 主通信链路:ROS2(rclpy transport,监听 127.0.0.1:10000)
- HTTP API:FastAPI + Uvicorn,提供健康检查等接口(127.0.0.1:8787)
- 备用链路:WebSocket 协议(位于
closed_loop/目录,实验性质)
核心模块划分:
src/freeaskclaw/:核心运行时代码,CLI 入口freeaskclaw.cli:mainintegrations/agent_ros2/:ROS2 Agent 接口封装closed_loop/:WebSocket 闭环桥接模块(含 BEVBert trainer 等)pysolotools/:Solo 格式数据处理工具
基线模型与性能#
内置 ETPNav、BEVBert 及其微调版本(ETPNav-FT、BEVBert-FT)。论文数据显示,引入"询问"机制后,人类基准的成功率(SR)从 40.2% 提升至 82.6%,导航误差(NE)从 18.3m 降至 3.49m。
Agent 接入#
提供标准化接入层,支持 OpenClaw、Claude Code、Codex 及自定义 Agent 适配器通过 ROS2 接入仿真环境。
快速开始#
前置要求:Python ≥ 3.10,ROS2 Humble(完整交互模式需手动安装)
最小验证模式(无需 Unity):
git clone https://github.com/AIR-DISCOVER/FreeAskWorld
cd FreeAskWorld
python3 -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt
python -m integrations.agent_ros2.cli --help
python -m integrations.agent_ros2.cli status --output-json
ROS2 实时交互模式:
bash scripts/setup_envs.sh
source .ros2_venv/bin/activate
scripts/start_local_runtime.sh
curl http://127.0.0.1:8787/healthz
STEP_SECONDS=2 OBSERVE_SECONDS=1 scripts/run_live_smoke.sh
适用场景#
- 主动视觉语言导航(Proactive VLN)
- 社会导航与行人行为预测研究
- 人机交互(HCI)研究
- 基于 ROS2 的 RGBD SLAM 验证
- 开环评测(类似 nuScenes 范式)
待确认信息#
- AAAI 2026 论文 PDF / arXiv 链接暂未公开
- Unity 仿真器下载方式未明确
- 数据集公开下载链接待确认
- 具体隶属机构(贡献者来自南洋理工大学 NTU,实验室名称未明确)