ST-WebAgentBench
✨面向企业场景的 Web 代理安全性与可信度基准测试套件,包含 375 个任务覆盖 GitLab、SuiteCRM、ShoppingAdmin 三大应用,基于六大策略维度评估代理在合规约束下的任务完成能力。已被 ICLR 2025 接收。
PythonDocker大语言模型
面向企业场景的 Web 代理安全性与可信度基准测试套件,包含 375 个任务覆盖 GitLab、SuiteCRM、ShoppingAdmin 三大应用,基于六大策略维度评估代理在合规约束下的任务完成能力。已被 ICLR 2025 接收。
第 1 / 1 页 · 共 1 条
获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。