一个用于评估AI大语言模型代理在模拟软件公司环境中执行真实世界专业任务表现的基准测试平台,提供多样化任务角色和综合评分系统。
一分钟了解#
TheAgentCompany是一个创新的AI代理基准测试平台,专门用于评估大语言模型(LLM)代理在模拟软件公司环境中执行真实世界专业任务的表现。它通过让AI代理浏览网页、编写代码、运行程序和与同事交流等方式,模拟数字工作者的日常工作流程。这个项目对于研究AI在劳动力市场的影响、评估AI代理的工作能力以及推动AI在工作流程中的应用具有重要价值。
核心价值:提供最接近真实工作环境的AI代理评估基准,填补了AI代理在专业任务表现评估领域的空白。
快速上手#
安装难度:中 - 需要Docker和Docker Compose知识,30GB+磁盘空间,网络访问权限
# Linux/Mac用户
sudo chmod 666 /var/run/docker.sock
curl -fsSL https://github.com/TheAgentCompany/the-agent-company-backup-data/releases/download/setup-script-20241208/setup.sh | sh
核心能力#
1. 多样化任务角色 - 模拟真实工作环境#
- 软件工程师、产品经理、数据科学家、人力资源、财务人员、管理员等多种角色
2. 多样化数据类型 - 全面能力测试#
- 涵盖编码任务、对话任务、数学推理、图像处理、文本理解等
3. 多代理交互 - 团队协作评估#
- 支持多个AI代理之间的交互和协作
4. 综合评分系统 - 精准性能评估#
- 结果导向的主要评估和辅助检查点系统
5. 多种评估方法 - 灵活测试选择#
- 确定性评估器和基于LLM的评估器
技术栈与集成#
开发语言:Python、Shell 主要依赖:Docker、Docker Compose、GitLab、Plane、ownCloud、RocketChat、LiteLLM、OpenHands(可选)