发现 AI 代理的未来arrow_forward

smart_toyAgent Park

中文 / EN 提交项目

arrow_back返回项目列表

智能代理公司：AI代理在模拟工作环境中的基准测试平台

calendar_today收录于 2026年1月25日

|

category智能体与应用工具

|

code开源

PythonDocker多智能体系统AI代理Web应用智能体与应用工具教育/研究资源企业应用/办公

一个用于评估AI大语言模型代理在模拟软件公司环境中执行真实世界专业任务表现的基准测试平台，提供多样化任务角色和综合评分系统。

一分钟了解#

TheAgentCompany是一个创新的AI代理基准测试平台，专门用于评估大语言模型(LLM)代理在模拟软件公司环境中执行真实世界专业任务的表现。它通过让AI代理浏览网页、编写代码、运行程序和与同事交流等方式，模拟数字工作者的日常工作流程。这个项目对于研究AI在劳动力市场的影响、评估AI代理的工作能力以及推动AI在工作流程中的应用具有重要价值。

核心价值：提供最接近真实工作环境的AI代理评估基准，填补了AI代理在专业任务表现评估领域的空白。

快速上手#

安装难度：中 - 需要Docker和Docker Compose知识，30GB+磁盘空间，网络访问权限

# Linux/Mac用户
sudo chmod 666 /var/run/docker.sock
curl -fsSL https://github.com/TheAgentCompany/the-agent-company-backup-data/releases/download/setup-script-20241208/setup.sh | sh

核心能力#

1. 多样化任务角色 - 模拟真实工作环境#

软件工程师、产品经理、数据科学家、人力资源、财务人员、管理员等多种角色

2. 多样化数据类型 - 全面能力测试#

涵盖编码任务、对话任务、数学推理、图像处理、文本理解等

3. 多代理交互 - 团队协作评估#

支持多个AI代理之间的交互和协作

4. 综合评分系统 - 精准性能评估#

结果导向的主要评估和辅助检查点系统

5. 多种评估方法 - 灵活测试选择#

确定性评估器和基于LLM的评估器

技术栈与集成#

开发语言：Python、Shell 主要依赖：Docker、Docker Compose、GitLab、Plane、ownCloud、RocketChat、LiteLLM、OpenHands(可选)

相关项目

查看全部 arrow_forward

oh-my-codex

该项目信息不完整，已保留可验证数据供后续补充。基于URL推测为GitHub用户Yeachan-Heo的仓库，名称暗示可能与代码生成、OpenAI Codex或开发工具有关。

查看详情 arrow_forward

Ironcurtain

该项目信息不完整，已保留可验证数据供后续补充。GitHub仓库 https://github.com/provos/ironcurtain 因技术限制（浏览器上下文不可用）暂时无法访问验证。

查看详情 arrow_forward

vibe-remote

由 cyhhao 维护的 GitHub 开源项目。项目名称暗示可能与远程操作或连接相关，具体功能定位因访问限制待确认。

查看详情 arrow_forward

保持更新

获取最新的 AI 工具和趋势，直接发送到您的收件箱。没有垃圾邮件，只有智能。

rocket_launch