发现 AI 代理的未来arrow_forward

DeepResearch Bench:深度研究代理综合基准

calendar_today收录于 2026年1月26日
category文档教程与资源
code开源
Python大语言模型深度学习AI代理Web应用文档教程与资源知识管理/检索/RAG教育/研究资源模型训练/推理

一个包含100个博士级研究任务的基准测试平台,涵盖22个不同领域,用于系统性评估深度研究代理(DRA)的报告生成质量和信息检索能力。

一分钟了解#

DeepResearch Bench是一个专门为评估深度研究代理(DRA)设计的综合性基准测试平台,包含100个博士级研究任务,覆盖科学、商业、软件等22个领域。它采用RACE(基于参考的自适应标准评估)和FACT(事实丰富度和引用可信度框架)两种互补的评估方法,帮助研究人员和开发者全面衡量其深度研究代理的性能。

核心价值:提供客观、系统的评估标准,促进深度研究代理技术的进步与创新。

快速上手#

安装难度:中 - 需要配置API密钥和运行环境

git clone https://github.com/Ayanami0730/deep_research_bench.git
cd deep_research_bench
pip install -r requirements.txt

适合我的场景吗?

  • 研究机构:需要系统性评估AI研究代理性能
  • AI开发者:开发和优化深度研究模型
  • 初学者:需要更简单的评估工具和详细教程
  • 商业应用:需要直接集成到产品中的解决方案

核心能力#

1. RACE评估体系 - 全面评估报告质量#

  • 从全面性、洞察力、指令遵循性和可读性四个维度评估研究报告质量
  • 采用动态标准生成和参考评分机制,确保评估的准确性和区分度

实际价值:帮助开发者了解其模型在关键研究维度上的优势与不足,有针对性地优化模型性能。

2. FACT评估框架 - 验证信息可信度#

  • 自动提取报告中的事实声明及其引用来源
  • 验证引用来源对声明的支持程度,计算引用准确率

实际价值:确保模型生成的内容基于可靠信息,提高研究结果的可信度和实用价值。

技术栈与集成#

开发语言:Python 主要依赖:Gemini API(用于LLM评估)、Jina API(用于网页抓取) 集成方式:API / Library

维护状态#

  • 开发活跃度:活跃,定期更新评估结果和新功能
  • 最近更新:近期频繁更新,添加了多种新模型的评估结果
  • 社区响应:积极参与,与AGI-Eval平台建立合作,定期更新排行榜

商用与许可#

许可证:MIT

  • ✅ 商用:允许
  • ✅ 修改:允许
  • ⚠️ 限制:需包含原作者的引用信息

文档与学习资源#

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch