DeepResearch Bench：深度研究代理综合基准

一个包含100个博士级研究任务的基准测试平台，涵盖22个不同领域，用于系统性评估深度研究代理（DRA）的报告生成质量和信息检索能力。

一分钟了解#

DeepResearch Bench是一个专门为评估深度研究代理（DRA）设计的综合性基准测试平台，包含100个博士级研究任务，覆盖科学、商业、软件等22个领域。它采用RACE（基于参考的自适应标准评估）和FACT（事实丰富度和引用可信度框架）两种互补的评估方法，帮助研究人员和开发者全面衡量其深度研究代理的性能。

核心价值：提供客观、系统的评估标准，促进深度研究代理技术的进步与创新。

快速上手#

安装难度：中 - 需要配置API密钥和运行环境

git clone https://github.com/Ayanami0730/deep_research_bench.git
cd deep_research_bench
pip install -r requirements.txt

适合我的场景吗？

✅ 研究机构：需要系统性评估AI研究代理性能

✅ AI开发者：开发和优化深度研究模型

❌ 初学者：需要更简单的评估工具和详细教程

❌ 商业应用：需要直接集成到产品中的解决方案

核心能力#

1. RACE评估体系 - 全面评估报告质量#

从全面性、洞察力、指令遵循性和可读性四个维度评估研究报告质量
采用动态标准生成和参考评分机制，确保评估的准确性和区分度

实际价值：帮助开发者了解其模型在关键研究维度上的优势与不足，有针对性地优化模型性能。

2. FACT评估框架 - 验证信息可信度#

自动提取报告中的事实声明及其引用来源
验证引用来源对声明的支持程度，计算引用准确率

实际价值：确保模型生成的内容基于可靠信息，提高研究结果的可信度和实用价值。

技术栈与集成#

开发语言：Python 主要依赖：Gemini API（用于LLM评估）、Jina API（用于网页抓取） 集成方式：API / Library

维护状态#

开发活跃度：活跃，定期更新评估结果和新功能
最近更新：近期频繁更新，添加了多种新模型的评估结果
社区响应：积极参与，与AGI-Eval平台建立合作，定期更新排行榜

商用与许可#

许可证：MIT

✅ 商用：允许
✅ 修改：允许
⚠️ 限制：需包含原作者的引用信息

文档与学习资源#

文档质量：综合
官方文档：https://github.com/Ayanami0730/deep_research_bench
示例代码：提供完整示例和运行脚本
评估示例：包含详细的评估结果和比较分析

DeepResearch Bench：深度研究代理综合基准

一分钟了解#

快速上手#

核心能力#

1. RACE评估体系 - 全面评估报告质量#

2. FACT评估框架 - 验证信息可信度#

技术栈与集成#

维护状态#

商用与许可#

文档与学习资源#

相关项目

oh-my-codex

Ironcurtain

vibe-remote

保持更新