一个包含100个博士级研究任务的基准测试平台,涵盖22个不同领域,用于系统性评估深度研究代理(DRA)的报告生成质量和信息检索能力。
一分钟了解#
DeepResearch Bench是一个专门为评估深度研究代理(DRA)设计的综合性基准测试平台,包含100个博士级研究任务,覆盖科学、商业、软件等22个领域。它采用RACE(基于参考的自适应标准评估)和FACT(事实丰富度和引用可信度框架)两种互补的评估方法,帮助研究人员和开发者全面衡量其深度研究代理的性能。
核心价值:提供客观、系统的评估标准,促进深度研究代理技术的进步与创新。
快速上手#
安装难度:中 - 需要配置API密钥和运行环境
git clone https://github.com/Ayanami0730/deep_research_bench.git
cd deep_research_bench
pip install -r requirements.txt
适合我的场景吗?
- ✅ 研究机构:需要系统性评估AI研究代理性能
- ✅ AI开发者:开发和优化深度研究模型
- ❌ 初学者:需要更简单的评估工具和详细教程
- ❌ 商业应用:需要直接集成到产品中的解决方案
核心能力#
1. RACE评估体系 - 全面评估报告质量#
- 从全面性、洞察力、指令遵循性和可读性四个维度评估研究报告质量
- 采用动态标准生成和参考评分机制,确保评估的准确性和区分度
实际价值:帮助开发者了解其模型在关键研究维度上的优势与不足,有针对性地优化模型性能。
2. FACT评估框架 - 验证信息可信度#
- 自动提取报告中的事实声明及其引用来源
- 验证引用来源对声明的支持程度,计算引用准确率
实际价值:确保模型生成的内容基于可靠信息,提高研究结果的可信度和实用价值。
技术栈与集成#
开发语言:Python 主要依赖:Gemini API(用于LLM评估)、Jina API(用于网页抓取) 集成方式:API / Library
维护状态#
- 开发活跃度:活跃,定期更新评估结果和新功能
- 最近更新:近期频繁更新,添加了多种新模型的评估结果
- 社区响应:积极参与,与AGI-Eval平台建立合作,定期更新排行榜
商用与许可#
许可证:MIT
- ✅ 商用:允许
- ✅ 修改:允许
- ⚠️ 限制:需包含原作者的引用信息
文档与学习资源#
- 文档质量:综合
- 官方文档:https://github.com/Ayanami0730/deep_research_bench
- 示例代码:提供完整示例和运行脚本
- 评估示例:包含详细的评估结果和比较分析