通义深究是一个开源的深度研究智能体,专为长时程、深度信息检索任务设计,具有305亿总参数,每仅激活33亿参数。该模型在多个智能搜索基准测试中表现出色,包括人类终极考试、浏览竞赛、WebWalkerQA等。
一分钟了解#
通义深究是阿里巴巴达摩院通义实验室开发的开放式深度研究智能体,专为处理复杂的长时程信息检索任务而设计。它通过高效的参数激活机制和多种推理范式,为研究人员和企业提供强大的深度分析能力,特别适合需要广泛搜索和多轮推理的研究项目。
核心价值:通过自动化数据生成、强化学习和多种推理范式,实现高效准确的深度信息检索与分析
快速上手#
安装难度:高 - 需要Python 3.10.0环境,配置多个API密钥,并准备模型权重文件
# 创建环境
conda create -n deepresearch_env python=3.10.0
conda activate deepresearch_env
# 安装依赖
pip install -r requirements.txt
# 配置环境变量
cp .env.example .env
# 编辑.env文件添加您的API密钥
适合我的场景吗?
- ✅ 学术研究:适合需要深度文献调研、数据分析和知识发现的学术研究项目
- ✅ 企业情报分析:适合市场调研、竞品分析和行业趋势研究
- ❌ 简单问答任务:不适合需要快速回答的简单查询场景
- ❌ 资源有限环境:不适合计算资源受限的开发环境
核心能力#
1. 全自动化合成数据生成#
- 提供高度可扩展的数据合成流水线,全自动支持智能体预训练、监督微调和强化学习 实际价值:大幅减少数据准备时间,提升模型训练效率和性能
2. 大规模持续预训练#
- 利用多样化、高质量的智能体交互数据进行持续预训练,扩展模型能力并保持知识新鲜度 实际价值:模型能够处理最新信息,提高长期跟踪和动态信息分析的能力
3. 端到端强化学习#
- 采用基于定制化组相对策略优化框架的严格在线策略RL方法,包括令牌级策略梯度、留一法优势估计和负样本选择性过滤 实际价值:在非稳定环境中稳定训练,提升模型在实际应用中的表现和可靠性
4. 双推理范式兼容#
- 同时兼容ReAct和基于IterResearch的"Heavy"两种推理范式,分别用于评估核心能力和解锁最大性能 实际价值:提供灵活的使用方式,可根据需求选择适合的推理模式
技术栈与集成#
开发语言:Python 主要依赖:Transformers, PyTorch, OpenAI API 集成方式:API / Library
维护状态#
- 开发活跃度:高 - 每周多次提交,持续更新
- 最近更新:近期发布了Tongyi-DeepResearch-30B-A3B版本
- 社区响应:活跃 - 有明确的招聘信息和交流渠道
商用与许可#
许可证:Apache-2.0
- ✅ 商用:允许
- ✅ 修改:允许
- ⚠️ 限制:需要包含原始版权和许可声明
文档与学习资源#
- 文档质量:全面
- 官方文档:https://github.com/Alibaba-NLP/DeepResearch
- 示例代码:包含推理脚本和评估脚本
- 学习资源:提供技术博客和研究论文