腾讯AI实验室开发的研究代理框架,支持深度研究和代理基础模型训练,使用开源工具构建,仅需Google搜索API(可替换为DuckDuckGo)。
一分钟了解#
CognitiveKernel-Pro(CogKernel-Pro)是腾讯AI实验室推出的开源深度研究代理框架,它能够利用多种免费工具(仅需要Google搜索API)执行复杂的 research 任务。该框架提供了完全可复现的SFT训练方法,无需基于RL的训练即可超越WebDancer和WebSailor等模型。研究人员和开发者可以使用此框架构建能进行深度研究的智能代理系统。
核心价值:提供端到端的深度研究代理解决方案,无需复杂RL训练即可实现高性能的AI研究代理。
快速上手#
安装难度:中 - 需要安装多个Python依赖和Web环境配置,需要一定的技术背景
# 安装Python依赖
pip install boto3 botocore openai duckduckgo_search rich numpy openpyxl biopython mammoth markdownify pandas pdfminer-six python-pptx pdf2image puremagic pydub SpeechRecognition bs4 youtube-transcript-api requests transformers protobuf openai langchain_openai langchain
pip install selenium helium smolagents
# 安装Web环境依赖
# Linux系统
apt-get install -y poppler-utils default-jre libreoffice-common libreoffice-java-common libreoffice ffmpeg
# Mac系统
brew install --cask libreoffice
brew install poppler
brew install ffmpeg
适合我的场景吗?
- ✅ 学术研究:适合需要进行深度学术研究、论文分析和知识发现的场景
- ✅ 智能代理开发:适合需要构建能处理复杂任务的AI代理的开发者
- ❌ 简单应用:不适合需要快速实现简单AI功能的场景
- ❌ 资源受限环境:不适合计算资源或网络带宽受限的环境
核心能力#
1. 深度研究代理 - 复杂任务解决#
- 能够执行多步骤、跨模态的研究任务,包括网页浏览、文件处理和知识整合 实际价值:自动化完成需要人类研究员数小时甚至数天才能完成的研究任务,大幅提高研究效率
2. 开放式SFT训练 - 无需RL训练#
- 提供完全可复现的监督微调训练方法,无需基于强化学习(RL)的训练 实际价值:降低模型训练门槛,提高训练效率和结果可复现性
3. 多模态处理能力 - 信息整合#
- 同时支持文本和视觉信息的处理,能够截图分析网页内容 实际价值:更全面地理解和分析信息,提高代理的感知能力
4. 可扩展架构 - 灵活定制#
- 基于模块化设计,可轻松扩展和定制不同的代理组件 实际价值:满足不同研究场景的特定需求,提高系统的适用性
5. 反思能力 - 任务质量保证#
- 支持在推理过程中进行评估和自我反思,可配置重试机制 实际价值:提高任务完成质量,自动修复和改进执行过程中的错误
技术栈与集成#
开发语言:Python 3.12 主要依赖:OpenAI API, LangChain, Playwright, 多种文档处理库 集成方式:API调用 + 模块化组件
生态与扩展#
- 插件/扩展:系统支持通过添加新的代理模块来扩展功能,如网页代理、文件代理等
- 集成能力:可与多种大语言模型集成,包括GPT系列和Claude,支持自定义模型服务器
维护状态#
- 开发活跃度:积极维护,最近有更新和功能扩展
- 最近更新:2025年10月发布了关于深度研究代理数据合成的技术报告
- 社区响应:作为腾讯AI实验室的官方项目,社区支持良好,并有相关研究论文发布
商用与许可#
许可证:开源许可证(具体类型未在文档中明确说明)
- ✅ 商用:允许(开源项目通常允许商用)
- ✅ 修改:允许(开源项目通常允许修改)
- ⚠️ 限制:部分SFT数据可能受到许可限制
文档与学习资源#
- 文档质量:全面,包含详细的安装指南、使用示例和API文档
- 官方文档:GitHub仓库 https://github.com/Tencent/CognitiveKernel-Pro
- 示例代码:包含多个示例和测试用例,如
ck_main/_test目录下的简单示例