这是一个开源的 LLM 智能体,能够自动对指定主题进行深度网络和本地调研,生成包含引用来源的长篇事实性报告,旨在解决传统 LLM 存在的信息幻觉和偏见问题。
一分钟了解#
GPT Researcher 是一个自动化的 AI 研究员,它不仅仅是简单的“聊天”,而是像人类分析师一样进行调研。它通过规划问题、并行抓取多源信息、过滤偏见、自动汇总,最终生成一份带引用的长篇研究报告(通常超过 2000 字)。它能解决大模型知识过时和胡编乱造的问题,特别适合需要准确信息和来源佐证的深度研究场景。
核心价值:将耗时数周的深度人工调研自动化,提供可验证、带引用、客观的事实性报告,大幅提升信息获取效率。
快速上手#
安装难度:中 - 需要配置 Python 环境并申请 OpenAI 和 Tavily API 密钥。
# 1. 克隆项目
git clone https://github.com/assafelovic/gpt-researcher.git
cd gpt-researcher
# 2. 安装依赖
pip install -r requirements.txt
# 3. 配置环境变量(在 .env 文件中或导出)
export OPENAI_API_KEY="你的OpenAI密钥"
export TAVILY_API_KEY="你的Tavily搜索密钥"
# 4. 启动服务
python -m uvicorn main:app --reload
适合我的场景吗?
- ✅ 内容创作者/分析师:需要快速了解陌生领域并生成带引用的初稿。
- ✅ 投资者/研究员:需要对公司或趋势进行多维度的事实核查。
- ❌ 简单对话需求:如果你只需要快速闲聊或简单问答,使用普通 ChatGPT 更方便。
- ❌ 无 API 预算用户:运行过程需要调用 LLM 和搜索 API,会产生少量费用。
核心能力#
1. 深度调研与多源聚合 - 解决信息片面#
GPT Researcher 不会只依赖单一数据源,而是自动并行爬取超过 20 个不同的网站和资源。 实际价值:通过横向对比多个来源的信息,显著降低单一来源的偏见和错误概率,确保结论的客观性。
2. 自动引用与溯源 - 解决 AI 幻觉#
所有生成的报告中的关键事实都会附带原始来源链接,支持 Markdown、PDF 和 Word 导出。 实际价值:用户可以一键点击链接核实信息,这对于学术、商业或严肃内容的撰写至关重要。
3. Deep Research (深度研究) - 纵向挖掘#
支持“树状探索”模式,像专家一样不断深入挖掘子主题,不仅广度大,深度也足够。 实际价值:对于复杂话题,能生成接近人类专家水平的深度报告,而不仅仅是表面摘要。
4. 本地文档与网络混合检索#
不仅限于互联网,还能读取本地的 PDF、Word、Excel 等文件进行结合分析。 实际价值:企业用户可以将内部私有数据与外部网络信息结合,生成基于内部情报的市场分析。
技术栈与集成#
开发语言:Python (后端), TypeScript/JavaScript (前端) 核心架构:
- FastAPI:用于构建高性能的 Web 服务。
- LangGraph:用于编排多智能体协作流程(规划者、执行者、发布者)。
- Next.js:提供现代化的生产级前端界面。
集成方式:
- 代码集成 (PIP):可作为 Python 包 (
gpt-researcher) 直接嵌入到代码中。 - MCP 协议:支持通过 Model Context Protocol 连接 GitHub、数据库等外部数据源。
- Docker:提供完整的容器化部署方案。
生态与扩展#
- MCP Server:项目提供独立的 MCP 服务器,允许 Claude Desktop 等 AI 客户端直接调用 GPT Researcher 的能力。
- 多智能体协作:基于 LangGraph 构建,支持多个 Agent 分工合作(如有的负责搜索,有的负责写作)。
- 前端选择:提供轻量级 HTML 界面和功能丰富的 NextJS 界面两种选择。
维护状态#
- 开发活跃度:活跃。项目最近新增了 Deep Research 模式和 MCP 集成功能,更新频率较高。
- 社区响应:拥有庞大的 Discord 社区,Star 数量高,是 GitHub 上目前最受欢迎的 AI Agent 落地项目之一。
- 文档质量:完善。提供从安装、API 参考 to 教程的完整文档。
商用与许可#
许可证:Apache-2.0
- ✅ 商用:允许
- ✅ 修改:允许
- ⚠️ 免责声明:该项目为实验性质,生成的内容仅供学术和研究参考,不建议直接作为最终的医疗、金融或法律建议,使用需自负风险。