发现 AI 代理的未来arrow_forward

ScrapeGraphAI

calendar_today收录于 2026年4月25日
category智能体与应用工具
code开源
Python工作流自动化大语言模型LangChainPlaywrightRAGAI代理浏览器自动化自然语言处理智能体与应用工具模型与推理框架自动化/工作流/RPA知识管理/检索/RAG

基于 LLM 与有向图逻辑的 Python 智能网页/文档抓取库,支持自然语言驱动的结构化数据提取。

ScrapeGraphAI("You Only Scrape Once")将传统的网页抓取转化为基于自然语言 Prompt 的自动化管道。其核心采用有向图架构,将抓取、解析与 LLM 推理封装为图节点并串联执行,无需编写 CSS 选择器即可输出结构化 JSON 数据。

核心特性

  • 自然语言驱动:仅需提供 Prompt 与 URL/文件即可完成数据提取。
  • 预置图管道:提供 SmartScraperGraph(单页)、SearchGraph(搜索多页)、SpeechGraph(转音频)、ScriptCreatorGraph(生成可复用脚本)等多种开箱即用的管道。
  • 多模型与本地化:支持 OpenAI/Groq/Gemini 等云端 API,同时支持 Ollama 本地模型,满足隐私合规需求。
  • 反检测渲染:内置 Playwright 与 undetected-playwright 引擎,支持动态页面渲染。

工作原理与架构 底层基于 LangChain 的图管道机制构建,节点间通过状态传递数据。抓取层使用 Playwright,解析层依赖 BeautifulSoup 与 html2text,大文本处理使用 semchunk 分块。支持通过 Burr 进行可视化追踪。

适用场景 广泛应用于 AI Agent 与 RAG 系统的数据采集前置环节、无代码快速数据调研、搜索引擎结果批量提取,以及基于企业级托管 API 的大规模数据接入。

快速上手 执行 pip install scrapegraphaiplaywright install 后,通过实例化 SmartScraperGraph 并配置 LLM 模型参数,调用 run() 方法即可获取抓取结果。支持通过 Docker 进行容器化部署。

待确认信息

  • 学术论文:citation.cff 存在但未找到正式发表的论文链接
  • v2.0.0 发布状态:pyproject.toml 标注 2.0.0,PyPI 最新仍为 1.76.0
  • Python 版本兼容性:pyproject.toml 要求 >=3.12,PyPI 标注 >=3.10,建议以 >=3.12 为准
  • n8n 集成链接指向 localhost,正式集成待确认

保持更新

获取最新的 AI 工具和趋势,直接发送到您的收件箱。没有垃圾邮件,只有智能。

rocket_launch