基于 LLM 与有向图逻辑的 Python 智能网页/文档抓取库,支持自然语言驱动的结构化数据提取。
ScrapeGraphAI("You Only Scrape Once")将传统的网页抓取转化为基于自然语言 Prompt 的自动化管道。其核心采用有向图架构,将抓取、解析与 LLM 推理封装为图节点并串联执行,无需编写 CSS 选择器即可输出结构化 JSON 数据。
核心特性
- 自然语言驱动:仅需提供 Prompt 与 URL/文件即可完成数据提取。
- 预置图管道:提供 SmartScraperGraph(单页)、SearchGraph(搜索多页)、SpeechGraph(转音频)、ScriptCreatorGraph(生成可复用脚本)等多种开箱即用的管道。
- 多模型与本地化:支持 OpenAI/Groq/Gemini 等云端 API,同时支持 Ollama 本地模型,满足隐私合规需求。
- 反检测渲染:内置 Playwright 与 undetected-playwright 引擎,支持动态页面渲染。
工作原理与架构 底层基于 LangChain 的图管道机制构建,节点间通过状态传递数据。抓取层使用 Playwright,解析层依赖 BeautifulSoup 与 html2text,大文本处理使用 semchunk 分块。支持通过 Burr 进行可视化追踪。
适用场景 广泛应用于 AI Agent 与 RAG 系统的数据采集前置环节、无代码快速数据调研、搜索引擎结果批量提取,以及基于企业级托管 API 的大规模数据接入。
快速上手
执行 pip install scrapegraphai 与 playwright install 后,通过实例化 SmartScraperGraph 并配置 LLM 模型参数,调用 run() 方法即可获取抓取结果。支持通过 Docker 进行容器化部署。
待确认信息
- 学术论文:citation.cff 存在但未找到正式发表的论文链接
- v2.0.0 发布状态:pyproject.toml 标注 2.0.0,PyPI 最新仍为 1.76.0
- Python 版本兼容性:pyproject.toml 要求 >=3.12,PyPI 标注 >=3.10,建议以 >=3.12 为准
- n8n 集成链接指向 localhost,正式集成待确认