ScrapeGraphAI

基于 LLM 与有向图逻辑的 Python 智能网页/文档抓取库，支持自然语言驱动的结构化数据提取。

ScrapeGraphAI（"You Only Scrape Once"）将传统的网页抓取转化为基于自然语言 Prompt 的自动化管道。其核心采用有向图架构，将抓取、解析与 LLM 推理封装为图节点并串联执行，无需编写 CSS 选择器即可输出结构化 JSON 数据。

核心特性

自然语言驱动：仅需提供 Prompt 与 URL/文件即可完成数据提取。
预置图管道：提供 SmartScraperGraph（单页）、SearchGraph（搜索多页）、SpeechGraph（转音频）、ScriptCreatorGraph（生成可复用脚本）等多种开箱即用的管道。
多模型与本地化：支持 OpenAI/Groq/Gemini 等云端 API，同时支持 Ollama 本地模型，满足隐私合规需求。
反检测渲染：内置 Playwright 与 undetected-playwright 引擎，支持动态页面渲染。

工作原理与架构底层基于 LangChain 的图管道机制构建，节点间通过状态传递数据。抓取层使用 Playwright，解析层依赖 BeautifulSoup 与 html2text，大文本处理使用 semchunk 分块。支持通过 Burr 进行可视化追踪。

适用场景广泛应用于 AI Agent 与 RAG 系统的数据采集前置环节、无代码快速数据调研、搜索引擎结果批量提取，以及基于企业级托管 API 的大规模数据接入。

快速上手执行 pip install scrapegraphai 与 playwright install 后，通过实例化 SmartScraperGraph 并配置 LLM 模型参数，调用 run() 方法即可获取抓取结果。支持通过 Docker 进行容器化部署。

待确认信息

相关项目