安装
要安装Firecrawl Python SDK,您可以使用pip:Python
使用方法
- 从firecrawl.dev获取API密钥
- 将API密钥设置为名为
FIRECRAWL_API_KEY的环境变量,或者将其作为参数传递给FirecrawlApp类。
Python
抓取单个URL
要抓取单个URL,请使用scrape_url方法。它接受URL作为参数,并以字典形式返回抓取的数据。
Python
爬取网站
要爬取网站,请使用crawl_url方法。它接受起始URL和可选参数作为参数。params参数允许您为爬取任务指定其他选项,例如要爬取的最大页面数、允许的域名和输出格式。
Python
异步爬取
要异步爬取网站,请使用crawl_url_async方法。它返回爬取ID,您可以使用该ID检查爬取任务的状态。它接受起始URL和可选参数作为参数。params参数允许您为爬取任务指定其他选项,例如要爬取的最大页面数、允许的域名和输出格式。
Python
检查爬取状态
要检查爬取任务的状态,请使用check_crawl_status方法。它接受任务ID作为参数,并返回爬取任务的当前状态。
Python
取消爬取
要取消异步爬取任务,请使用cancel_crawl方法。它接受异步爬取的任务ID作为参数,并返回取消状态。
Python
映射网站
使用map_url生成网站的URL列表。params参数允许您自定义映射过程,包括排除子域名或使用网站地图的选项。
Python
使用WebSockets爬取网站
要使用WebSockets爬取网站,请使用crawl_url_and_watch方法。它接受起始URL和可选参数作为参数。params参数允许您为爬取任务指定其他选项,例如要爬取的最大页面数、允许的域名和输出格式。
Python