使用Firecrawl抓取和提取结构化数据
Firecrawl利用大型语言模型(LLMs)高效地从网页中提取结构化数据。以下是方法:- 模式定义: 定义要抓取的URL和使用JSON Schema(遵循OpenAI工具模式)的所需数据模式。此模式指定您期望从页面中提取的数据结构。
- 抓取端点: 将URL和模式传递给抓取端点。此端点的文档可在此处找到: 抓取端点文档
- 结构化数据检索: 接收以您的模式定义的结构化格式的抓取数据。然后,您可以根据需要在应用程序中使用此数据或进行进一步处理。
提取结构化数据
/scrape(带extract)端点
用于从抓取的页面中提取结构化数据。JSON
无模式提取(新功能)
现在您可以通过仅向端点传递prompt来进行无模式提取。LLM会选择数据的结构。
JSON
Extract对象
extract对象接受以下参数:
schema:用于提取的模式。systemPrompt:用于提取的系统提示。prompt:用于无模式提取的提示。