将 Firecrawl 与 CrewAI 一起使用
Firecrawl 已与 CrewAI,AI 智能体编排框架 集成。本页介绍了添加到框架中的所有 Firecrawl 工具。在 CrewAI 中安装 Firecrawl 工具
- 从您的 firecrawl.dev 控制面板 获取 API 密钥并将其设置在环境变量中 (
FIRECRAWL_API_KEY)。 - 安装 Firecrawl SDK 以及
crewai[tools]包:
工具
FirecrawlCrawlWebsiteTool
示例
按照以下方式使用 FirecrawlScrapeFromWebsiteTool 允许您的智能体加载网站:参数
api_key:可选。指定 Firecrawl API 密钥。默认为FIRECRAWL_API_KEY环境变量。url:开始爬取的基础 URL。page_options:可选。onlyMainContent:可选。仅返回页面的主要内容,不包括页眉、导航、页脚等。includeHtml:可选。包含页面的原始 HTML 内容。将在响应中输出 html 键。
crawler_options:可选。用于控制爬取行为的选项。includes:可选。要包含在爬取中的 URL 模式。exclude:可选。要从爬取中排除的 URL 模式。generateImgAltText:可选。使用 LLM 为图像生成替代文本(需要付费计划)。returnOnlyUrls:可选。如果为 true,则仅在爬取状态中返回 URL 列表。注意:响应将是数据中的 URL 列表,而不是文档列表。maxDepth:可选。爬取的最大深度。深度 1 是基础 URL,深度 2 包括基础 URL 及其直接子页面,依此类推。mode:可选。要使用的爬取模式。快速模式在没有站点地图的网站上爬取速度快 4 倍,但可能不太准确,不应在大量使用 JavaScript 渲染的网站上使用。limit:可选。要爬取的最大页面数。timeout:可选。爬取操作的超时时间(毫秒)。
FirecrawlScrapeWebsiteTool
示例
按照以下方式使用 FirecrawlScrapeWebsiteTool 允许您的智能体加载网站:参数
api_key:可选。指定 Firecrawl API 密钥。默认为FIRECRAWL_API_KEY环境变量。url:要抓取的 URL。page_options:可选。onlyMainContent:可选。仅返回页面的主要内容,不包括页眉、导航、页脚等。includeHtml:可选。包含页面的原始 HTML 内容。将在响应中输出 html 键。
extractor_options:可选。用于从页面内容中提取结构化信息的基于 LLM 的选项mode:要使用的提取模式,当前支持 ‘llm-extraction’extractionPrompt:可选。描述从页面中提取哪些信息的提示extractionSchema:可选。要提取的数据的模式
timeout:可选。请求的超时时间(毫秒)
FirecrawlSearchTool
示例
按照以下方式使用 FirecrawlSearchTool 允许您的智能体加载网站:参数
api_key:可选。指定 Firecrawl API 密钥。默认为FIRECRAWL_API_KEY环境变量。query:用于搜索的搜索查询字符串。page_options:可选。结果格式化选项。onlyMainContent:可选。仅返回页面的主要内容,不包括页眉、导航、页脚等。includeHtml:可选。包含页面的原始 HTML 内容。将在响应中输出 html 键。fetchPageContent:可选。获取页面的完整内容。
search_options:可选。用于控制爬取行为的选项。limit:可选。要爬取的最大页面数。