Skip to main content
注意:此集成仍在使用 Firecrawl API 的 v0 版本。您可以安装 Python SDK 的 0.0.20 版本或 Node SDK 的 0.0.36 版本。

安装

pip install firecrawl-py==0.0.20

使用方法

您需要获取自己的 API 密钥。请访问 https://firecrawl.dev
from langchain_community.document_loaders import FireCrawlLoader

loader = FireCrawlLoader(
    api_key="YOUR_API_KEY", url="https://firecrawl.dev", mode="crawl"
)

docs = loader.load()

模式

Scrape:抓取单个 URL 并返回 markdown。 Crawl:爬取 URL 及其所有可访问的子页面,并为每个页面返回 markdown。
loader = FireCrawlLoader(
    api_key="YOUR_API_KEY",
    url="https://firecrawl.dev",
    mode="scrape",
)

data = loader.load()

爬虫选项

您还可以向加载器传递参数。这是一个传递给爬虫的选项字典。有关更多信息,请参阅 FireCrawl API 文档。

Langchain JS

要在 Langchain JS 中使用它,您可以通过 npm 安装:
npm install @mendableai/firecrawl-js
然后,您可以像这样使用它:
import { FireCrawlLoader } from "langchain/document_loaders/web/firecrawl";

const loader = new FireCrawlLoader({
  url: "https://firecrawl.dev", // 要抓取的 URL
  apiKey: process.env.FIRECRAWL_API_KEY, // 可选,默认为环境中的 `FIRECRAWL_API_KEY`
  mode: "scrape", // 运行爬虫的模式。可以是单个 URL 的 "scrape" 或所有可访问子页面的 "crawl"
  params: {
    // 基于 Firecrawl API 文档的可选参数
    // 有关 API 文档,请访问 https://docs.firecrawl.dev
  },
});

const docs = await loader.load();