发布周 II | Firecrawl

第7天 - 更快的 Markdown 解析

我们从零开始重建了 Markdown 解析器，重点关注速度和性能。这一增强确保您的网页抓取任务更加高效，并提供更高质量的结果。

新特性

速度提升：体验比以前快4倍的解析速度，实现更快的数据处理和减少等待时间。
增强可靠性：我们的新解析器能够更优雅地处理更广泛的 HTML 内容，减少错误并提高一致性。
更清晰的 Markdown 输出：获得更清晰、更易读的 Markdown，使您的数据更易于使用并集成到您的工作流程中。

第6天 - 移动端抓取 (+ 移动端截图)

Firecrawl 现在引入了移动设备模拟功能，用于抓取和截图，使您能够像使用移动设备一样与网站交互。这一功能对于测试移动端特定内容、理解响应式设计以及从移动端特定元素获取洞察至关重要。

为什么需要移动端抓取？

移动优先体验越来越普遍，此功能使您能够：

获取高保真移动端截图，更准确地展示网站在移动设备上的显示效果。
测试和验证移动端布局和 UI 元素，确保您对响应式网站的抓取结果准确无误。
抓取仅在移动端显示的内容，获取与桌面版本不同的信息或布局。

使用方法

要激活移动端抓取，只需在请求中添加 "mobile": true，这将启用 Firecrawl 的移动设备模拟模式。

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="fc-YOUR_API_KEY")

# Scrape a website:
scrape_result = app.scrape_url('google.com', 
    params={
        'formats': ['markdown', 'html'], 
        'mobile': true
    }
)
print(scrape_result)

有关更多详细信息，包括其他配置选项，请访问 API 参考。

第5天 - 操作 (2个新操作)

Firecrawl 允许您在抓取网页内容之前对网页执行各种操作。这对于与动态内容交互、在页面间导航或访问需要用户交互的内容特别有用。我们很高兴推出两个强大的新操作：

抓取：在交互序列中的任何时刻捕获当前页面内容，返回 URL 和 HTML。
等待选择器：等待页面上出现特定元素后再继续，确保更可靠的自动化。

actions = [
    {"type": "scrape"},
    {"type": "wait", "selector": "#my-element"},
]

以下是如何使用操作导航到 google.com，搜索 Firecrawl，点击第一个结果，抓取当前页面内容并截图的示例。为了更精确的控制，您现在可以使用 {type: "wait", selector: "#my-element"} 来等待页面上出现特定元素。

示例

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="fc-YOUR_API_KEY")

# Scrape a website:
scrape_result = app.scrape_url('firecrawl.dev', 
    params={
        'formats': ['markdown', 'html'], 
        'actions': [
            {"type": "wait", "milliseconds": 2000},
            {"type": "click", "selector": "textarea[title=\"Search\"]"},
            {"type": "wait", "milliseconds": 2000},
            {"type": "write", "text": "firecrawl"},
            {"type": "wait", "milliseconds": 2000},
            {"type": "press", "key": "ENTER"},
            {"type": "wait", "milliseconds": 3000},
            {"type": "click", "selector": "h3"},
            {"type": "wait", "milliseconds": 3000},
            {"type": "scrape"},
            {"type": "screenshot"}
        ]
    }
)
print(scrape_result)

输出

{
  "success": true,
  "data": {
    "markdown": "Our first Launch Week is over! [See the recap 🚀](blog/firecrawl-launch-week-1-recap)...",
    "actions": {
      "screenshots": [
        "https://alttmdsdujxrfnakrkyi.supabase.co/storage/v1/object/public/media/screenshot-75ef2d87-31e0-4349-a478-fb432a29e241.png"
      ],
      "scrapes": [
        {
          "url": "https://www.firecrawl.dev/",
          "html": "<html><body><h1>Firecrawl</h1></body></html>"
        }
      ]
    },
    "metadata": {
      "title": "Home - Firecrawl",
      "description": "Firecrawl crawls and converts any website into clean markdown.",
      "language": "en",
      "keywords": "Firecrawl,Markdown,Data,Mendable,Langchain",
      "robots": "follow, index",
      "ogTitle": "Firecrawl",
      "ogDescription": "Turn any website into LLM-ready data.",
      "ogUrl": "https://www.firecrawl.dev/",
      "ogImage": "https://www.firecrawl.dev/og.png?123",
      "ogLocaleAlternate": [],
      "ogSiteName": "Firecrawl",
      "sourceURL": "http://google.com",
      "statusCode": 200
    }
  }
}

有关操作参数的更多详细信息，请参阅 API 参考。

第4天 - 高级 iframe 抓取

我们很高兴宣布 Firecrawl 全面支持 iframe 抓取。我们的抓取器现在可以无缝处理嵌套 iframe、动态加载内容和跨域框架 - 解决了网页抓取中最具挑战性的技术难题之一。

技术创新

Firecrawl 现在实现了：

递归 iframe 遍历和内容提取
跨域 iframe 处理，具有适当的安全上下文管理
智能自动等待 iframe 内容加载
支持动态注入的 iframe
正确处理沙盒化的 iframe

为什么它很重要

许多现代网站使用 iframe 用于：

嵌入内容和小部件
支付表单和安全输入
第三方集成
广告框架
社交媒体嵌入

以前，这些元素在抓取结果中通常是黑盒。现在，您可以像访问页面的任何其他部分一样完全访问 iframe 内容。

使用方法

无需额外配置！当您使用任何抓取或爬取端点时，iframe 抓取会自动进行。无论您使用 /scrape 抓取单个页面还是使用 /crawl 抓取整个网站，iframe 内容都将无缝集成到您的结果中。

第3天 - 信用包

信用包允许您在计划用量不足时轻松充值。此外，我们现在提供自动充值功能，当您接近限制时自动为您的账户充值。要启用此功能，请访问定价页面 https://www.firecrawl.dev/pricing

信用包

为您的项目提供灵活的月度信用额度。

每月9美元可获得1000个信用额度
可添加到任何现有计划
选择您需要的数量

自动充值信用额度

当信用额度不足时自动为您的账户充值。

每1000个信用额度11美元
可在任何订阅计划中启用自动充值

第2天 - 地理位置

引入抓取请求的位置和语言设置。指定国家和首选语言，根据您的目标位置和语言偏好获取相关内容。

工作原理

当您指定位置设置时，Firecrawl 将使用适当的代理（如果可用）并模拟相应的语言和时区设置。默认情况下，如果未指定，位置设置为”US”。

使用方法

要使用位置和语言设置，请在请求正文中包含带有以下属性的 location 对象：

country：ISO 3166-1 alpha-2 国家代码（例如，‘US’、‘AU’、‘DE’、‘JP’）。默认为 ‘US’。
languages：请求的首选语言和区域设置数组，按优先级排序。默认为指定位置的语言。

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="fc-YOUR_API_KEY")

# 爬取一个网站:
scrape_result = app.scrape_url('airbnb.com', 
    params={
        'formats': ['markdown', 'html'], 
        'location': {
            'country': 'BR',
            'languages': ['pt-BR']
        }
    }
)
print(scrape_result)

第1天 - 批量抓取

您现在可以使用我们的新批量端点同时抓取多个 URL。这非常适合当您不需要立即获取抓取结果的情况。

工作原理

它与 /crawl 端点的工作方式非常相似。它提交批量抓取作业并返回作业 ID，用于检查批量抓取的状态。 SDK 提供了两种方法，同步和异步。同步方法将返回批量抓取作业的结果，而异步方法将返回作业 ID，您可以使用该 ID 检查批量抓取的状态。

使用方法

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="fc-YOUR_API_KEY")

# 抓取多个网站:
batch_scrape_result = app.batch_scrape_urls(['firecrawl.dev', 'mendable.ai'], {'formats': ['markdown', 'html']})
print(batch_scrape_result)

# 或者，你可以使用异步方法:
batch_scrape_job = app.async_batch_scrape_urls(['firecrawl.dev', 'mendable.ai'], {'formats': ['markdown', 'html']})
print(batch_scrape_job)

# (异步) 然后你可以使用任务ID来检查批量抓取的状态:
batch_scrape_status = app.check_batch_scrape_status(batch_scrape_job['id'])
print(batch_scrape_status)

响应

如果您使用 SDK 中的同步方法，它将返回批量抓取作业的结果。否则，它将返回作业 ID，您可以使用该 ID 检查批量抓取的状态。

同步

Completed

{
  "status": "completed",
  "total": 36,
  "completed": 36,
  "creditsUsed": 36,
  "expiresAt": "2024-00-00T00:00:00.000Z",
  "next": "https://api.firecrawl.dev/v1/crawl/123-456-789?skip=26",
  "data": [
    {
      "markdown": "[Firecrawl Docs home page![light logo](https://mintlify.s3-us-west-1.amazonaws.com/firecrawl/logo/light.svg)!...",
      "html": "<!DOCTYPE html><html lang=\"en\" class=\"js-focus-visible lg:[--scroll-mt:9.5rem]\" data-js-focus-visible=\"\">...",
      "metadata": {
        "title": "Build a 'Chat with website' using Groq Llama 3 | Firecrawl",
        "language": "en",
        "sourceURL": "https://docs.firecrawl.dev/learn/rag-llama3",
        "description": "Learn how to use Firecrawl, Groq Llama 3, and Langchain to build a 'Chat with your website' bot.",
        "ogLocaleAlternate": [],
        "statusCode": 200
      }
    },
    ...
  ]
}

异步

然后，您可以使用作业 ID 通过调用 /batch/scrape/{id} 端点来检查批量抓取的状态。此端点旨在在作业仍在运行或刚刚完成时使用，因为批量抓取作业会在24小时后过期。

{
  "success": true,
  "id": "123-456-789",
  "url": "https://api.firecrawl.dev/v1/batch/scrape/123-456-789"
}

开始使用

功能

测试版功能

集成

贡献

发布周 II (新)

第7天 - 更快的 Markdown 解析

新特性

第6天 - 移动端抓取 (+ 移动端截图)

为什么需要移动端抓取？

使用方法

第5天 - 操作 (2个新操作)

示例

输出

第4天 - 高级 iframe 抓取

技术创新

为什么它很重要

使用方法

第3天 - 信用包

信用包

自动充值信用额度

第2天 - 地理位置

工作原理

使用方法

第1天 - 批量抓取

工作原理

使用方法

响应

同步

异步

开始使用

功能

测试版功能

集成

贡献

Documentation Index

​第7天 - 更快的 Markdown 解析

​新特性

​第6天 - 移动端抓取 (+ 移动端截图)

​为什么需要移动端抓取？

​使用方法

​第5天 - 操作 (2个新操作)

​示例

​输出

​第4天 - 高级 iframe 抓取

​技术创新

​为什么它很重要

​使用方法

​第3天 - 信用包

​信用包

​自动充值信用额度

​第2天 - 地理位置

​工作原理

​使用方法

​第1天 - 批量抓取

​工作原理

​使用方法

​响应

​同步

​异步

第7天 - 更快的 Markdown 解析

新特性

第6天 - 移动端抓取 (+ 移动端截图)

为什么需要移动端抓取？

使用方法

第5天 - 操作 (2个新操作)

示例

输出

第4天 - 高级 iframe 抓取

技术创新

为什么它很重要

使用方法

第3天 - 信用包

信用包

自动充值信用额度

第2天 - 地理位置

工作原理

使用方法

第1天 - 批量抓取

工作原理

使用方法

响应

同步

异步