Firecrawl

Webページの情報をAIに読み込ませたいのに、HTMLのタグやナビゲーション、広告が邪魔で前処理に時間がかかる——。生成AIを業務に組み込む開発者が増えるなか、こうした「ウェブデータの整形問題」は共通の課題です。Firecrawlは、この課題をAPI一本で解決するために生まれたサービスです。 Firecrawlの正体 — WebデータをAIに届けるAPI基盤 Firecrawl（ファイヤークロール）は、任意のWebページやサイト全体をLLM（大規模言語モデル）向けのクリーンなMarkdownや構造化JSONに変換するAPIサービスです。URLを指定するだけで、広告・ナビゲーション・フッターなどの不要要素を自動除去し、本文コンテンツだけを抽出できます。従来のスクレイピングツールとの最大の違いは、AI連携を前提として設計されている点です。取得データは最初からRAG（検索拡張生成）パイプラインやAIエージェントに投入できる形式で提供されるため、開発者がHTMLパーサーやクリーニング処理を自前で書く必要がありません。 JavaScriptで動的にレンダリングされるSPA（Single Page Application）にも対応しており、Puppeteer等のヘッドレスブラウザを個別にセットアップする手間も省けます。読み方・開発元・資金調達 Firecrawlの読み方は「ファイヤークロール」です。英語の Fire（火）と Crawl（巡回する）を組み合わせた造語で、ウェブを高速に巡回してデータを取得するというサービスの特性を表しています。開発元は米サンフランシスコ拠点のスタートアップで、Y Combinator S22バッチ出身です。もともとは「Mendable」という名前で、ドキュメントに対してチャットで質問できるAI製品を開発していました。Snapchat、MongoDB、Coinbaseなどの企業にMendableを提供する過程で「WebデータをAIに取り込むインフラ」の需要を発見し、Firecrawlとして独立・社名変更しました（出典: Y Combinator）。 2025年8月には、Nexus Venture Partners主導でシリーズAラウンド1,450万ドル（約22億円）の資金調達を完了しています。Zapier、Shopify CEOのTobias Lütke氏、Postman CEOのAbhinav Asthana氏などが出資に参加しました（出典: Firecrawl公式ブログ）。 GitHubのスター数は約80,000を超え（2026年2月時点）、ScrapyやCrawleeを抜いてオープンソースWebスクレイパーとして最多スターを獲得しています（出典: GitHub）。登録開発者数は35万人以上、主要顧客にはZapier、Shopify、Replitなどが含まれます。 6つのAPIエンドポイントと用途 Firecrawlが提供するAPIは、大きく6つのエンドポイントに分かれます。用途に応じて使い分けることで、単一ページの即時取得からサイト全体の一括収集まで幅広いシナリオに対応できます。 Scrape — 単一ページの即時変換 /scrape エンドポイントは、指定したURLのページを1件取得し、Markdown・HTML・構造化JSON・スクリーンショットなどの形式で返却します。FirecrawlのAPIの中で最も基本的かつ利用頻度の高い機能です。 Pythonでの基本コード例: from firecrawl import FirecrawlApp app = FirecrawlApp(api_key="fc-YOUR-API-KEY") result = app.scrape_url("https://example.com") print(result["markdown"]) 内部でJavaScriptレンダリングが行われるため、SPAやReactで構築されたページでもコンテンツを取得可能です。waitForパラメータでレンダリング完了の待機時間を指定したり、actionsパラメータでクリック・スクロールなどのブラウザ操作を追加することもできます。 Crawl — サイト丸ごとの非同期収集 /crawl エンドポイントは、指定したURLを起点にリンクをたどり、サイト全体のページを一括取得します。非同期で処理されるため、大規模サイトでもタイムアウトの心配がありません。 crawl_result = app.crawl_url( "https://example.com", params={"limit": 100, "scrapeOptions": {"formats": ["markdown"]}} ) for page in crawl_result: print(page["markdown"][:200]) limitパラメータで取得ページ数の上限を設定でき、includePathsやexcludePathsで対象を絞り込むことも可能です。ジョブIDが発行されるため、進行状況の確認やキャンセルもAPIから行えます。 Map — URL構造の高速マッピング /map エンドポイントは、サイト内のURL一覧を高速に取得します。Crawlと異なり各ページのコンテンツは取得せず、URL構造の把握に特化しています。 map_result = app.map_url("https://example.com") print(f"発見URL数: {len(map_result['links'])}") サイトマップの確認やCrawl対象の事前選定に役立ちます。消費クレジットは1回あたり1クレジットと低コストです。 Extract — プロンプト指定の構造化抽出 /extract エンドポイントは、URLリスト（ワイルドカード対応）と自然言語プロンプトまたはJSONスキーマを指定して、構造化データを抽出します。「このページから会社名・設立年・従業員数を取り出して」といった指示が可能です。 schema = { "type": "object", "properties": { "company_name": {"type": "string"}, "founded_year": {"type": "integer"}, "employee_count": {"type": "integer"} } } result = app.extract( ["https://example.com/about"], params={"schema": schema} ) print(result["data"]) 複数ページからの大規模データ収集にも対応しており、比較表やデータベースの構築に適しています。 ...