クロールバジェットとは?Googleが定めるクロール上限の仕組みと8つの改善施策
大規模サイトを運営していて「新しいページがなかなか検索結果に反映されない」「一部のページだけインデックスされない」という問題に直面することがあります。原因のひとつがクロールバジェットの不足です。 クロールバジェットとは、Googlebotがあるサイトに対して一定期間内にクロール(巡回・情報収集)できるURLの上限枠を指します。Google公式ドキュメントでは「Googleがクロール可能であり、かつクロールを希望するURLの集合」(the set of URLs that Google can and wants to crawl)と定義しています。 出典: Google検索セントラル「大規模サイトのクロール バジェット管理」 ただし注意すべき点として、Google自体は「クロールバジェット」という用語を正式には採用していません。2017年1月の公式ブログでは「クロールの割り当てが表すあらゆるものを一言で説明できるような言葉はない」と明言されています。SEO業界で慣例的に使われている概念であり、Googleが内部的に管理しているクロールのリソース配分を便宜的に呼んだものです。 クロールバジェットを決定する2つの要素 Googlebotのクロール上限は、 クロール容量の上限(Crawl Capacity Limit) と クロール需要(Crawl Demand) の2つの要素で決まります。 クロール容量の上限(Crawl Capacity Limit) Googlebotが特定のサイトに同時接続できる数の上限です。サーバーに過度な負荷をかけないよう、Google側が自動的に調整しています。 以下の要因によって変動します。 影響要因 容量が増加する場合 容量が減少する場合 サーバー応答速度 レスポンスが高速・安定 レスポンスが遅い・タイムアウト多発 サーバーエラー 5xx系エラーが少ない 5xx系エラーが頻発 Google側リソース 十分なクローラーリソースがある クローラーリソースが逼迫 クロール需要(Crawl Demand) Googleがそのサイトを「どれだけクロールしたいか」という必要性の度合いです。次の3点が需要を左右します。 認知済みURL数(Perceived inventory): Googleが把握しているサイト内のURL総数。多いほどクロール需要は高まります 人気度: 外部リンクやアクセス数が多いURLほど頻繁にクロールされます 鮮度(Staleness): コンテンツの更新頻度が高いサイトはクロール需要が上がります つまり、サーバーが高速で安定しているほどクロール容量は拡大し、人気が高く更新頻度も高いサイトほどクロール需要も高まる構造です。 クロールバジェットの影響を受けるサイト・受けないサイト すべてのサイトがクロールバジェットを意識する必要があるわけではありません。Google公式ドキュメントによると、クロールバジェット管理が特に必要なのは以下のケースです。 クロールバジェットを気にすべきサイト: ページ数が100万を超える大規模サイト(ECサイト、求人サイト、不動産ポータルなど) 1万ページ以上で毎日コンテンツが更新される中規模サイト(ニュースサイト、メディアなど) URLパラメータで大量の重複ページが生成されるサイト Google Search Consoleの「検出 - インデックス未登録」が多数報告されているサイト クロールバジェットを気にしなくてよいサイト: ページ数が数千以下の小規模サイト 新しいページが公開当日にクロールされているサイト コンテンツ更新頻度が低い企業サイトやブログ Google公式ガイドにおいても、対象読者は「100万ページ以上の大規模サイト」または「1万ページ以上で毎日更新がある中規模サイト」で、インデックスの遅延問題が発生しているケースとされています。 出典: Google検索セントラル「大規模サイトのクロール バジェット管理」 ...