AIクローラー対策の全手法|robots.txt・.htaccess・Cloudflareによるブロック設定を徹底解説
生成AIの普及にともない、Webサイトのコンテンツを無断で収集する「AIクローラー」が急増しています。サーバー負荷の増大やコンテンツの無断利用といったリスクに直面するサイト運営者にとって、適切な対策は急務です。 本記事では、robots.txtの基本設定から.htaccessによる強制ブロック、Cloudflare AI Crawl Controlの活用、レンタルサーバーのワンクリック設定、さらにllms.txtによるAI向け情報提供まで、実践的な防御手法を体系的にまとめています。 AIクローラーの仕組みと従来型クローラーとの違い AIクローラーとは、大規模言語モデル(LLM)の学習データ収集やAI検索エンジンの回答生成を目的として、Webサイトを自動巡回するプログラムです。従来の検索エンジンクローラー(Googlebotなど)がインデックス作成を目的とするのに対し、AIクローラーはモデルのトレーニングやリアルタイム情報取得に利用される点が異なります。 サイト運営者が受ける影響 AIクローラーによるアクセスは、以下の問題を引き起こす可能性があります。 サーバー負荷の増大: 短時間に大量のリクエストが集中し、通常のユーザーアクセスに支障が出る コンテンツの無断利用: 記事や画像がAIモデルの学習素材として許可なく使われる 著作権侵害のリスク: AIが生成した回答に自サイトのコンテンツが無断で含まれる場合がある 広告収益の低下: AI検索が直接回答を返すことで、サイトへの流入が減少する 主要AIクローラーのユーザーエージェント一覧 対策を講じるためには、まずブロック対象となるAIクローラーを把握する必要があります。以下は2026年2月時点での主要なAIクローラーと、その運営元・用途の一覧です。 ユーザーエージェント 運営元 主な用途 robots.txt遵守 GPTBot OpenAI モデル学習用データ収集 遵守を表明 ChatGPT-User OpenAI ユーザーのリクエストによるWebブラウジング 遵守を表明 OAI-SearchBot OpenAI ChatGPT検索機能のインデックス 遵守を表明 ClaudeBot Anthropic モデル学習用データ収集 遵守を表明 Claude-User Anthropic ユーザーリクエストによるWeb取得 遵守を表明 Claude-SearchBot Anthropic 検索品質向上のためのインデックス 遵守を表明 anthropic-ai Anthropic 旧識別子(2024年7月にClaudeBotへ統合、互換性のため残存) 遵守を表明 Google-Extended Google Gemini等のAIモデル学習(検索順位に影響なし) 遵守を表明 Applebot-Extended Apple Apple Intelligence向けデータ収集 遵守を表明 PerplexityBot Perplexity AI AI検索のインデックス 遵守を表明 meta-externalagent Meta LLaMA等のモデル学習 遵守を表明 CCBot Common Crawl オープンデータセット構築 遵守を表明 Bytespider ByteDance TikTok等のAI機能向けデータ収集 一部不遵守の報告あり cohere-ai Cohere モデル学習用データ収集 遵守を表明 SBIntuitionsBot SB Intuitions 日本語LLM向けデータ収集 遵守を表明 公式ドキュメント: ...