SEO・AIO
AIクローラー制御の実務
robots.txtでGPTBot・OAI-SearchBot・ClaudeBot・Google-Extendedをどう扱うか。「学習させない」と「AIに出る」を分けて判断するための実務ガイドです。
この記事の要点
robots.txtは「お願い」です。記述しても従うかどうかは各クローラー運営の方針次第で、強制力はありません。確実にブロックしたい場合はサーバー側のアクセス制御を併用します。
ボットごとに用途が違います。学習用(GPTBot・ClaudeBot・CCBot)と、AIの回答時にWebを参照する検索用(OAI-SearchBot・PerplexityBot)は別物です。一括で同じ扱いにすると、意図しない結果になります。
「AI学習に使わせるか」と「AIの回答に出たいか」は別の問題です。検索用ボットまでブロックすると、ChatGPTやPerplexityの回答に自社が出にくくなります。
— 01
AIクローラーとは何か
AIクローラーとは、AI関連の事業者がWeb上のページを自動で巡回・取得するプログラム(ボット)の総称です。従来の検索エンジンのクローラー(GoogleのGooglebotなど)と仕組みは似ていますが、取得したコンテンツの使い道が異なります。
AIクローラーの使い道は、大きく2系統に分かれます。この区別が本記事の最重要ポイントです。
| 系統 | 何のために取得するか | 代表的なボット |
|---|---|---|
| 学習用 | 基盤モデル(大規模言語モデル)の学習データとして使う | GPTBot、ClaudeBot、CCBot |
| 検索・参照用 | AIがユーザーの質問に答える際、リアルタイムでWebを参照し回答や引用に使う | OAI-SearchBot、PerplexityBot |
学習用ボットをブロックすると、自社コンテンツがモデルの学習に使われにくくなります。一方、検索・参照用ボットをブロックすると、AIがその場でWebを参照して答えるとき、自社が回答に登場しにくくなります。狙いが正反対になりうるため、まとめて同じ扱いにしないことが大切です。
なお、1つのボットでも複数の用途を持つ場合や、運営側が仕様を更新する場合があります。最新の挙動は各社の公開ドキュメントで確認してください。
— 02
主要なAIクローラー一覧と用途
robots.txtで扱う対象となる、主要なボットを用途とともに整理します。User-agent名(robots.txtで指定する識別子)も併記します。
| User-agent | 運営 | 主な用途 |
|---|---|---|
| GPTBot | OpenAI | 基盤モデルの学習用にコンテンツを収集 |
| OAI-SearchBot | OpenAI | ChatGPTの検索機能で、回答に表示・引用するための参照 |
| ChatGPT-User | OpenAI | ユーザーがChatGPT上で操作した際、その場でページを取得(ユーザー起点のアクセス) |
| ClaudeBot | Anthropic | 基盤モデルの学習用にコンテンツを収集 |
| PerplexityBot | Perplexity | 検索・回答用にWebを参照しインデックス化 |
| CCBot | Common Crawl | 公開Webを広く収集するクローラー(収集データが各社のAI学習等に利用されることがある) |
| Google-Extended | 独立したクローラーではなく、クロール済みコンテンツのGemini等への利用可否を制御するトークン |
ここで特に区別したい対象が、OpenAIの3つです。GPTBotは学習用、OAI-SearchBotはChatGPTの検索結果に表示するための参照用、ChatGPT-Userはユーザーの操作に応じたその場での取得です。「OpenAIを全部ブロックしたい」と一括で扱うと、検索結果への露出まで失う可能性があります。目的に応じて分けて指定してください。
CCBotはCommon Crawlのクローラーで、特定のAI企業専用というより、広く公開Webを収集してデータセットを公開する性質のものです。そのデータが各社の学習に二次利用されることがあるため、AI学習を避けたい場合の検討対象に挙がります。
ボット名・仕様は更新されることがあります。導入前に各社の最新ドキュメントで名称と用途を確認してください。
— 03
Google-Extendedの正体——よくある誤解
AIクローラー制御でもっとも誤解が多い対象がGoogle-Extendedです。正確に押さえておきます。
Google-Extendedは、独立したクローラーやUser-Agentではありません。GoogleがWebをクロールする際に使うのは従来どおりGooglebotであり、Google-Extendedという別のボットがページを取得しに来るわけではありません。Google-Extendedは、すでにGooglebotがクロール済みのコンテンツを、GeminiなどのGoogleのAIモデルの学習やグラウンディング(回答の根拠付け)に使ってよいかどうかを、サイト運営者がrobots.txtで意思表示するためのトークンです。
ここから導かれる重要な帰結があります。
- Google-Extendedをブロックしても、Google検索のクロールやランキングには影響しません。Googlebotによる通常のクロール・インデックス・順位付けはそのまま続きます。あくまで「AIへの利用可否」だけを切り分ける仕組みです。
- したがって、「Google検索には今までどおり出したいが、自社コンテンツをGoogleのAI学習・生成には使わせたくない」という方針があれば、Google-Extendedをブロックする選択が成り立ちます。検索順位を犠牲にせずにAI利用だけを制御できる、数少ない仕組みです。
robots.txtでの指定は次のとおりです。
User-agent: Google-Extended
Disallow: /繰り返しますが、これはGoogle検索の順位とは無関係です。検索の挙動を変えるものではありません。
— 04
robots.txtの基本記法
ここで、robots.txtそのものの基本を確認します。robots.txtは、サイトのルート直下(https://example.com/robots.txt)に置く、クローラー向けの指示を書いたテキストファイルです。
主に使うのは3つのフィールドです。
- User-agent:指示の対象とするクローラーを指定します。User-agent: GPTBot のように個別指定するほか、User-agent: * ですべてのクローラーを対象にできます。
- Disallow:クロールを控えてほしいパスを指定します。Disallow: / でサイト全体、Disallow: /private/ で特定ディレクトリを対象にします。Disallow:(値が空)は「制限なし」を意味します。
- Allow:Disallowで広く制限した中から、例外的に許可するパスを指定します。
記述の基本ルールは次のとおりです。
- ブロック単位はUser-agentごとです。1つのUser-agentに対する指示を空行で区切って並べます。
- 特定のUser-agentにマッチする記述がある場合、そのボットは * の指示ではなく自分宛ての記述に従います。GPTBot向けに個別ブロックを書いたら、GPTBotは User-agent: * のブロックを参照しません。両方に効かせたい指示は、個別ブロックにも書く必要があります。
- 大文字・小文字:User-agent名の照合は一般に大文字小文字を区別しない実装が多いですが、ドキュメント表記どおりに書くと無難です。
記述例(GPTBotだけサイト全体をブロックし、他はデフォルトのまま):
User-agent: GPTBot
Disallow: /
User-agent: *
Disallow:ここで根本的な前提を改めて強調します。robots.txtはあくまで「お願い」であり、技術的な強制力はありません。行儀のよいクローラーは記述を尊重しますが、無視するクローラーが存在しないとは限りません。確実に遮断したい場合は、後述するサーバー側のアクセス制御(User-AgentやIPでの拒否)を併用してください。robots.txtは「正規の事業者に意思を伝える手段」と位置づけると実態に即しています。
— 05
「学習させない」と「AIに出る」は別問題
ここが、実務でもっとも判断を誤りやすいところです。多くの担当者が「AIに自社データを使われたくない」と「AIの回答に自社を出したい」を混同してしまいます。この2つは別の軸です。
- 「AI学習に使わせるか」:自社コンテンツを、基盤モデルの学習データとして取り込ませるかどうか。これを避けたいなら、学習用ボット(GPTBot・ClaudeBot・CCBot)やGoogle-Extendedを制御します。
- 「AIの回答に出たいか」:ChatGPTやPerplexityがユーザーの質問に答える際、自社を参照・引用させたいかどうか。出たいなら、検索・参照用ボット(OAI-SearchBot・PerplexityBot)はブロックしてはいけません。
ありがちな失敗が、「AIに使われたくないから」と検索用ボットまで一括でブロックしてしまうことです。その結果、ChatGPTやPerplexityの回答に自社サービスが登場しなくなり、本来得られたはずのAI経由の認知・流入を失います。
整理すると、典型的な方針は次の3つに分かれます。
| 方針 | 学習用(GPTBot等) | 検索・参照用(OAI-SearchBot等) | Google-Extended |
|---|---|---|---|
| A. AIに最大限露出したい(学習も許容) | 許可 | 許可 | 許可 |
| B. AIの回答には出たいが、学習には使わせたくない | ブロック | 許可 | ブロック |
| C. AIとの関わりを最小化したい | ブロック | ブロック | ブロック |
BtoBで「AI検索からの問い合わせも狙いたいが、コンテンツを丸ごと学習されるのは避けたい」という場合は、方針Bが現実的な落としどころになることが多い構図です。どれが正解かは、企業のブランド・知財方針と、AI経由の集客をどこまで重視するかで決まります。
— 06
設定の判断軸——自社はどう決めるか
方針を選ぶための具体的な判断材料を挙げます。
コンテンツの性質
- 公開して広く知られたい情報(サービス紹介、ノウハウ記事、事例):検索・参照用ボットは許可しておくと、AI回答での露出機会が増えます。学習利用は方針次第です。
- 独自性が高く、模倣されたくない情報(独自の方法論、有償級のナレッジ):学習用ボットのブロックを検討します。ただしrobots.txtに強制力がない点は前提です。
- そもそも非公開であるべき情報:robots.txtで制御するより、認証・アクセス制限で公開範囲そのものを管理します。robots.txtに書いたパスは「ここにこういうディレクトリがある」と公開することにもなる点に注意します。
AI経由の集客をどう位置づけるか
AI検索(ChatGPT・Perplexity・AI Overviewsなど)からの認知・流入を取りにいく方針なら、検索・参照用ボットは原則許可です。逆に、AI経由の露出を重視しないなら、より広めにブロックする判断もありえます。自社のリード獲得経路における優先度で決めます。
知財・法務・ブランドの方針
「自社の文章や図版が生成AIの出力に反映されることを許容できるか」は、技術というより経営・法務の判断です。担当者だけで決めず、関係部署と方針をすり合わせてから設定します。robots.txtでの学習拒否は、その方針を技術的に表明する手段の一つという位置づけです。
強制力をどこまで求めるか
行儀のよいクローラーへの意思表示で十分なら、robots.txtだけでも目的を果たせます。確実に遮断する必要があるなら、robots.txtに加えてサーバー側のアクセス制御を併用します。求める確実性のレベルに応じて手段を組み合わせます。
— 07
確認方法と注意点
設定したら、必ず「正しく書けているか」と「実際にどう守られているか」を確認します。robots.txtは書いて終わりではありません。
記述が正しいかを確認する
- ファイルの場所とアクセス:自社ドメイン/robots.txt にブラウザでアクセスし、内容が表示されるか、想定どおりの記述になっているかを確認します。404やサーバーエラーが返る場合、そもそも読まれません。
- 個別指定の効き方:特定ボット向けの記述を書いたら、そのボットは User-agent: * の記述を見なくなる点を再確認します(第4章参照)。「全体をブロックしたつもりが、個別記述のあるボットだけ素通り」という取りこぼしが起きがちです。
- 意図しない全体ブロックがないか:User-agent: * に Disallow: / が紛れていないかを確認します。これがあると検索エンジンのクロールまで止まり、検索流入を失います。
実際に守られているかを確認する
robots.txtは「お願い」のため、書いただけでは遵守状況は分かりません。サーバーのアクセスログを確認し、ブロックしたはずのUser-agent(GPTBotなど)からのアクセスが止まっているか、あるいは続いているかを見ます。ログでUser-agentと取得対象パスを追えば、各ボットが記述に従っているかを実地で検証できます。
- 従っていれば、対象パスへのアクセスが記述後に減少・停止します。
- 従っていない(記述を無視している)ことが分かれば、サーバー側のアクセス制御に切り替える判断ができます。
検索への悪影響がないかを確認する
AIクローラー設定の変更後は、Googlebotなど検索エンジンのクロール・インデックスに影響が出ていないかを、Search Consoleで確認します。Google-Extendedのブロックは検索順位に影響しませんが、誤って User-agent: * に広いDisallowを入れてしまうと検索に影響します。設定変更は検索への副作用とセットで点検します。
定期的な見直し
ボット名や各社の仕様、新しいAIクローラーの登場は流動的です。半年〜1年に一度はrobots.txtを見直し、新規ボットへの対応方針を更新します。
— 08
まとめ:方針別の設定例
最後に、第5章の3方針に対応するrobots.txtの記述例を示します。実際の運用では、自社の方針と最新のボット仕様に合わせて調整してください。
方針A(AIに最大限露出したい・学習も許容):AIクローラー向けの特別な記述は不要です。通常の検索向けrobots.txtのまま、AI系を明示的にブロックしません。
方針B(AIの回答には出たいが、学習には使わせたくない):
# 学習用はブロック
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
# Googleの学習・グラウンディング利用をブロック(Google検索の順位には影響しない)
User-agent: Google-Extended
Disallow: /
# 検索・参照用は許可(AIの回答に出るため)
User-agent: OAI-SearchBot
Disallow:
User-agent: PerplexityBot
Disallow:
# 検索エンジンは通常どおり
User-agent: *
Disallow:方針C(AIとの関わりを最小化したい):
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
# 検索エンジンのクロールは止めない(検索流入を維持)
User-agent: *
Disallow:いずれの例も、User-agent: * に Disallow: / を入れていない点に注目してください。検索エンジンのクロールまで止めないための配慮です。そして繰り返しになりますが、これらの記述は行儀のよいクローラーへの「お願い」であり、遵守は各社の方針次第です。確実な遮断が必要なら、サーバー側のアクセス制御を併用し、設定後はアクセスログで遵守状況を確認してください。
よくあるご質問
robots.txtに書けば、AIに学習されるのを確実に止められますか?
確実ではありません。robots.txtはクローラーへの「お願い」であり、技術的な強制力はありません。行儀のよいクローラーは記述を尊重しますが、無視するクローラーが存在しないとは限りません。確実に遮断したい場合は、サーバー側でUser-AgentやIPによるアクセス制御を併用してください。
GPTBotとOAI-SearchBotは何が違いますか?
どちらもOpenAIのボットですが用途が異なります。GPTBotは基盤モデルの学習用にコンテンツを収集するボット、OAI-SearchBotはChatGPTの検索機能で回答に表示・引用するための参照用ボットです。OAI-SearchBotをブロックすると、ChatGPTの回答に自社が出にくくなります。
Google-Extendedとは何ですか?ブロックすると検索順位は下がりますか?
Google-Extendedは独立したクローラーではなく、Googlebotがクロール済みのコンテンツをGeminiなどのAIの学習・グラウンディングに使ってよいかをrobots.txtで意思表示するためのトークンです。ブロックしてもGoogle検索のクロールやランキングには影響しません。「検索には出したいがAI学習には使わせたくない」場合の選択肢になります。
ClaudeBotは何のためのボットですか?
ClaudeBotはAnthropicのクローラーで、基盤モデルの学習用にコンテンツを収集する用途です。学習に使わせたくない場合のブロック対象になります。
AIに学習されたくないけれど、AIの回答には出たいです。どうすればよいですか?
学習用ボット(GPTBot・ClaudeBot・CCBot)とGoogle-Extendedはブロックし、検索・参照用ボット(OAI-SearchBot・PerplexityBot)は許可します。本記事「まとめ」の方針Bの記述例を参照してください。
「すべてのAIをブロックしたい」場合の注意点はありますか?
検索・参照用ボットまでブロックすると、ChatGPTやPerplexityの回答に自社が登場しなくなり、AI経由の認知・流入を失います。また、User-agent: * に Disallow: / を入れると検索エンジンのクロールまで止まり、検索流入も失います。本記事「まとめ」の方針Cのように、検索エンジンのクロールは止めない形にしてください。
設定が守られているかは、どうやって確認しますか?
サーバーのアクセスログで、ブロックしたUser-agent(GPTBotなど)からのアクセスが止まっているかを確認します。robots.txtは強制力がないため、ログで実際の挙動を見ると確実です。あわせてSearch Consoleで、検索エンジンのクロールに悪影響が出ていないかも点検します。
ボット名や仕様はどこで確認すればよいですか?
各社(OpenAI・Anthropic・Perplexity・Google・Common Crawl)が公開しているクローラー向けドキュメントで、最新のUser-agent名と用途を確認すると確実です。名称や仕様は更新されることがあるため、設定前後で見直してください。
この記事の著者
この記事が向いている方
GPTBotやOAI-SearchBotなどのAIクローラーをrobots.txtでどう扱うべきか迷っているWeb担当・情シスの方
AIに学習されるのは避けたいが、AI検索の回答には自社を出したいBtoB企業の担当者
Google-Extendedをブロックすると検索順位が下がるのか不安な方
設定したrobots.txtが実際に守られているかを確認したい方
— 壁打ち相談
読者のよくある相談
記事を読んだ後に「自分の状況だとどう判断すべきか」を整理するための壁打ち相談を受け付けています。下記のような相談例が当てはまる方は、お気軽にご連絡ください。
Q. AIに学習されたくないけれど、AIの回答には出たいです。
学習用ボットとGoogle-Extendedはブロックし、検索・参照用ボットは許可する方針Bの設計を、自社の現状に合わせて整理します。
Q. Google-Extendedをブロックすると検索順位は下がりますか。
下がりません。検索とAI利用を切り分ける仕組みの位置づけを、自社の方針に沿って一緒に確認します。
Q. 設定が実際に守られているか分かりません。
アクセスログでの遵守確認と、Search Consoleでの検索副作用の点検まで、確認の進め方を壁打ちできます。
上記いずれかが該当する場合、初回30分の壁打ち相談で論点整理に対応します。記事に書ききれない個別事情を踏まえた判断材料が必要な段階こそ、壁打ちが活きやすいフェーズです。
関連するサービス
SEO/AIO支援|Netsujo SIGNAL
検索・AI時代のWeb営業基盤をつくる
公開情報からの無料Web診断、GA4・Search Consoleの分析、robots.txtや構造化データ・計測の実装まで伴走します。検索順位やAI掲載を保証するものではありません。
