SEO・AIO
サーバーログでAIクローラーを確認する
robots.txtの設定どおりにGPTBotなどが来ているかを、実データで確かめる方法を解説します。
この記事の要点
robots.txtで許可・拒否を書いても、実際にどのAIクローラーが来ているかは別の話です。アクセスログのUser-Agentを見れば、GPTBotやOAI-SearchBotなどのアクセスがあるかを実データで確認できます。
User-Agentは偽装できます。厳密な確認には、各社が公開するIPレンジやreverse DNSでの照合が要ります。
設定と実態を突き合わせると、意図せず遮断していないか、逆に想定外のボットが来ていないかの手がかりになります。ボット名・仕様は各社の公式ドキュメントで要確認です。
— 01
結論
robots.txtで許可・拒否を書いても、実際にどのAIクローラーが来ているかは別の話です。サーバーのアクセスログのUser-Agentを見れば、GPTBotやOAI-SearchBotなどのアクセスがあるかを実データで確認できます(User-Agentは偽装できるため、厳密な確認にはIP照合が要ります)。設定と実態を突き合わせることで、意図せず遮断していないか、逆に想定外のボットが来ていないかの手がかりになります。
— 02
検証目的
- robots.txtの許可・拒否方針に対して、実際にどのクローラーが来ているか
- 検索用クローラー(回答表示用)を意図せず遮断していないか
- CDNやWAFがクローラーを止めていないか
— 03
前提環境
- Nginx / Apacheのアクセスログ、またはホスティング・CDNが提供するログ
- 注意: 一部のホスティング(例: Vercelなど)は標準のアクセスログ提供が限定的です。取得可否・保持期間は自社環境で確認してください。
— 04
確認するAIクローラー(代表例)
| 名前 | 運営 | 主な用途 |
|---|---|---|
| GPTBot | OpenAI | AIモデルの学習用の収集 |
| OAI-SearchBot | OpenAI | ChatGPTの検索機能で回答に表示・参照するための収集 |
| ClaudeBot | Anthropic | AIモデルの学習用の収集 |
| PerplexityBot | Perplexity | Perplexityの検索結果表示用の収集(ユーザー要求起点のPerplexity-Userとは別) |
| Googlebot | 検索インデックス用(AI Overviewsの土台も兼ねる) |
各ボットの正確なUser-Agent文字列・バージョン・IPレンジは変わることがあります。公開前・運用時は各社の最新の公式ドキュメントで確認してください。
— 05
確認方法
1. User-Agentで抽出する
アクセスログからボットのUser-Agentを含む行を抽出します。
grep -iE 'GPTBot|OAI-SearchBot|ClaudeBot|PerplexityBot|Googlebot' access.log2. ボット別にアクセス数を集計する
grep -ioE 'GPTBot|OAI-SearchBot|ClaudeBot|PerplexityBot|Googlebot' access.log \
| sort | uniq -c | sort -rn3. どのURLが取得されたかを見る
grep -i 'OAI-SearchBot' access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head(フィールド番号はログ形式に合わせて調整してください。)
— 06
注意点
User-Agentは偽装できます
本物か確認するには、各社が公開するIPレンジやreverse DNSでの照合が必要です。照合方法は公式ドキュメントに従ってください(仕様変更に注意)。
学習用と検索用のクローラーは別です
学習用を拒否しても、検索表示用まで拒否すると、AI検索の回答に載る機会を失うことがあります。方針を分けて扱います。
CDN・WAFの遮断に注意します
オリジンのログに来ていなくても、手前で止まっている場合があります。
— 07
本番適用の条件
- ログの保持期間が短いと過去分を追えません。必要な保持期間を確保します。
- ログ形式(combinedなど)に合わせて抽出コマンドを調整します。
— 08
公式ドキュメント
- 各社(OpenAI / Anthropic / Perplexity / Google)のクローラー仕様ページ(公開前に最新を参照)
本記事のUser-Agent文字列・IPレンジ・reverse DNSの照合方法は、公開前・運用時に各社の最新の公式ドキュメントで要確認です。仕様は変わります。
よくあるご質問
robots.txtで許可すれば、AIクローラーは必ず来ますか?
許可はクロールを妨げないという意味であり、必ず来ることを保証するものではありません。巡回するかどうか、どの頻度で来るかは各社のクローラー運営の方針によります。実際に来ているかどうかは、サーバーのアクセスログのUser-Agentが手がかりになります(User-Agentは偽装できるため、厳密にはIP照合が必要です)。
アクセスログのUser-Agentは信用できますか?
User-Agentは送信側が自由に名乗れるため、偽装が可能です。本物のGPTBotなどか厳密に確認するには、各社が公開するIPレンジやreverse DNSでの照合が必要です。照合方法は仕様が変わることがあるため、各社の最新の公式ドキュメントで要確認です。
学習用と検索用のクローラーは、ログでどう見分けますか?
User-Agent名で区別します。たとえばOpenAIでは、学習用がGPTBot、ChatGPTの検索表示用がOAI-SearchBotと名称が分かれています。学習用を拒否しても検索表示用まで拒否すると、AI検索の回答に載る機会を失うことがあるため、名称ごとに分けて扱います。名称・仕様は各社の公式ドキュメントで要確認です。
Vercelなどのホスティングでもアクセスログは取れますか?
取得可否や保持期間はホスティング・CDNの仕様に依存します。一部の環境では標準のアクセスログ提供が限定的です。オリジンのログに来ていなくても、手前のCDNやWAFで止まっている場合もあります。自社環境での取得可否・保持期間は実環境で要確認です。
Netsujo SIGNALでは何をしてもらえますか?
robots.txtの方針設計、構造化データ、計測(GA4・Search Consoleなど)の設定までを一貫して整える支援を提供します。ログでの実アクセス確認と設定の突合も進め方に含められます。検索順位やAIの回答への掲載を保証するものではありません。
この記事の著者
この記事が向いている方
robots.txtの設定どおりにAIクローラーが来ているか実データで確認したいWeb担当・情シスの方
GPTBotやOAI-SearchBotのアクセスがあるかをアクセスログで見たいエンジニア
検索表示用クローラーを意図せず遮断していないか点検したい方
CDNやWAFがクローラーを止めていないか確かめたい方
— 壁打ち相談
読者のよくある相談
記事を読んだ後に「自分の状況だとどう判断すべきか」を整理するための壁打ち相談を受け付けています。下記のような相談例が当てはまる方は、お気軽にご連絡ください。
Q. robots.txtで許可したのに、AIクローラーが来ているか分かりません。
アクセスログのUser-Agent抽出から、実際に来ているボットの確認手順を一緒に整理します。
Q. User-Agentは信用できますか。偽装の見分け方は。
IPレンジやreverse DNSでの照合の位置づけと、公式ドキュメントの参照先を確認します。
Q. Vercelなどの環境でログが取れるか不安です。
ホスティング・CDNの取得可否と保持期間の確かめ方を、自社環境に合わせて壁打ちできます。
上記いずれかが該当する場合、初回30分の壁打ち相談で論点整理に対応します。記事に書ききれない個別事情を踏まえた判断材料が必要な段階こそ、壁打ちが活きやすいフェーズです。
関連するサービス
SEO/AIO支援|Netsujo SIGNAL
検索・AI時代のWeb営業基盤をつくる
robots・構造化データ・計測まで一貫して整えます。ログでの実アクセス確認と設定の突合も進め方に含められます。検索順位やAI掲載を保証するものではありません。
