クロールを許可するしないの設定

2017.11.22 (水)

特に問題なければせっかくのWEBという公開情報なので、クロールさせるが基本ですが、テストコードやそんなものがたまたまインデックスされて自分のサイト情報として上位に上がってきちゃったら格好悪いとか、あるいはそもそもクローズドなWEBサイトである場合はクロールそのものを禁止します。
とはいってもこの設定はお互いのモラルに基いてというところが基本路線なので、この設定をしたからといって公開されていないというわけではありません。

robot.txt

robot.txtをドキュメントルートに作成して、

User-agent: *
Disallow: /

とやると、すべてのコンテンツがクロールされません。GoogleやYahooなどの大手はこれを読んで守ってくれているようです。Disallow:の後にパスを指定するとそのディレクトリ以下を禁止してくれます。こんな感じになります。

User-agent: *
Disallow: /member

正規表現が使える

これもどこまで本当かわからないのですが、通常の正規表現は使えるようです。トップページのみクロールを許可するという場合は、以下のような感じになると思います。いわゆるホワイトリスト形式です。

User-agent: *
Disallow: /*
Allow: /$

すべてのページを不許可にして、トップだけ許可します。