WEB Tips デザイン・コーディング

robots.txtとクロール最適化 まとめ

本記事にはプロモーションが含まれている場合があります。

robots.txtとクロール最適化 まとめ

robots.txtの役割

クローラーにインデックスしてほしくないページやディレクトリを知らせるためのもの。サイトマップ(sitemap.xml)を知らせる

クローラーがアクセスしてきた時に最初にrobots.txtを探し、見つかればその記述に設定されているそうです。(※例外もあり)

記述方法

1)制限したいクローラーを記述

すべてのクローラーが対象

User-agent: *

Googlebotが対象

User-agent: Googlebot

2)制限対象のディレクトリ又はファイル名

Disallow: ファイルorディレクトリ

backupというディレクトリを指定

Disallow:/backup/

wp-adminディレクトリ

Disallow:/wp-admin/

.phpファイルを拒否

Disallow: /*.php$

特に制限しない場合

Disallow:

3)サイトマップのURL

sitemap.xmlのURLを1行あけて記述

サンプル

User-Agent: *
Disallow: /

http://example.com/sitemap.xml

robots.txtの注意事項

いくつかのサイトにも記載されていましたが、

robots.txtは全てのWebクローラーに対して厳密に動作するわけではありません。

robots.txtに強制力はなく、お願いする程度の効果しか無いということ。

また、robots.txtはだれでもURLを直接たたけば閲覧可能なので、見られたく無いディレクトリが一目瞭然になります。
なので、プログラムの管理ページや個人情報を管理しているフォルダなどにはユーザー認証、SSL暗号化などの対策が必須です。

参考サイト

Googlebotを手懐ける!robots.txtの書き方とrobots.txtテスターの使い方

今月キャンペーン特典があるサービス

  • エックスサーバー
    利用料最大35%キャッシュバックで月額費用643円&ドメイン永久無料 - 2023年11月28日(月)12:00まで
  • ConoHa WING
    WINGパック36ヶ月で月額643円 55%OFF - 2023年11月30日(木)16:00まで
  • カラフルボックス
    ドメイン永久無料特典とBOX2以上の月額費用が50%OFFのクーポンコード「SERVER50

-WEB Tips, デザイン・コーディング