robots.txtの役割
クローラーにインデックスしてほしくないページやディレクトリを知らせるためのもの。サイトマップ(sitemap.xml)を知らせる
クローラーがアクセスしてきた時に最初にrobots.txtを探し、見つかればその記述に設定されているそうです。(※例外もあり)
記述方法
1)制限したいクローラーを記述
すべてのクローラーが対象
User-agent: *
Googlebotが対象
User-agent: Googlebot
2)制限対象のディレクトリ又はファイル名
Disallow: ファイルorディレクトリ
backupというディレクトリを指定
Disallow:/backup/
wp-adminディレクトリ
Disallow:/wp-admin/
.phpファイルを拒否
Disallow: /*.php$
特に制限しない場合
Disallow:
3)サイトマップのURL
sitemap.xmlのURLを1行あけて記述
サンプル
User-Agent: *
Disallow: /
http://example.com/sitemap.xml
robots.txtの注意事項
いくつかのサイトにも記載されていましたが、
robots.txtは全てのWebクローラーに対して厳密に動作するわけではありません。
robots.txtに強制力はなく、お願いする程度の効果しか無いということ。
また、robots.txtはだれでもURLを直接たたけば閲覧可能なので、見られたく無いディレクトリが一目瞭然になります。
なので、プログラムの管理ページや個人情報を管理しているフォルダなどにはユーザー認証、SSL暗号化などの対策が必須です。
参考サイト