クローラーを弾く

 robots.txtにて。アクセスログをチェック、ブラウザレポートからユーザーエージェント名をチェック。ブラウザ名のレポートにあるURLにアクセスしていろいろチェックしたり、ブラウザ名で検索かけたりして。
 とりあえず、多いのは以下のもの。もちろん、GoogleとかBingとかは残す。

User-agent: MJ12bot
Disallow: /
User-agent: XoviBot
Disallow: /
User-Agent: Yandex
Disallow: /
User-Agent: 360Spider
Disallow: /

 これで様子見。
 こんなんで無駄なCPU負荷がかかってしまってはたまったもんではないんである。というメモでした。

コメント

タイトルとURLをコピーしました