やりたいこと
ユーザーエージェントのアクセスログを確認したところ、特定のクローラーからのアクセスが増大していた。
ページの表示が遅延したりエラーが発生していたのは、クローラーのアクセス過多が原因だった。
そこで、サーバーに負荷が掛かっているクローラーのアクセスを制御する。
手順
アクセス頻度の高いクローラーはMJ12bot、SemrushBot、Seekport Crawlerの3つ。
上記に対して、10分に1回のアクセスとなるよう、robots.txtに以下を追記する。
User-Agent: MJ12bot Crawl-delay: 600
User-agent: SemrushBot Crawl-delay: 600
User-Agent: Seekport Crawler Crawl-delay: 600
アクセス拒否の場合
アクセスを完全に拒否する場合、Crawl-delayの行の代わりに以下を記載する。
Disallow: /