迷惑クローラー 欧州より

October 26 [Mon], 2015, 19:15
ネット上で新規事業を立ち上げるのは簡単ですが、事を急いで信用を失うのも簡単です。

昨日から不振なクローラーが来ています。
 UAが Riddler (http://riddler.io/about) というやつです。
サイトを見ると、なにやらコンテンツサービスっぽいですが、事業者とか詳細不明。

まず、何度も何度も robots.txtを読みます。
 ちゃんと読んで理解しているなら良いのですが・・・ 続いて、 sitemap.xml を読みます。
それも、 {何度も何度も何度も続けて読み出し}× {断続的に繰り返す}
 sitemap を断続的に繰り返し読むというだけなら、更新頻度を調べているとも考えられますが、
 連続して何度も読むのは理解不能。
 そもそも robots.txtをちゃんと理解しているなら、これはルール違反でしょ。
という訳で、念のため .htaccessで規制。

で、今日はついに本性を暴露!!
サイト内のいろんなページに対して GET を続けて送って来ました。
先に入手してあった sitemapから取得したページを手当たり次第に読みだそうとしている様子です。
間一髪規制が間に合った感じですが、403がたくさん出るのも迷惑です。
ここは当然、ルータ規制です。
 node2.riddler.io と node3.riddler.io で、このアドレスを含むIPブロックを規制しました。
発信元は ドイツの会社のようで、ドイツ国内とフランスのホスティング会社(プロキシ?)から来ています。
 node1.riddler.io というのもあるようですが、は今のところは来ていません

[2015/11/22追記]
node-de-1.riddler.io と 5.9.121.118 o7.fi からも
UAが Riddler (http://riddler.io/about) でサイトマップを見に来ました。
直前に robots.txtを読むのも同じパターンです。
先日の規制で 403です。数回読みだそうとして、とりあえず退散した様子。

  • URL:http://yaplog.jp/bellstek/archive/51
Comment
小文字 太字 斜体 下線 取り消し線 左寄せ 中央揃え 右寄せ テキストカラー 絵文字 プレビューON/OFF

不正な自動コメント投稿を防ぐため、チェックボックスにチェックをしてください。

利用規約に同意
 X 
禁止事項とご注意
※本名・メールアドレス・住所・電話番号など、個人が特定できる情報の入力は行わないでください。
「ヤプログ!利用規約 第9条 禁止事項」に該当するコメントは禁止します。
「ヤプログ!利用規約」に同意の上、コメントを送信してください。
ヤプログ!広告
プロフィール
  • プロフィール画像
  • アイコン画像 ニックネーム:admin@bellstek.net
  • アイコン画像 現住所:大阪府
読者になる
メールフォーム

TITLE


MESSAGE