robots.txtでブロックするボットとスパイダーはどれですか?


14

のために:

  1. ウェブサイトのセキュリティを強化する
  2. 帯域幅の要件を減らす
  3. メールアドレスの収集を防ぐ

回答:


17

電子メールを収集したり、サイトの脆弱性をテストしたりするボットは、robots.txtを尊重しません。実際、これらの悪意のあるボットはrobots.txtを見て、サイトをより適切にマッピングします。あなたが持っているポイントがある場合、Disallow:これはあなたのサイトをより良く攻撃するために使用されます。あなたのサイトを手動で見ているハッカーは、あなたが拒否しようとしているファイル/ディレクトリを調べるのに余分な時間を費やすべきです。


3
興味深い点。そのようなボットを自動的にブロックできるようにそのようなボットを捕まえることが唯一の目的である偽のページを許可リストに追加するのは理にかなっているのだろうか。
スティーブンスディット

5
@Steven Suditそれは悪い考えではありません。これはハニーポットと呼ばれます。
ルーク

はい、そうです。ディレクトリコンパイラ(電話帳など)の少数の偽エントリを追加して、大規模な盗難を検出するという標準的なトリックを考えていましたが。
スティーブンスディット

そのハニーポットをターピットとしても使用すると、illegitインデクサーも混乱させます。これは実際にはスパマーによく行われます-ハニーポットインデックス可能な電子メールアドレスを残して、ターピットメールサーバーに接続します。
マークヘンダーソン

@Farseekerルールを破った人を罰することに問題はないと思います。不正なデータでスパマーをだますことは興味深いひねりです。
ルーク

4

robots.txtはWebサイトのセキュリティを強化したり、電子メールアドレスの収集を防止したりしません。robots.txtは、検索エンジンがWebサイトのセクションをスキップするためのガイドです。これらはインデックスに登録されないため、パブリック検索エンジンに表示したくないセクションに使用する必要があります。

ただし、これにより、他のボットがサイト全体をダウンロードしてセキュリティを強化したり、電子メールの収集を防止したりすることは決してありません。セキュリティを強化するには、認証を追加し、保護されたセクションを超えて認証されたユーザーのみを許可する必要があります。電子メールアドレスの収集を防ぐには、Webサイトに電子メールをプレーンテキスト(または簡単に解読できるテキスト)で入れないでください。


1

robots.txtはセキュリティには役立ちません。怪しい何かをしたいボットは、とにかくそれを無視します。


0

robots.txtファイルは、ボットとスパイダーが特定のコンテンツをそのままにするというリクエストとしてのみ機能します。実際にアクセスを防ぐことはできません。「良い」ボットはそれを尊重しますが、「悪い」ボット(おそらくブロックしたいボット)はそれを無視し、とにかく処理します。


-1

robots.txtの代わりに、CAPTCHAコードを使用する必要がある場合があります。


CAPTCHAコードは、Webクローラーとは関係ありません(robots.txtが扱うものです)。
user48838

それは誤った下票でした。全体のポイントは、クローラーがrobots.txtを無視できることですが、CAPTCHAコードは完全にブロックしなければ、少なくとも遅くします。間違ってくれてありがとう。
スティーブンスディット
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.