タグ付けされた質問 「web-crawler」

7
Webサイトをクロールするときに善良な市民になるには?
さまざまな公開Webサイトをクロールし、それらのデータを処理/集約する機能を開発します。電子メールアドレスを探すことほど厄介なことはありません。実際、サイトへのトラフィックを実際に増やす可能性があるものです。しかし、私は脱線します。 敬意以外robots.txtに、(a)悪意のあるように見えて禁止されている可能性を回避し、(b)サイト所有者/ウェブマスターに問題を引き起こさないために、従うべきルールまたはガイドラインはありますか? 私が考えることができるいくつかの例は重要かもしれないしそうでないかもしれません: 並列リクエストの数 リクエスト間の時間 クロール全体の時間 潜在的に破壊的なリンクの回避(スパイダーオブドゥームになりたくない-しかし、これが実用的かどうかを知っている人) しかし、それは実際には単なる吐き出しです。クモを書いたり利用したりしようとする人に広く適用できる実証済みの知恵はありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.