タグ付けされた質問 「web-crawler」

4
会社は私のウェブサイトをクロールする権利を暗示していますか?
McAfee SiteAdvisorがWebサイトを「セキュリティの問題がある可能性がある」と報告していることがわかりました。 McAfeeが自分のWebサイトについてどう思うかはあまり気にしません(自分でセキュリティを確保できますが、そうでない場合、McAfeeは間違いなく私が助けを求めている会社ではありません、ありがとうございました)。しかし、私を悩ませているのは、彼らが私の許可なしに私のウェブサイトをクロールしたようです。 明確にするために:私のウェブサイトにはまだほとんどコンテンツがなく、私の個人的な使用のためのいくつかのプレースホルダーといくつかのファイルがあります。ToSはありません。 私の質問は次のとおりです。McAffeeは私のウェブサイトからコンテンツをダウンロード/クロールする権利を持っていますか?禁止することはできますか?ある種の「私の城、私のルール」の原則があるべきだと感じていますが、基本的にすべての法的事項については何も知りません。 更新:おそらく、サーバープロバイダーがSiteAdvisorの調査結果に関するメールを定期的に私に送信することを言及すべきでした。

3
サイトはプロキシまたは企業ネットワークの背後にあるボットをどのように検出しますか
大規模なサイト(Wikipediaなど)は、他のIPマスカの背後にあるボットをどのように処理しますか?たとえば、私の大学では、誰もがウィキペディアを検索し、かなりの負荷をかけています。しかし、私が知る限り、ウィキペディアは大学のルーターのIPしか知ることができないので、「要求の間にわずかな遅延がある」「解放された」ボットを設定すると、ウィキペディアは組織全体を禁止せずにボットを禁止できますか?サイトは実際に組織ネットワークの背後でIPを禁止できますか?

4
特定のISPに属するすべてのIP範囲を見つける
サイトを積極的にこすり続けている特定の個人に問題があります。帯域幅とCPUリソースを浪費しています。私はすでにWebサーバーのアクセスログを調整し、新しいIPをデータベースに追加し、そのIPからのリクエスト数を追跡​​し、同じIPが特定のリクエストのしきい値を超えた場合にシステムを実装しました。一定期間は、iptablesによってブロックされます。複雑に聞こえるかもしれませんが、私が知る限り、特定のIPを特定の帯域幅/要求の量に制限するように設計された既成のソリューションはありません。 これはほとんどのクローラーで正常に機能しますが、非常に永続的な個人は、ブロックされるたびにISPプールから新しいIPを取得しています。ISPを完全にブロックしたいのですが、どうすればいいのかわかりません。 いくつかのサンプルIPでwhoisを実行すると、すべてが同じ「netname」、「mnt-by」、および「origin / AS」を共有していることがわかります。同じmnt-by / AS / netnameを使用して、ARIN / RIPEデータベースにすべてのサブネットを照会する方法はありますか?そうでない場合、他にどのようにすればこのISPに属するすべてのIPを取得できますか? ありがとう。

5
これらの「悪質なボット」は私の閉じたWebサーバーをどのように見つけますか?
少し前にApacheをインストールしましたが、access.logをざっと見てみると、あらゆる種類の不明なIPが接続されていることがわかります。ほとんどの場合、ステータスコードは403、404、400、408です。私のIP。これは個人的な目的でのみ使用し、robots.txtを追加したのは、検索エンジンを遠ざけるためです。インデックスをブロックしますが、本当に重要なことは何もありません。 これらのボット(または人々)はどのようにサーバーを見つけていますか?これが起こることは一般的ですか?これらの接続は危険ですか/それに対して何ができますか? また、多くのIPはあらゆる種類の国からのものであり、ホスト名を解決しません。 以下に、何が発生するかの例を示します。 1回の大規模なスイープで、このボットはphpmyadminを見つけようとしました。 "GET /w00tw00t.at.blackhats.romanian.anti-sec:) HTTP/1.1" 403 243 "-" "ZmEu" "GET /3rdparty/phpMyAdmin/scripts/setup.php HTTP/1.1" 404 235 "-" "ZmEu" "GET /admin/mysql/scripts/setup.php HTTP/1.1" 404 227 "-" "ZmEu" "GET /admin/phpmyadmin/scripts/setup.php HTTP/1.1" 404 232 "-" "ZmEu" 私はこれらをたくさん得る: "HEAD / HTTP/1.0" 403 - "-" "-" たくさんの「proxyheader.php」、GETのhttp://リンクでかなりのリクエストを受け取ります "GET http://www.tosunmail.com/proxyheader.php HTTP/1.1" 404 213 "-" "Mozilla/4.0 (compatible; …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.