過剰なHTTP帯域幅の使用を動的にブロックしますか?


24

6月4日のWebトラフィックのCactiグラフでこれを見て少し驚きました。

IISログでLog Parserを実行しましたが、これはYahooとGoogleのボットが私たちのインデックスを作成するという完璧な嵐でした。痛い?

GoogleやYahooをブロックしたくはありませんが、これは以前からありました。Cisco PIX 515Eにアクセスできます。Webサーバーに直接触れることなく、帯域幅違反者に動的に対処できるように、それを前に置くことを考えています。

しかし、それが最良の解決策ですか?理想的にはリアルタイムで、過剰な帯域幅の使用を識別してブロックするのに役立つソフトウェアまたはハードウェアがあるかどうか疑問に思っていますか?おそらく、Webサーバーの前に配置できるハードウェアやオープンソースソフトウェアが少しあるでしょうか?

私たちはほとんどがWindowsショップですが、Linuxのスキルもいくつかあります。PIX 515Eで十分でない場合は、ハードウェアを購入することもできます。あなたは何をお勧めします?

回答:


23

PIXがバージョン7.2以降のOSを実行している場合、またはそれにアップグレードできる場合は、ファイアウォールレベルでQOSポリシーを実装できます。特に、これによりトラフィックをシェーピングでき、ボットが使用する帯域幅を制限できるはずです。シスコはここでこれをよく理解しています


私がこの回答で持っている唯一の問題は、ポスターがグーグルやヤフーをブロック(または劣化)させたくないが、むしろ「いいクロール」をしたいということです。
KPWINC 2009年

1
QOSはブロッキングに関するものではありません。サムコーガンが「ボットが使用する帯域幅を制限できる」と書いたのはそのためです。
ピョートルドブロゴスト

9

yahooについてはわかりませんが、Googleのボットがサイトにインデックスを付ける頻度を設定できます。見ていGoogleのウェブマスターを。Yahooに同様のものがあるかどうかはわかりません。トラフィックが最大50%減少します。

または、一部のWebサーバーは接続ごとにトラフィックを制限できるため、それを試すことができます。私は個人的にはハードウェアソリューションには近づかないでしょう。コストがかかる可能性が最も高いからです。


Yahoo! サイトエクスプローラーがあります。
逆上

9

クロールの負荷を減らす-これは、MicrosoftとYahooでのみ機能します。Googleの場合、ウェブマスターツール(http://www.google.com/webmasters/)を使用して、クロール速度を遅くする必要があります。

クロールの速度を上げすぎると、ロボットがサイトのすべてにアクセスできなくなり、インデックスからページが失われる可能性があるため、これを実装するときは十分に注意してください。

以下に例を示します(これらはrobots.txtファイルに含まれています)。

# Yahoo's Slurp Robot - Please wait 7 seconds in between visits

User-agent: slurp
Crawl-delay: 7

# MSN Robot - Please wait 5 seconds in between visits

User-agent: msnbot
Crawl-delay: 5

少しトピックから外れていますが、サイトマップまたはサイトマップインデックスファイルを指定することもできます。

検索エンジンに最適なURLの包括的なリストを提供する場合は、1つ以上のサイトマップ自動検出ディレクティブを提供することもできます。user-agentはこのディレクティブには適用されないため、これを使用して、すべてではなく一部の検索エンジンにサイトマップを指定することはできません。

# Please read my sitemap and index everything!

Sitemap: http://yourdomain.com/sitemap.axd

4

Watchguardファイアウォールを使用します(現在、X1000はサポート終了です)。彼らは、何度も何度も見られたり、強烈な帯域幅を使用しているドメインやIPをブロックすることを中心に多くの機能を持っています。

stackoverflowでJon Skeetをブロックしたくないので、これには多少の調整が必要です。


3

Microsoft ISA Server 2006をお勧めします。特にこの要件については、デフォルトでIPあたり600 HTTPリクエスト/分に制限され、Jon Skeetに例外を適用できます(申し訳ありませんが、「ジョーク」はすでに作成されています。 )。

アプリケーションレベルのフィルタリングの追加の利点、複数のWebサーバー(それらのサーバー上のNLBの代わりに)の負荷分散機能、VPN終了などがあります。あなたは勇気を感じています。

これは明らかにオープンソースではありませんが、Windowsショップにとってメリットがあり、市販のハードウェアで実行されます。


これはmodifyigのrobots.txtと共に最も柔軟なアプローチである
ジムB

ありがとう。クローラーに何らかの指示を与える必要があることに同意します!
ロビンM

2

Foundryロードバランサー(具体的にはSI850)を使用して、このようなシェーピングの問題を処理します。また、SYNフラッドなどのその他の「厄介なもの」もかなり処理します。



1

まともな容量/ヴィンテージの通常のCiscoルーターを使用して、基本的なレート制限を実行することもできます。Ciscoルーターを使用していますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.