これは急速に変化するイベントであり、まだ答えがありません。
調査結果や仮定を回答として投稿しないでください。実際に回答がある場合に備えて、回答フィールドを予約してください。
追加する新しいものがある場合は、質問に直接編集してください。
年の初めから、ユーザーエージェントとのトラフィックが増えています。
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).
私のアクセスログには、そのユーザーエージェントからの40%〜60%が表示されます。ユーザーエージェントがFirefox 3.0.10ブラウザーを示しているため、これは奇妙です(2012年にそのブラウザーを使用している人はいますか?通常のWebサイトの訪問者の40%-60%ではありません)。
また、ログは、このユーザーエージェントがHTMLドキュメントのみを要求し、画像、CSS、JSファイルなどの参照されたアセットは要求していないことを示しています。
それらのリクエストのIPを(そのUAで)チェックしました。それは世界中から来ています。これらのIPにはモバイルユーザーエージェントが含まれることがあることを認識しました。
私の疑いは、多くの「スパイダーリクエスト」を行っているモバイルアプリです。そのユーザーエージェントからのトラフィックの根本原因を知ることは良いことです。
誰でも根本原因を特定できますか?
過去数週間で、そのUAからのトラフィックが減少し、他のトラフィックが増加することを認識しました。ボット/クローラーは現在、より一般的なUAを使用しているため、ブロックがより困難になっているようです。この質問への回答の中で他の誰かがそれを言っているのを見ましたが、serverfaultがこの質問を再配置することを決めたときに削除されました。
参照としての古い回答
Deeからの更新
私は非常にトラフィックの多い独自のウェブサイトを運営しており、先月かそこらのapacheログでまったく同じことを見ています(さらに確認する機会がまだありませんでした)。すべてのリクエストの40%が私が見ている割合であり、これは明らかにナッツです。
また、リクエストは常にリクエストしているブラウザがgzip圧縮をサポートしていないと言っているように見えることに気付きました。その結果、すべてのWebページリクエストが圧縮されずに送信され、帯域幅の使用が急増します!
しかし、これまでのところ、実際に何が起こっているのかを判断することはできませんでした-これまでのところ、偽のユーザーエージェント文字列を送信しているモバイルデバイスのプロキシサーバーなどの可能性があると思われます。
追加するために編集:さらに調査を行ったところ、ウイルス対策ソフトウェアのようです:http : //www.webmasterworld.com/search_engine_spiders/4428772.htm
jamur21からの更新
はい、複数のサイトで同様のトラフィックが確認されています。
私たちはまだ根本原因を探していますが、調査結果には次のようなものがあります。
クモの場合、それはかなり悪い仕事をしています。別のURLに移動するまで、しばらく(おそらく2、3時間)ドメインごとに1つまたは2つのURLのみをハンマーするようです。ただし、コンテンツは常に比較的「最新」であり、回答に投稿されたリンクDeeにあるように、Googleニュースが要因であるという信用を与えています(すべてのサイトはニュースサイトです)。
IPは地理的に分散していますが、私たちにとって、それらのほとんどは発信元サイトの近くにあるように見えます(ほとんどのサイトはローカルニュースアウトレットであるため、国内のトラフィックはあまり多くありません)。米国外からのリクエストはほとんどありません。繰り返しになりますが、これは、Googleニュースから丸URLみされたURLに信用を与えます(郵便番号でGoogleニュースをローカライズした人々がコンテンツを見ると思います)。
ほとんどの場合、リクエストはバックグラウンドノイズ(特にノイズの多いノイズ)として取り消すことができますが、1日に2、3回スパイクし、このUAだけで約15〜30分間、〜100mbpsのトラフィックを占めます。
残念ながら、GoogleニュースはこれらのURLが発見される可能性のあるベクトルのように見えますが、私たちが目にしたことはすべて状況であり、これらのURLが正確にどのように攻撃されるのかについての喫煙銃はまだありません。
Bannow Bayからの更新
大きなニュースサイトがあります。週に数回、ニュースがGoogleニュースに取り上げられます。11月下旬からこのソースからトラフィックを獲得しており、週ごとに増加しています。2月には3,000万インプレッションになる可能性があります。
Google News USのフロントページに表示されることが、このトラフィックの引き金となります。約75%が米国のIPからのものであると主張しています。しかし、それが何であれ、それ自体を隠すために多大な努力を払っています。そしてそれは友好的ではありません。
喫煙銃も見つかりませんでしたが、主要なセキュリティベンダーは、当社に代わってさらに調査することに親切に同意しました。
Artem Russakovskiiからの更新
ニュースサイト(AndroidPolice.com)でも初めて同じことが起こりました。QPSが平均5000%(LinodeのNodeBalancerの制限である5000qps)を超えたこれらのランダムリクエストの約10分。要求がI / Oとネットワークを使い果たしているため、CPUはアイドリングを開始しました。これは実際のDDOSでした。
私は本当にこれの一番下に到達したいのですが、現時点では完全に不可解です。
マークから更新
+1を追加するだけです。私たちのサイトでも同じ動作が見られます。ここに追加する大量の新しい情報ではありませんが、トラフィックの一般的な形状は次のとおりです。
- トラフィックは高度に分散されています。トラフィックは、〜60k以上の一意のIPから来ています。
- トラフィックの大部分は単一のURL、通常はGoogleニュースにリストされている最近のURLにヒットしています(ただし、Googleニュースは必ずしもベクターではないようです)
- このスレッドのすべては、このスレッドで述べたのと同じFirefox / 3.0.10ユーザーエージェントから来ていますが、どこかで奇妙なモバイルエージェントを見てきました。
- このエージェントから着信するすべてのトラフィックには、リファラーデータが含まれていません。
- バーストは、1週間に1〜2回、30〜60分間発生し、その後消えます。
ドンアイルランドからの更新
最後の投稿は4月13日でしたが、トラフィックは確かに終了していません。これの最も奇妙な部分は、彼の塩に値するマルウェア作者が確実に(確実に)最新のブラウザーからユーザーエージェント文字列を使用する可能性があり、ブロックユーザーエージェント防御が無価値になるという事実かもしれません。この事実により、「無害な」ニュースアグリゲーターまたは他のアプリケーションがソースであるかのように見えます。しかし、これまでのところ、私は本当の結論に達することができず、情報を持っている人がここに投稿することを望んでいます。
Googleのニュースで取り上げられたストーリーに続いて、ストーリーを要求するトラフィックの非常に高いスパイクが続きます(ただし、画像などのアクセサリファイルはありません)。アウトバウンド応答トラフィックは、ネットワークを飽和させる可能性のあるスパイクを引き起こします(または、503エラーのみで応答を開始するまではそうでした)。これらの攻撃(他に何と呼べますか)は平均で約30分間続きますが、非常に人気のあるストーリーでは1時間以上トラフィックが増加する可能性があります(Firefox 3.0.10のトラフィックについてですが、もちろん通常のトラフィックも高いままです)しばらくの間)。
1時間の期間(負荷分散グループ内の単一サーバーの場合)では、200,000件のリクエストがあり、そのうち97,000件がfirefox 3.0.10リクエストであり、すべてのリクエストのほぼ50%でした。通常、ページがメインファイルとアクセサリファイルに対して10個以上のリクエストを生成すると考えると、97,000個がはるかに大きくなります。97,000の内、51,000の一意のIPアドレスがありました。そして、私は1時間について話している(実際には45分に近かった)。これを引き起こしているものは何でもかなり広まっています。
user119708からの更新
巨大なフランスのハイテクニュースWebサイトにも同じ問題があります。
ニュースが発行されてGoogleニュースで表示されるたびに、IPおよびユーザーエージェント「Mozilla / 5.0(Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10 )Gecko / 2009042316 Firefox / 3.0.10(.NET CLR 3.5.30729)」。
すべてのIPアドレスは、フランスまたはフランスの国にあるようで、リファラーはありません。ボットのように見えますが、1つのリモートアドレスが同じニュースで数分以内に50〜100回戻ってくる必要があるのはなぜですか。コンピューターに感染する可能性はありますか?Googleニュースでニュースが表示されるときに現象が表示されるのはなぜですか?Googleはこの奇妙なトラフィックを担当していますか?
このトピックの誰かが説明を見つけた場合、多くの中規模または大規模なWebサイトがトラフィックを制御するのに役立つと思います!
編集:http: //2bits.com/botnet/botnet-hammering-web-site-causing-outages.html それが実際に感染したコンピュータである場合、関与するアドレスの数を考えると非常に心配です。このスクリプトをApacheに実装して、すべてのトラフィックをブロックします。
# Referer is empty
RewriteCond %{HTTP_REFERER} ^$
# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"
# Forbid the request
RewriteRule ^(.*)$ - [F,L]
Ernestoからの更新
中規模のスペインの一般的なニュースサイトでは、数日からいくつかの無関係なニュースでトラフィックが多いことに気づきました。
誰でも、ページが読み込まれるとデータベースの更新によって増加する「ページビュー」カウントのために、HTML全体が読み込まれます。
毎日1つまたは2つのURLのみがターゲットになっています。
数秒で同じURLを介して大量のリクエスト(7000-12000)が、異なるIPから1日中配信されます。翌日、他のURLがターゲットになります。
リファラーなし。
対象となる記事はGoogleニュースに掲載されましたが、関連性があることを保証することはできません。
Googleアナリティクスは、正当なトラフィックとして認識しません。ヒット数が8000を超える記事があり、GAは25程度しか報告していません(javascriptが解釈されていないと想定しています)。
Old Proからの更新
いくつかのデータポイントを追加します。
ボット対ブラウザは、このUAを(まだ)ボットとは見なしません。
私がログを持っている最もトラフィックの多いサイトでは、これまでの2012年5月の使用状況では、このUAがトラフィックの1%未満として表示されています。UAリクエストの大部分は正当なものと思われます(たとえば、予想されるすべてのリソースをロードしています)。これは基本的に2012年2月と同じです。
このサイトのフロントページはめったに更新されず、すべての動的コンテンツはrobots.txtによってブロックされます。
これはおそらくGenieoからのものです。彼らは、Mozilla / 5.0 +(compatible; + Genieo / 1.0 + http://www.genieo.com/webfilter.html)という新しいユーザーエージェントを使用するようにアプリケーションを更新しました。元のユーザーエージェントと同じパターンでヒットしますが、今では彼らは自分自身を識別しているようです。ユーザーエージェントでURLを見ると、特定のWebサイトへのトラフィックが多すぎたり、多すぎたりする可能性があることを認めます。- dflaw
マイク・フェイガンからの更新
私たちは、数週間前からDDOS攻撃であると想定していたものと戦ってきました。私たちは、Genieoをこれらの攻撃のユーザーエージェントとして見始めました。以前は、「Mozilla / 5.0(Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10)Gecko / 2009042316 Firefox / 3.0.10(.NET CLR 3.5.30729)」および「 Mozilla / 5.0(Windows NT 6.1; rv:11.0)Gecko / 20100101 Firefox / 11.0 "。1万以上の異なるIP、同じIPが100回以上ページを要求し、追加のアセットや広告をプルしなかった場合に、1日あたり100万件以上の要求がわずか3または4ページになります。私の発見では、これらのIPのいずれも実際にサイトの他のページに移動していません。
私はGenieoに連絡しましたが、これは彼らの反応です:
"ご連絡いただきありがとうございます。
Genieoの古いバージョンが、説明したトラフィック負荷を引き起こした可能性があります。これによりご迷惑をおかけしましたことをおWeび申し上げます。昨日、これに対処するリリースと更新を行いました。アプリケーションからのデータロードは、24時間以内に消えます。新しいユーザーにサイトを紹介することで、サイトに良いサービスを提供していると考えました。インストールベースが成長しているため、一部のシットに過負荷が発生している可能性があることを適切に評価しませんでした。
Genieoは個人新聞またはスマートRSSリーダーです。スマートセマンティックパーソナライゼーションフィルタリングを備えたクライアントサイドRSSリーダーです。Genieoアプリケーションは、ユーザーのお気に入りのサイトからのRSSデータに従い、セマンティック分析を実行して記事を「読み」、ユーザーの関心領域に関してそれらをフィルタリングします。記事がユーザーの興味と一致する場合、アプリケーションはユーザーのホームページに記事のタイトルとスニペットを表示します。タイトルをクリックすると、記事のサイト(サイト)に移動します。Genieoエージェントは自律的です(プライバシー上の理由により)。エンドユーザーのマシンで実行されるため、エージェントが多くの異なるIPからサイトにアクセスしていることがわかります。
Genieoデータの大部分はユーザーの通常のRSSフィードから取得されますが、Genieoはユーザーが以前に登録していない新しいニュースサイトのコンテンツも追加します(セレンディピティと多様性のため)。Genieoアルゴリズムは、「ホットな」記事、Twitterのトップヒット、YouTubeで最も視聴されたコンテンツ、Googleニュースのハイライトを検索し、ユーザーの関心に一致するかどうかをチェックします
これが一部のサイトで負荷の問題を引き起こしていることを認識していませんでした。これに気づいたら、現在のユーザーを、負荷の急増を防ぐ新しいバージョンで更新します。
宜しくお願いします、
-どたん