存在しないURLを使用した大規模な404攻撃。これを防ぐ方法は?


14

問題は、Google Webmaster Toolsによって報告されたように、これまでになかったページとクエリを伴う404エラーの負荷です。そのうちの1つはviewtopic.phpであり、サイトがWordPressサイト(wp_admin)であるかcPanelログインのためにチェックしようとする試みの恐ろしい回数にも気付きました。私はすでにTRACEをブロックしており、サーバーにはスキャン/ハッキングに対する防御が備わっています。しかし、これは止まらないようです。リファラーは、Googleウェブマスターによると、totally.meです。

私はこれを止める解決策を探しました。SEOの懸念は言うまでもなく、実際の貧しい実際のユーザーにとっては確かに良いことではないからです。

Perishable Pressミニブラックリスト(ここにあります)、標準リファラーブロッカー(ポルノ、ハーブ、カジノサイト用)、さらにはサイトを保護するソフトウェア(XSSブロック、SQLインジェクションなど)を使用しています。サーバーは他の手段も使用しているので、サイトが安全であると(おそらく)仮定しますが、終了していません。

他の誰かが同じ問題を抱えていますか、それとも私だけがこれを見ていますか?それは私が考えるもの、すなわち、ある種の攻撃ですか?この無駄なリソースの無駄を防ぐ方法、またはそれを改善する方法はありますか?

編集 回答に感謝するために質問を使用したことはありません。これができることを願っています。洞察に満ちた返信をありがとう。私は皆の提案に従い、以下を実施しました:

  • ハニーポット
  • 404ページの疑わしいURLをリッスンし、ユーザーエージェント/ IPを含む電子メールを送信しながら、標準の404ヘッダーを返すスクリプト
  • 同じ404カスタムページで正当なユーザーがそれらのURLのいずれかをクリックした場合に報酬を与えるスクリプト。24時間以内に、Spamhausにリストされている疑わしいIPを分離することができました。これまでに記録されたすべてのIPは、スパムVPSホスティング会社に属します。

どうもありがとうございました。できればすべての答えを受け入れました。


Google Webmaster Toolsがリファラーが完全にあなたであると言ったとき、あなたはあなたのサイトのページがリファラーページであることを示しているという意味ですか?
スティーブンオステルミラー

すみません、私の間違いです。ウェブマスターツールには存在しなかったこれらのページがありますが、Googleはそれらが見つからないと言います。それらの1つはmysite.com/viewtopic.php?forget_the_value=1で、total.meからリンクされています。
tattvamasi

2
存在しないページのアクセスログに多くの404を取得し、脆弱性(WP管理者など)を確認することは一般的です。サイトが安全であることを確認する必要があります。ただし、これらがGWTによって報告されるためには、これらのページへのリンクがあるか、ドメインでホストされている以前のサイト(WordPressなど)がありましたか?
MrWhite

いや。おもしろいことに、私はワードプレスを使用したことがなく、404エラーとして見たページを使用したことがありません。私が引き起こしたいくつかのエラー(1つのページから別のページへのインバウンドリンクのURLのつづりが間違っています)が、viewtopic.phpファイルは存在しませんでした。そのサイトは...何年もアップしてきました
tattvamasi

「これらのページへのリンク」と言うとき、私は他のサイトからという意味です。(GWTでの)404エラーのそれぞれについて、ドリルダウンして、「リンク元」の場所を表示できる必要があります。
MrWhite

回答:


16

自分のサイトに存在しない大量のページにリンクしている別のサイトをよく見ます。そのページをクリックしてもリンクが表示されない場合でも:

  • サイトには以前にそれらのリンクがあった可能性があります
  • サイトがクローキングし、それらのリンクを訪問者ではなくGooglebotのみに提供している可能性があります

リソースの無駄遣いですが、Googleを混乱させることはなく、ランキングを損なうこともありません。以下は、ウェブマスターツールに表示される404エラーについて、Googleのジョンミューラー(ウェブマスターツールとサイトマップで作業しているが言っていることです。

助けて!私のサイトには939のクロールエラーがあります!! 1

私はこの種の質問を週に数回見ます。あなただけではありません-多くのウェブサイトにはクロールエラーがあります。

  1. 無効なURLでの404エラーは、サイトのインデックス作成やランキングに何らかの影響を与えません。1億または1千万であっても問題ありません。サイトのランキングに悪影響を与えることはありません。http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. 場合によっては、クロールエラーは、WebサイトまたはCMS内の正当な構造上の問題に起因する場合があります。どうやって言うの?クロールエラーの原因を再確認してください。サイトの壊れたリンクがページの静的HTMLにある場合は、常に修正する価値があります。(+ Martino Mosnaに感謝)
  3. 「明らかに壊れている」ファンキーなURLについてはどうでしょうか?あなたのサイトのような当社のアルゴリズムは、たとえばJavaScriptで新しいURLを発見しようとすることで、より素晴らしいコンテンツを見つけようとします。これらの「URL」を試して404を見つけた場合、それは素晴らしいことであり、期待されています。重要なものを見逃したくないだけです(ここに過剰に添付されたGooglebotミームを挿入してください)。http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. ウェブマスターツールでクロールエラーを修正する必要はありません。「修正済みとしてマークする」機能は、進捗状況を追跡する場合にのみ役立ちます。Web検索パイプラインの変更はありませんので、必要のない場合は無視してください。 http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. ウェブマスターツールのクロールエラーを優先度順にリストします。これはいくつかの要因に基づいています。クロールエラーの最初のページが明らかに無関係である場合、他のページで重要なクロールエラーを見つけることはおそらくないでしょう。 http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. ウェブサイトのクロールエラーを「修正」する必要はありません。404を見つけることは正常であり、正常に構成されたWebサイトに期待されます。同等の新しいURLがある場合は、そのURLにリダイレクトすることをお勧めします。それ以外の場合、偽のコンテンツを作成したり、ホームページにリダイレクトしたり、robots.txtでこれらのURLを禁止したりしないでください。これらすべてのことにより、サイトの構造を認識して適切に処理することが難しくなります。これらを「ソフト404」エラーと呼びます。 http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. もちろん、これらのクロールエラーが関心のあるURL、おそらくサイトマップファイルのURLで表示される場合は、すぐに対処する必要があります。Googlebotが重要なURLをクロールできない場合、検索結果から削除され、ユーザーもそれらにアクセスできない可能性があります。

おかげで、404攻撃がページランクに悪影響を及ぼしたと主張する人について読んだことがあります(Googleウェブマスターフォーラムでの議論、それを取得したらすぐにここに投稿します)。すべてを言っているわけではありません、これらの人々は主張しています)、それが私の懸念の1つであり、他の質問は、意図的に私のサイトへの間違ったリンクを大量にツイートしている人です。答えを受け入れました:)
tattvamasi

totally.meは実際のサイトです。ユーザーを引き付けるためにリンクをスクレイピングして投稿するごみサイトは何千もあります。これはスパムデックスの一種です。これらのリンクは短期間しか存在しない場合があります。ほとんどの場合、これは小規模で洗練されていない検索エンジンに影響を与えるために行われますが、他にも多くの地域がありますが、ロシアとポーランドで最も一般的に見られる地域の視聴者が増えます。このようなリンクは、以前のスクレイピング作業から渡されたデータベースから頻繁に提供されるため、古いリンクが再出現し、新しいサイトが定期的に作成されます。あなたがそれについてできることは何もありません。
closetnoc

2
「404攻撃」は、サイトのページランクにもランキングにもまったく影響しません。(競合他社が404ページにリンクするのに時間を費やしている場合、有用なことをするのに費やしている時間は少ないので、喜んでください:)。サイトには404があるはずです。 、もしあれば、それは私たちにとって良いシグナルになるでしょう。
ジョンミューラー

5

インターネット上のランダムなIPアドレスを楽観的にスキャンして、さまざまな種類のソフトウェアで知られている脆弱性を見つけるスクリプトがたくさんあります。99.99%の時間、彼らは何も見つけられません(あなたのサイトのように)、そしてその0.01%の時間、スクリプトはマシンをpwnし、スクリプトコントローラーが望むことを何でもします。通常、これらのスクリプトは、元のスクリプトキディの実際のマシンからではなく、以前にpwndであったマシンからの匿名ボットネットによって実行されます。

あなたは何をするべきか?

  1. サイトが脆弱でないことを確認してください。これには常に注意が必要です。
  2. これにより、通常のサイトのパフォーマンスが影響を受けるほどの負荷が発生する場合は、特定のサイトからの接続を受け入れないようにIPベースのブロックルールを追加します。
  3. サーバーログを調べるときに、CMD.EXE、cPanel、phpMyAdmin、その他の脆弱性のスキャンを除外する方法を学びます。

サーバーから誰かに返される404は、Googleがあなたのサイトについて考えることに影響を与えると信じているようです。本当じゃない。Googleクローラーと、おそらくChromeユーザーによって返される404のみがサイトに影響します。サイト上のすべてのリンクが適切なリンクであり、以前に世界に公開したリンクを無効にしない限り、影響はありません。スクリプトボットは、Googleとは一切対話しません。

実際に攻撃されている場合は、何らかのDoS軽減プロバイダーサービスにサインアップする必要があります。Verisign、Neustar、CloudFlare、およびProlexicはすべて、単純なWebプロキシ(一部のプロバイダーから無料の場合もあります)からDNSベースのオンデマンドフィルタリング、完全なBGPまで、さまざまな種類の攻撃に対するさまざまな種類の計画を持つベンダーです攻撃を軽減するルールを使用して、すべてのトラフィックを「スクラビング」データセンターに送信する、ベースのプレゼンススイング。

しかし、あなたの言っていることからは、インターネット上のIPがポート80でリッスンしているかどうかを確認する通常の脆弱性スクリプトが表示されているだけです。文字通り、新しいマシンを設置し、空のApacheを起動し、数時間以内に、アクセスログにこれらの行が表示されるようになります。


どうもありがとう-サーバーとサイトの保護が非常に高いので、正当なユーザーがすでに禁止されたページになってしまうこともありますが、追加のフィルターを探します。「Googleのクローラ、そしておそらくクロームユーザーによって返さのみ404エラー」への返信では、私は私は私が安全に、彼らがしているビーイングがクロールと仮定することができると思うので、Googleのウェブマスターツールでこれらのリンクを発見したことを追加する必要があります...
tattvamasi

Googleがこれらの存在しないページにアクセスする理由を把握する必要があります。たとえば、外部の関係者をアクセスログに入れた場合、それはGoogleがそれらにアクセスする方法になります。それらに外部の関係者を入れてはいけません。また、セキュリティは、外部に追加するヒューリスティックな「保護」に関するものではなく、適切に実施された正確さに関するものです。私は懐疑的なサードパーティの「セキュリティプラグイン」を見ています。サイトが私が望んでいることを正確に行うとき、それだけが(定義により)安全です。
ジョンワット

3

これはおそらく実際の攻撃ではなく、スキャンまたはプローブです。

スキャナー/プローバーによっては、良性である可能性があります。つまり、ある種の研究能力の問題を探しているだけであるか、開口部が見つかった場合に自動的に攻撃する機能を備えている可能性があります。

Webブラウザは有効なリファラー情報を入力しますが、他のプログラムは好きなリファラーを作成できます。

リファラーは、Webサイトにアクセスするプログラムによってオプションで提供される単なる情報です。totally.meまたはのように設定するものであれば何でもかまいませんrandom.yu。彼らが選択した本物のウェブサイトでさえありえます。

これを実際に修正したり防止したりすることはできません。このタイプのすべてのリクエストをブロックしようとすると、非常に大きなリストを維持する必要が生じ、それだけの価値はありません。

ホストがパッチに対応し、脆弱性を防止している限り、これにより実際の問題が発生することはありません。


1
404がGoogle WMTに表示される場合、実際のリンクのどこかにあります。totally.meは実際のサイトです。
closetnoc

yes totally.meは実際のサイトであり、そこからの間違ったリンクが私のせいでした(ツイートボタンのタイプミス)。これで、私のサイトのviewtopic.php /?whateverページにリンクしているこの大量のリンクがあります。それをツイートしたユーザーを特定することさえできます(そのページには現在何もありませんが、たくさんあったと思います)。トレンドのタグにも意図的に間違ったURLがありました。私が心配しているのは、ユーザーエクスペリエンス、リソースの使用状況、およびGoogleがこれらの偽の404をクロールしていることを確認することです。何をすべきかわからない。
tattvamasi

3

実際、ボットの狂気のように聞こえます。私たちは多くのホストの何千ものIPによって同様に攻撃されてきており、おそらくサイトOPには知られていないでしょう。役立つソリューションを提供する前に、1つ質問があります。

Q: Googleウェブマスターツールでサイト全体から404をどのように見ていますか?GWTはGooglebotの結果の出力であり、他のボットの出力ではありません。また、それらの他のボットは分析のためにJSを実行しません...あなたはあなたのサーバーの統計を見ることができるGWTに行く何らかのAPIのものを持っていますか?そうでない場合、これはgooglebot自体がエラーを検出しているため、アラームの原因である可能性があります。

  • これがgooglebotのエラーだけである場合、誰かがあなたのサイトへのリンクをフォーラムに設置し、悪意のある本物の人間のPCボットの標的を狙ったものである可能性があります。悪用されたサーバーでharverstor + planterを実行し、ポータルへの将来の「スパム契約」のために大量のターゲットを設定すると考えてください。

  • サーバー統計全体をレポートすることを実際に知っている場合は、いくつかのツールが必要です。いくつかのアプリとサービスは、あなたがそれを削減するのを助けるかもしれません。Linuxサーバーを実行していると仮定します。

1)問題のあるIPをhtaccessブラックリストに追加し始めます。「192.168.1.1から拒否」のように見え、403を禁止します。biggensをブロックするだけで夢中になってはいけません。手順4)でサイトと照合して、実際のISPを盗んでいないことを確認します。このファイルをコピーして、ファイアウォールを越えて任意のアカウント/アプリに貼り付けることができます。

2) APFをインストールします。LinuxでSSH経由でファイアウォールを管理するのは本当に簡単です。htをビルドするときに、「apf -d 192.168.1.1」のようにAPFに追加します。HtはAPFのために冗長に見えますが、Htは移植可能です。

3) cPanel Hulkをインストールし、IPをホワイトリストに登録して、パスを忘れてもロックアウトされないようにします。これは、ht + apfに追加するIPの優れたソースにもなります。ブルートフォースログイン試行をインテリジェントに軽減できるように、いくつかのスマートがあります。

4) stopforumspam.comおよびprojecthoneypot.orgに接続して、モジュールを実行します。両方とも、既知のリクエストを拒否し、新しいブルート/ネット/チナスパムを特定して報告するのに役立ちます。使用できるメールフィルターもありますが、スパムフィルターに関してはGmailが所有しています。

5)ボットは決してあきらめないため、管理パスを保護します。wordpressを実行する場合、管理パスを変更する、captchaを追加するなど。SSHを使用する場合は、ログインポートを未使用のものに変更し、SSHルートログインをオフにします。最初にログインする必要がある「radmin」を作成してから、rootでsuを実行します。

  • captchaに関する注意。大量のサイトで独自のcaptchaを実行し、ファイアウォール/ htレベルでボットの狂気を否定しないと、これらの「アンチスパム」ウィジェットでの画像生成のためにCPUサイクルが打撃を受ける可能性があります。

  • サーバーでCentOSを実行し、VPS機能を備えている場合、負荷に関する注意点として、CloudLinuxは強化と負荷制御に最適です。ボットが通過すると、CageFSはそれをアカウントに制限するために存在します。サーバーがクラッシュしないように、アカウント(サイト)の負荷を制限するために、DDoS .... LVEがあると決めたとします。「誤ったエンティティ管理」のシステム全体を強調するための良い追加:)

ちょっと考えてみてください。


ありがとう。Google Webmastersでこれらのエラーが表示されるという事実は、あなたが正しく指摘しているように、ある種の「NSEO」テクニック(今までになかった私のサイトへのリンクを何百と植える)があると考えさせます。この種の攻撃は何もしないため、サイトは安全です。SEO /ユーザーエクスペリエンスが安全かどうかわかりません(Googleが存在しないページのインデックス作成を開始した場合、問題が発生します。このエラーにより、サイトのランクが低下しています)。再度、感謝します。
tattvamasi

1
Gbotは404ページのインデックスを作成しないため、SEOに実際に影響を与えることはありません。トラフィックを送信している他のページをキャッシュできますが、あなたページはキャッシュしません。これが本物の人間にとって問題になる場合は、wp-adminのような二段リンク用の巨大なリダイレクタを作成し、それらがすべてこのページを表示する理由について人間向けの素敵な記事にします。ecomの場合、「404をごめんなさい」クーポンを渡してください。GWTですべてを修正済みとしてマークすることを忘れないでください。そうすると、新しい着陸船のインデックス作成とキャッシュが行われます。必要に応じて、バッドボットのブラックホールを配置します。とにかく、このスパムネットにあなたのためのリンクがあるなら、直接のヒットに備えてください。
ドーピン

ありがとう。今のところ、私が生成したエラーの場合にソフト404が混乱を少し緩和するかどうかを確認しようとしています。404ページは既にカスタムページであり、有用な関連リンクを提供します(リンクが見つかった場合)。スペルが間違っている場合、正しいページに301リダイレクトをスローします(Googleはそれらをソフト404と見なします)。この迷惑メールの場合は/RK=0/RS=YkUQ9t4mR3PP_qt7IW8Y2L36PFo-//blog/wp-login.php//user/create_form//m//RK=0/RS=lznPhspsSDFHMiuIUDmmo01LA7w-/(など)私は、ユーザーがログインしていますし、希望私は右のそれをやっている404を返す
tattvamasi

1

問題の説明

まず、この問題を抱えているのはあなただけではありません。誰もがそうです。これまで見てきたのは、自動化されたボットがすべてのIPをクロールし、一般的な脆弱性を探した結果です。したがって、彼らは基本的にあなたが使用しているものを見つけようとし、phpmyadminを使用する場合、標準のユーザー名とパスワードの組み合わせの束を後で試みます。

私はあなたが今見つけたこの種のものに驚いています(あなたはあなたがあなたのサーバーを始めたばかりかもしれません)。問題は、IPアドレスを永久にブロックできないことです(ほとんどの場合、これは感染したコンピューターであり、実際のユーザーはそれが何をしているのか知らず、そのようなIPもたくさんあります)。

SEO効果

まったく効果がありません。誰かがあなたのコンピューター上の何かにアクセスしようとしたが、そこにいないことを意味するだけです

それは本当に重要ですか?

確かに、これらの人々はいくつかの問題についてあなたを探ろうとします。さらに、彼らはあなたのリソースを浪費し(あなたのサーバーは何らかの方法で反応する必要があります)、あなたのログファイルを汚染しています

修正方法

私が修正しようとしたのと同じ問題があり、最高のツール(使いやすさとそれでできること)は見つけることができましたがfail2banです

また、同じ問題を修正する方法をすでに見つけており、ここに文書化することさえできたので、あなたは幸運です(したがって、インストール方法と動作方法を見つける必要はありません)。ServerFaultに関する私の質問を確認してください。ただし、fail2banについて少し読んで、機能していることを確認してください。


1

多くの人がすでに言っているように、これは攻撃ではなく、サイトアプリやサーバー機能をプローブまたはスキャンしようとする試みです。これらの役に立たないトラフィックと潜在的に危険なスキャンをすべて除外する最良の方法は、WAF(Web Application Firewall)を実装することです。これにより、すべての異なる試行がキャッチされ、フラグが設定されてから、実際の正当なクリーントラフィックがサーバーおよびWebアプリに送信されます。

クラウドベースのDNS WAFまたは専用デバイスを使用できます。私は個人的にIncapsulaとF5 ASMを異なるクライアントサイトに使用しています。コストは月額500ドルと低く、非常に役立ちます。また、クライアントの保護を強化し、Webサーバー自体のリソースを削減することで、費用を節約し、速度を向上させます。さらに、これらのデバイスは、PCI 6.6準拠とレポートによるレビューを提供します。

お役に立てれば。


これが単に「調査の試み」であった場合、これらの404がGWTで明らかに報告されたという事実をどのように説明しますか?
MrWhite
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.