サイトがハッキングされました。+で始まるすべてのURLをGoogleから削除する必要があります。robots.txtを使用しますか?


15

robots.txtGooglebotがこのようなURLをブロックしてインデックス作成を停止する方法を教えてください。

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

私のウェブサイトはハッキングされましたが、ハッカーはGoogleで5000個のURLのインデックスを作成し、ランダムリンクでエラー404が発生しました/+

GoogleウェブマスターツールからこれらのURLを手動で削除する以外の簡単な方法があるかどうか疑問に思っていましたか?

signでrobots.txt始まるURLでこれをブロックできます+か?


2
+URLパスには特別なものはありません(プラス)。他の文字と同じです。
MrWhite

あなたは可能性のrobots.txtのは禁止がロボットOTのアクセスを、ファイルまたはディレクトリへ(.htaccessファイルで)Apacheのリダイレクト
MawgがREINSTATEモニカ言う

@Mawgそれをする意味は何ですか?
MrWhite

行儀の良いロボットを締め出すには?
Mawgによると、モニカは

回答:


30

私のウェブサイトはハッキングされましたが、現在は回復していますが、ハッカーはGoogleで5000個のURLをインデックスに登録しており、エラー404が発生します

robots.txtこれらのURLを検索エンジン(Googleなど)からドロップする場合は、404よりもブロックすることをお勧めします。クロールをブロックすると、URLのインデックスが引き続き作成されます。(インデックス付けではなく、robots.txt主にクロールをブロックすることに注意してください。)

これらのURLのインデックス解除を「高速化」したい場合、通常の「404 Not Found」の代わりに「410 Gone」を提供できます。ルート.htaccessファイルでmod_rewrite(Apache)を使用すると、次のようなことができます。

RewriteEngine On
RewriteRule ^\+ - [G]

14

2番目の質問に答えます。

GoogleウェブマスターツールからこれらのURLを手動で削除する以外の簡単な方法があるかどうか疑問に思っていましたか?

https://developers.google.com/webmasters/hacked/docs/clean_site

Googleは、Google Search Console(ウェブマスターツールの新しい名前)による削除が最も速いと明示的に述べています。

ハッカーがまったく新しいユーザーに表示されるURLを作成した場合、Search ConsoleのURLの削除機能を使用して、これらのページをより迅速にGoogle検索結果から削除できます。これは完全にオプションの手順です。単にページを削除してから、404ステータスコードを返すようにサーバーを構成すると、ページは時間の経過とともに自然にGoogleのインデックスから外れます。

しかし、彼らはこれがいくつかの場合には実行可能でないことも理解しています:

URL削除を使用するかどうかは、新しく作成された不要なページの数(URLの削除に含めるのが面倒な場合が多い)と、これらのページがユーザーに与える可能性のある損害に依存する可能性があります。URL削除によって送信されたページが検索結果に表示されないようにするには、不要な/削除されたURLに対して404 File not Found応答を返すようにページが構成されていることを確認してください。

そのため、robots.txtでこれらのページをブロックできますが、Googleが説明している修正手順のいずれも実行していません。


4
User-Agent: *  
Disallow: /+

あなたがしたいことをする必要があります。で始まるすべてのURLを要求しないようロボットに指示します+


2

robots.txtを本当に使用したい場合、これはあなたの質問に対する簡単な答えになります。また、robots.txtの仕様を読むことができる場所へのリンクを含めました。

User-agent: *
Disallow: /+

robots.txtの仕様について読む

しかし、もう1つの代替方法は、.htaccessを使用して書き換えルールを作成し(Apacheなどを使用する場合)、それらをキャッチして、GoogleにHTTPコードを返すか、単にトラフィックを他のページにリダイレクトするように指示することです。


2
*URLパスの最後に(アスタリスク)は必要ありません。スパイダーの最大の互換性のために削除する必要があります。robots.txtはすでにプレフィックス一致であるため/+*/+ワイルドカードをサポートするボットと同じであり、ワイルドカードをサポートしないボットの場合/+*はまったく一致しません。
MrWhite

あなたは正しい、私はちょうどGooglebotについての彼の質問に基づいてそれを書いた。複数のボットに対するより良い互換性を反映するように編集しました。
davidbl
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.