Googleは、公開すべきではない私のウェブサイトから何千ものPDFをキャッシュしました。ヘッダーを更新しましたが、既存のクイックビューキャッシュを削除する必要があります。
Googleウェブマスターツールを使用すると、1つずつ削除できますが、削除するファイルの量を考えると、これは明らかに実用的ではありません。
GoogleキャッシュからPDFをバッチ削除する方法を知っている人はいますか?「site:mysite.com * .pdf」に一致するすべてを削除する方法が理想的です
Googleは、公開すべきではない私のウェブサイトから何千ものPDFをキャッシュしました。ヘッダーを更新しましたが、既存のクイックビューキャッシュを削除する必要があります。
Googleウェブマスターツールを使用すると、1つずつ削除できますが、削除するファイルの量を考えると、これは明らかに実用的ではありません。
GoogleキャッシュからPDFをバッチ削除する方法を知っている人はいますか?「site:mysite.com * .pdf」に一致するすべてを削除する方法が理想的です
回答:
単一のURLの削除を要求する方法を既に理解しているようですが、これは明らかにここでの質問の対象外です。そのプロセスの2番目のステップでは、ファイルURLが特定の方法で予測可能な場合、ディレクトリ全体の削除を要求することもできます。(もしあなたが何千ものPDF を持っているなら、私はそれらが少なくともいくらか整理されていることを望むだろう。)そうでなければ、残念ながらあなたはほとんど選択肢がない。
最近、私のサイトに数千の偽ページを追加するハックがありました。
修正されたサイトマップをGoogle Search Console(以前はWebmaster Toolsと呼ばれていました)に送信し、すべてのリンクを410に変更しましたが、Googleはまだそれらのほとんどにインデックスを付けていました。
私が使用ウェブマスターツールを-バルクURL削除クローム拡張を自動的に除去するためのURLを提出します。基本的には、URLのリストを取得し、それらを一度に1つずつ送信するスクリプトです。それらすべてを送信するには数時間かかりますが、少なくとも自分で行う必要はありません。使い方の記事はこちらです。
Search Consoleから直接データをダウンロードすることで、Googleがインデックス付けしているURLのリストを取得できます。[ステータス]> [インデックスカバレッジ]に移動し、有効な結果を選択して下にスクロールします。Googleがサイトマップにない大量のURLをインデックスに登録していることがわかります。最初の1000件の結果をダウンロードできます。最初の1000個だけでなく、それらすべてを取得する迂回方法があるようですが、excelからのAPI呼び出しが含まれます。彼らがゆっくりとインデックスから落ちたので、私はそれぞれの1000の間で数日待っていました。
もう1つの方法は、WPプラグインにサイトマップを作成させてから、PDFまたはターゲットとするものをすべて除外することです。おそらくここで手動でコピー/貼り付け/削除を行う必要があります。念のため、約2,700個のスパムURLのリストをゆっくりとスクロールし、正当なURLを削除しました。約20分しかかかりませんでした。
スパムのようなものを永久に消そうとせず、代わりにプレミアムリソースを難読化しようとする場合は、ロボットファイルなど、他の方法を使用してそれらのリソースのインデックス作成を防止する必要があります。しかし、Googleが耳を傾けなかった、またはあなたがボールを落としたことが判明した場合、少なくとも今は問題を修正し、わずか数日でインデックスからそれらを削除することができます。
私の特定の状況では、Googleにタイムマシンボタン、元に戻す、リセットがないのはなぜかと思っています。アイデアは、数日前にサイトがハッキングされたことをGoogleに伝えることができるが、それを修復したため、最後のx日間のクロールとインデックス登録を取り消すことです。しかし、それは簡単すぎるでしょう。