Googleはまだクロールし、インデックスに登録していますが、これは古いダミーのテストページで、現在404は見つかりません


19

サンプルページとデータ(lorem ipsumなど)を使用してサイトをセットアップし、Googleはこれらのページをクロールしました。これらのページをすべて削除し、実際のコンテンツを実際に追加しましたが、ウェブマスターツールでは、Googleがこれらのページをクロールしようとすると404エラーが多く発生します。「解決済みとしてマーク」するように設定しましたが、一部のページはまだ404として返されます。

さらに、Googleで自分のサイトを検索すると、これらのサンプルページの多くがまだリストされています。それらを削除する方法。これらの無関係なページが私の評価を傷つけていると思います。

私は実際にこれらのページをすべて消去し、新しいサイトとして自分のサイトをインデックスに登録し始めたいと思っていましたが、それは不可能だと読みましたか?(サイトマップを送信し、「Fetch as Google」を使用しました。)

回答:


17

はい。まず最初に。404を修正済みとしてマークしないでください。あなたは実際に問題を長引かせています。Googleは、あきらめる前に404を返すページを数回取得しようとします。これは、404エラーが、ページがなくなったという410エラーが一時的な状況を示しているためです。したがって、404を修正済みとしてマークするたびに、実際にGoogleに再試行するよう指示し、排除プロセスを再び開始します。

これらのページをしばらくの間404にすると、Googleはそれらの検索を停止し、インデックスからページを削除します。時間がかかりますが、410エラーがなければ、これが最も簡単な方法です。410エラーはプロセスを高速化しますが、410エラーを表示するのは難しく、404がデフォルトであり、より簡単で自然なソリューションになります。

削除できるページは、お待ちいただければ約30〜60日で消えます。Googleがページにアクセスする頻度に依存します。時間がかかる場合がありますが、404が見つかると、Googleは最初にサイトをスポットチェックし、404の数に応じてサイトをより積極的にスパイダーする可能性があります。

通常、サイトマップを使用しても、インデックスの問題は解決されません。それは、検索エンジンの生活をよりシンプルにするだけです。これは、サイトのすべてのページのすべてのリストとして解釈されることはありません。検索エンジンがサイトマップを読み取り、それでもサイトマップにリストされていないページが見つかった場合、それらのページは引き続きインデックス付けされます。

意味がある場合のオプションの1つは、これらのページをrobots.txtファイルにリストすることです。あまり多くない場合(できることを意味し、robots.txtファイルが長すぎないことを意味します)、それはより高速なソリューションになります。そうでなければ、私はただ待って、404エラーがそれ自身で期限切れになるようにします。

最後の一言。大丈夫です。本当に。あなたが辛抱している場合、それはすべてあなたのために非常にうまくいくでしょう。


1
robots.txtに404ページを追加するのは悪い習慣のようです。それはクローラーを混乱させるだけで、多くの完全に不必要なハウスキーピングが必要です。
ドルス14年

@Dorusまったくありません。一方は他方とは関係ありません。robots.txtファイルにページを追加すると、インデックスからページがすぐに削除されます。同様に、検索エンジンはファイルにアクセスしようとしないため、404にアクセスできません
。– closetnoc

1
あなたが言うように、それをrobots.txtに追加すると、検索エンジンはページへのアクセスを試みませんが、ページはまだ存在します。したがって、いつかロボットからそれを削除すると、インデックスが返されます。404または410に作業を行わせることをお勧めします。

@closetnocどういう意味it is harder to present a 410 errorですか?
エフゲニー

@Evgeniy 404エラーは、デフォルトで提供されるものです(少なくとも、以前のIISのApache)。410エラーは意図的なものである必要があり、そのためには何らかの作業が必要です。技術的には、難しい作業ではありませんが、それほど多くはありませんが、ある程度の専門知識が必要です。乾杯!!
-closetnoc

8

ページを公開すると、Googleはそれを決して忘れません。15年前にページを削除したサイトがあります。Googlebotは引き続き戻って、それらのページを時々チェックします。

検索エンジンでページが表示されないようにするには、404エラーで問題を解決します。Googlebotが次にクロールした後、インデックスからページを削除するのに1日かかる場合があります。より速く削除したい場合は、代わりに「410 Gone」ステータスを返します。Googleは1日待つのではなく、クロールした直後に410ページを削除します。Googleは、Matt Cuttsが説明しているように、ウェブマスターが自分の足で撃つことを防ぐために、404ページをすぐに削除しません。

404で、401と多分403で、ページを見て404を取得したら、クロールシステムで24時間そのページを保護するので、ちょっと待って、一時的な404、おそらくページが見つからないことを意図していなかったかもしれません。

考えられるもう1つの方法は、リダイレクトです。古いページを置換ページにリダイレクトする301は、Googleウェブマスターツールでエラーとして表示されるのを防ぎます。これは、古いページごとに新しいページがある場合にのみ可能です。すべてのテストページをホームページにリダイレクトしても、Googleはホームページへのリダイレクトをそのレポートに表示される「ソフト404」エラーと見なすため、役に立ちません。

ウェブマスターツールで404エラーが発生しても問題はありません。サイトに404エラーがあると、サイトが正しく構成されていることがGooglebotに示されるため、さらに役立つ場合があります。以下は、ウェブマスターツールに表示される404エラーについて、Googleのジョンミューラー(ウェブマスターツールとサイトマップで作業しているが言っていることです。

助けて!私のサイトには939のクロールエラーがあります!! 1

私はこの種の質問を週に数回見ます。あなただけではありません-多くのウェブサイトにはクロールエラーがあります。

  1. 無効なURLでの404エラーは、サイトのインデックス作成やランキングに何らかの影響を与えません。1億または1千万であっても問題ありません。サイトのランキングに悪影響を与えることはありません。http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. 場合によっては、クロールエラーは、WebサイトまたはCMS内の正当な構造上の問題に起因する場合があります。どうやって言うの?クロールエラーの原因を再確認してください。サイトの壊れたリンクがページの静的HTMLにある場合は、常に修正する価値があります。(+ Martino Mosnaに感謝)
  3. 「明らかに壊れている」ファンキーなURLについてはどうでしょうか?あなたのサイトのような当社のアルゴリズムは、たとえばJavaScriptで新しいURLを発見しようとすることで、より素晴らしいコンテンツを見つけようとします。これらの「URL」を試して404を見つけた場合、それは素晴らしいことであり、期待されています。重要なものを見逃したくないだけです(ここに過剰に添付されたGooglebotミームを挿入してください)。http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. ウェブマスターツールでクロールエラーを修正する必要はありません。「修正済みとしてマークする」機能は、進捗状況を追跡する場合にのみ役立ちます。Web検索パイプラインの変更はありませんので、必要のない場合は無視してください。 http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. ウェブマスターツールのクロールエラーを優先度順にリストします。これはいくつかの要因に基づいています。クロールエラーの最初のページが明らかに無関係である場合、他のページで重要なクロールエラーを見つけることはおそらくないでしょう。 http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. ウェブサイトのクロールエラーを「修正」する必要はありません。404を見つけることは正常であり、正常に構成されたWebサイトに期待されます。同等の新しいURLがある場合は、そのURLにリダイレクトすることをお勧めします。それ以外の場合、偽のコンテンツを作成したり、ホームページにリダイレクトしたり、robots.txtでこれらのURLを禁止したりしないでください。これらすべてのことにより、サイトの構造を認識して適切に処理することが難しくなります。これらを「ソフト404」エラーと呼びます。 http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. 明らかに-これらのクロールエラーが関心のあるURL、おそらくサイトマップファイルのURLで表示される場合、すぐに対処する必要があります。Googlebotが重要なURLをクロールできない場合、検索結果から削除され、ユーザーもそれらにアクセスできない可能性があります。

1
それは私の経験ではありませんでした。Googleは新しいインデックスを必要とし、ページをかなり迅速に削除します。あなたが説明したものと似ているように見えるのは、過去にGoogle APIを使用していた他のサイトがデータを更新せず、古い作業を引用する場所です。これらは多くの場合、スパム/ジャンクサイトであり、これらの引用は出現/残存/消滅/再出現する可能性があります。私がこれを見る主な理由は、Google APIが以前はかなり無差別だったため、特に過去にスパムを送信したことがある場合、新しいデータを入手するのが非常に難しいため、スパムデータが古くなったためです。
closetnoc 14年

1
Googlebotには、「地下にURLボックスが見つかりました」と呼ばれるクロールモードがあります。このクロールモードでは、サイトの何千ものURLを連続してクロールできますが、これまで何年も使用していません。URLには通常、スクレーパーサイトからの場合でも、受信リンクがありません。それらは長さの順にクロールされ、短いURLが最初にクロールされます。
スティーブンオステルミラー

それは本当かもしれません。Googleは明らかにビッグデータです。大規模なデータベースにはノイズが含まれています。それは避けられません。それはあなたが経験していることかもしれません。さまざまなデータベースが調整されている可能性があります。それは理にかなっている。ただし、古いリンクと古い引用が含まれるジャンクサイトは2時間しか表示されないこともあります。これは毎日見ます。主にロシアとポーランドにあります。これらのサイトは、ローカル検索エンジンのゲームに使用されますが、どのサイトへのトラフィックにも影響を与え、Googleで取得できます。私は毎日データベースにこれらの約12個を取得しています。通常、12のサイトのうち1つのサイトのみがどの期間でも残ります。
closetnoc 14年

939エラーとは何ですか?
グレッグニコロフ

939はエラーの数であり、一種のエラーではありません。
スティーブンオステルミラー

5

Googleは、これらのページを長時間クロールしようとし続ける可能性があります。ウェブマスターがミスをしたり、何らかの理由でサイトが利用できなくなったりするため、404の最初の兆候でGoogleはコンテンツを削除しません。

または、代わりに410 Goneを提供することもできます。これは、ページが文字通り「なくなった」ために戻ってこないという、はるかに強力な(つまり、意図的な)シグナルです。これにより、Googleはより早くSERPからページを削除するように促される可能性があります。

「解決済みとしてマーク」するように設定しましたが、一部のページはまだ404として返されます。

ページを元に戻した場合にのみ「解決」されます。解決済みとしてマークし、ページが存在しない場合、クロールエラーが繰り返し発生します。ページが存在しない場合は、そのままにしておきます。

本物の404は検索ランキングに悪影響を与えません。GWTの404レポートは、主にあなたの利益のためのものであり、問​​題が発生したとき...ページが見つからなかったときに、それを見つけることができます!

SERPのこれらの無関係なページは、ユーザーにとってはささいな面倒かもしれませんが、lorem ipsumを見つけるために何を検索していますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.