Googleウェブマスターツールから、ロボットがサイトマップへのアクセスをブロックしていることがわかります


11

これは私のrobots.txtです:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

しかし、Googleウェブマスターツールは、ロボットがサイトマップへのアクセスをブロックしていることを教えてくれます:

サイトマップへのアクセス中にエラーが発生しました。サイトマップがGoogleのガイドラインに従っており、指定した場所からアクセスできることを確認してから、再送信してください:robots.txtにより制限されたURL

Googleウェブマスターツールがrobots.txtをキャッシュすることを読みましたが、ファイルは36時間以上前に更新されています。

更新:

TESTサイトマップを押しても、Googleは新しいサイトマップを取得しません。SUBMITサイトマップだけがそれを行うことができました。(ところで、現在のサイトマップをそこに貼り付けない限り、「テストサイトマップ」の要点はわかりません。テスト前に入力を要求するアドレスからサイトマップの新しいコピーを取得することはありませんが、それは別の日の質問です。)

新しいサイトマップを(テストではなく)送信した後、状況が変化しました。「robots.txtによってブロックされたURLです。サイトマップにはrobots.txtによってブロックされたURLが含まれています」と表示されます。44 URL。サイトマップには正確に44のURLがあります。このGoogleは新しいサイトマップを使用しているが、それはまだ(立ち入り禁止のすべてを保持する)古いロボット規則によって起こっていないことを意味 44のURLのいずれもしている/wp-admin//wp-includes/いるので、とにかく種類が不可能のである(robots.txtのは、上に構築されますサイトマップを作成するのと同じプラグインによるフライ)。

アップデート2:

さらに悪いことに、Google検索結果ページでは、ホームページの説明に「このサイトのrobots.txtがあるため、この結果の説明はありません–詳細」と表示されます。他のすべてのページには詳細な説明があります。ホームページのrobots.txtまたはrobotsメタブロックインデックスはありません。

行き詰まっています。


Googleウェブマスターツール> [ヘルス]> [ブロックされたURL]で、robots.txtがサイトマップURL(またはテストしたい他のURL)をブロックするかどうかをすぐにテストできます。現在の robots.txtがサイトマップをブロックするようには見えませんが、これは更新されたと言っています。なかった以前の robots.txtファイルのバージョンは、これをブロックしますか?
MrWhite 2012

1
はい、以前のバージョンはブロックしました。私はグーグルがそのキャッシュを更新していないと思います...
Gaia

私はまったく同じ問題を抱えています。私のrobots.txtキャッシュは、今年の4月23日のものです。今日は4月25日で、キャッシュはまだ古いです。待つ時間がないので、グーグルブートで自分のサイト(ビジネスサイト)をインデックスに登録する必要がありますが、何もできないようです。それはとてもイライラします!

回答:


8

Googleはおそらくrobots.txtファイルのキャッシュをまだ更新していないようです。現在のrobots.txtファイル(上記)は、サイトマップURLをブロックしているようには見えません。

私はグーグルがそのキャッシュを更新していないと思います。

推測する必要はありません。Googleウェブマスターツール(GWT)の[正常性]> [ブロックされたURL]で、robots.txtが最後にダウンロードされた日時と、それが成功したかどうかを確認できます。また、robots.txtファイルによってブロックされたURLの数も通知されます。

Googleウェブマスターツールのrobots.txtリファレンス

私のコメントで述べたように、GWTにはrobots.txtチェッカーツールがあります(「健康」>「ブロックされたURL」)。そのため、robots.txtへの変更をすぐにテストできます(実際のファイルを変更せずに)。上部のテキストエリアでrobots.txtファイルを指定し、下部のテキストエリアでテストするURLを指定すると、ブロックされるかどうかが通知されます。


robots.txtのキャッシュ

robots.txtリクエストは通常​​、最大1日間キャッシュされますが、キャッシュされたバージョンを更新できない場合(タイムアウトや5xxエラーなど)は、キャッシュが長くなることがあります。キャッシュされた応答は、異なるクローラーによって共有される場合があります。Googleは、max-age Cache-Control HTTPヘッダーに基づいて、キャッシュの有効期間を増減する場合があります。

出典:Google Developers-Robots.txt仕様


それは24時間後もそうでしょうか?
ガイア

ウェブマスターツールで報告される「ダウンロード済み」の日付とは何ですか。それがまだ当てはまるかどうかがわかります。上記のスクリーンショット(私のサイトの1つ)に示されているように、robots.txtファイルは最後に「2012年9月3日」にダウンロードされました(3日前)。しかし、私の場合、何も変更されていないため、ファイルを再度ダウンロードする必要はありません(Last-Modifiedヘッダーは同じである必要があります)。Googleがrobots.txtファイルをフェッチする頻度は、サーバーによって設定されたExpiresおよびLast-Modifiedヘッダーによって異なります。
MrWhite 2012

22時間前にダウンロードされ、有効期限ヘッダーは+24時間と表示します。数時間後には解決するはずです。
ガイア

それはそれをしませんでした。グーグルは新しいサイトマップを使用していますが、それでも古いrobots.txtルール(すべてを制限外に保ちました)に従っています
Gaia

「それでうまくいきませんでした」-robots.txtファイルのキャッシュであるGoogleはまだ更新していませんか?36時間以上前にファイルを変更し、22時間前にダウンロードされたと報告されたと言いますが!?robots.txtファイルへのリンクをクリックすると、何が表示されますか?
MrWhite 2012

2

インストール中にWPを選択すると、検索エンジンや同じオプションで追跡しないので、サイトで同じ問題が発生しました。

この問題を解決するには:

  1. ウェブマスターツールのクロールに移動してURLを削除www.example.com/robots.txtし、このオプションを使用して送信します->キャッシュから削除してコンテンツを変更するか...
  2. ちょっと待って
  3. サイトマップURLを再送信します
  4. 仕上げ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.