Googleはrobots.txtをキャッシュしますか？

17

1 週間前にrobots.txtファイルを自分のサイトの1つに追加しました。これにより、Googlebotが特定のURLを取得できなくなりました。ただし、今週の週末には、Googlebotがそれらの正確なURLを読み込んでいるのを見ることができます。

Googleはrobots.txtをキャッシュしますか？

googlebot robots.txt google-cache

— クォーグ
ソース

13

Google Search Console（以前のGoogle Webmaster Tools）でサイトを登録することを強くお勧めします。サイト構成の下にあるクローラーアクセスセクションには、robots.txtが最後にダウンロードされた日時が表示されます。このツールは、クローラーがサイトをどのように見ているか、ブロックされているか機能していないか、Googleのクエリのどこに表示されているかなど、多くの詳細を提供します。

私の知る限り、Googleはrobots.txtを頻繁にダウンロードします。Google Search Consoleサイトでは、インデックスからURLを明確に削除できるため、現在ブロックしているURLを削除できます。

— danivovich
ソース

2

ウェブマスターツールを確認しました。robots.txtファイルは有効であり、googlebotがそれらのページに最後にアクセスする17時間前に取得されました。私はそれがグーグルのネットワークを介した伝播の問題だと思う-最終的にすべてのグーグルボットサーバーはrobots.txtの指示に追いつくでしょう。

— Quog

Search Consoleで更新が報告されるたびに、Googleボットはrobots.txtを使用しません。更新を行ってから4週間が経過しましたが、Googleボットは引き続き不正なrobots.txtを使用しています。これにより、トラフィックとランキングが破壊されます。

— コーポレートオタク

3

頑張って。robots.txtからメタnoindex、nofollowに変更しました。メタを機能させるには、robots.txtのブロックされたアドレスを最初にブロック解除する必要がありました。

robots.txtを完全に削除して（そしてGoogleのウェブマスターで削除して）残酷にこれを行いました。

webmasterツールに表示されるrobots.txtの削除プロセス（ブロックされたページ数）が完了するまでに10週間かかりましたが、この2週間でGoogleによってのみ一括削除されました。

— アラルド
ソース

私はあなたに同意する傾向があります。ミスを犯し、robots.txtファイルを誤って更新しました。Googleはそれをキャッシュし、間違いを修正してから新しいrobots.txtに置き換えてから4週間後にそれを使用しています。Googleウェブマスターツールで更新リクエストを手動で送信しましたが... これは、トラフィックとランキングの損失につながるため、非常に悪いことです。:(

— Corporate Geek

2

はい、Googleは明らかにrobots.txtをある程度キャッシュします -ページを見るたびにダウンロードするわけではありません。それがどれだけの期間キャッシュされるかはわかりません。ただし、長いExpiresヘッダーセットがある場合、Googlebotはファイルをチェックするためにもっと長く残すことがあります。

もう1つの問題は、ファイルの構成ミスです。danivovichが提案するウェブマスターツールには、robots.txtチェッカーがあります。どのタイプのページがブロックされ、どのページが正常であるかがわかります。

— 不機嫌なヤギ
ソース

この回答のコメントを参照webmasters.stackexchange.com/questions/2272/…–

— Quog

2

@Quog：この最近のビデオをご覧ください：youtube.com/watch ?v=I2giR-WKUfY Matt Cuttsは、robots.txtを1日1回または約100件のリクエストごとにダウンロードすることを提案しています。

— 不機嫌なヤギ

2

Googleのドキュメントでは、通常1日間robots.txtをキャッシュしますが、更新しようとしたときにエラーが発生した場合は長期間使用する可能性があります。

通常、robots.txtリクエストは最大1日間キャッシュされますが、キャッシュされたバージョンを更新できない場合（タイムアウトや5xxエラーなど）には、より長くキャッシュされる場合があります。キャッシュされた応答は、異なるクローラーによって共有される場合があります。Googleは、max-age Cache-Control HTTPヘッダーに基づいてキャッシュの有効期間を増減する場合があります。

— スティーブン・オステルミラー
ソース

1

はい。通常は1日に1回更新しますが、一定数のページヒット（100？）後にチェックすることを提案しているため、より忙しいサイトがより頻繁にチェックされます。

/webmasters//a/29946およびhttp://youtube.com/watch?v=I2giR-WKUfYの上で@DisgruntedGoatが共有したビデオを参照してください。

— スタッドギーク
ソース

1

彼らが行うユーザーアクセス可能なキャッシュで私が見ることができるものから、あなたがする必要があることはGoogle検索にrobots.txtファイルのURLを入力し、小さな緑色のドロップダウン矢印をクリックして「キャッシュ」をクリックします（下の画像を参照）これにより、Googleサーバーからそのページの最新バージョンが取得されます。

ここに画像の説明を入力してください

— サム
ソース

-2

GoogleのURL削除ツールを使用して削除をリクエストできます。

— こざしそうざ
ソース

これは質問に答えません。

— -MrWhite

なぜ答えないの？

— コザシソウザ15年

質問は特にrobots.txt、キャッシングとURLのクロールに関するものだからです。この結果の1つは、URLがインデックス化されていないことかもしれませんが、それは問題ではありません。（GoogleのURL削除ツールも「一時的な」修正にすぎません。永続化するために必要な他の手順があります。）

— MrWhite