回答:
Google Search Console(以前のGoogle Webmaster Tools)でサイトを登録することを強くお勧めします。サイト構成の下にあるクローラーアクセスセクションには、robots.txtが最後にダウンロードされた日時が表示されます。このツールは、クローラーがサイトをどのように見ているか、ブロックされているか機能していないか、Googleのクエリのどこに表示されているかなど、多くの詳細を提供します。
私の知る限り、Googleはrobots.txtを頻繁にダウンロードします。Google Search Consoleサイトでは、インデックスからURLを明確に削除できるため、現在ブロックしているURLを削除できます。
頑張って。robots.txtからメタnoindex、nofollowに変更しました。メタを機能させるには、robots.txtのブロックされたアドレスを最初にブロック解除する必要がありました。
robots.txtを完全に削除して(そしてGoogleのウェブマスターで削除して)残酷にこれを行いました。
webmasterツールに表示されるrobots.txtの削除プロセス(ブロックされたページ数)が完了するまでに10週間かかりましたが、この2週間でGoogleによってのみ一括削除されました。
はい、Googleは明らかにrobots.txtをある程度キャッシュします -ページを見るたびにダウンロードするわけではありません。それがどれだけの期間キャッシュされるかはわかりません。ただし、長いExpiresヘッダーセットがある場合、Googlebotはファイルをチェックするためにもっと長く残すことがあります。
もう1つの問題は、ファイルの構成ミスです。danivovichが提案するウェブマスターツールには、robots.txtチェッカーがあります。どのタイプのページがブロックされ、どのページが正常であるかがわかります。
Googleのドキュメントでは、通常1日間robots.txtをキャッシュしますが、更新しようとしたときにエラーが発生した場合は長期間使用する可能性があります。
通常、robots.txtリクエストは最大1日間キャッシュされますが、キャッシュされたバージョンを更新できない場合(タイムアウトや5xxエラーなど)には、より長くキャッシュされる場合があります。キャッシュされた応答は、異なるクローラーによって共有される場合があります。Googleは、max-age Cache-Control HTTPヘッダーに基づいてキャッシュの有効期間を増減する場合があります。
はい。通常は1日に1回更新しますが、一定数のページヒット(100?)後にチェックすることを提案しているため、より忙しいサイトがより頻繁にチェックされます。
/webmasters//a/29946およびhttp://youtube.com/watch?v=I2giR-WKUfYの上で@DisgruntedGoatが共有したビデオを参照してください。