このテーマに関する私の調査に基づいて、データのインデックス作成とキャッシュを防ぐための100%保証された方法はないことがわかりましたが、かなりボットになる可能性があります(ボットトラフィックの増加に対処したい場合)。これが私が情報を解釈した方法です。
robots.txtファイルはサイト全体のロボット情報を定義するために使用され、メタタグはページ固有の詳細に使用されると考えられます。2の背後にある精神はまさにこれだと思いますが、実際にはそうではありません。
robots.txtファイルを作成しないでください
これは、すべての主要な検索プロバイダーと連携して、コンテンツがSERPに表示されないようにします が 、インデックス付けはできます。これにより、ボットによるページのクロールも防止されるため、ロボットメタタグ(下記参照)も無視されます。このため、2を一緒に使用することはできません。そのため、インデックス作成を防止したい場合は、robots.txtファイルを使用しないでください。
補足:GoogleはNoindex: /
robots.txtでのの使用をサポートしていますが、文書化されておらず(いつ壊れるのかはわかっていません)、これが他の誰でも機能するかどうかは不明です。
HTTPヘッダーまたはHTML METAタグを使用してすべてを防止する
robots.txtファイルとは異なり、robotsメタタグ(およびHTTPヘッダー)は広くサポートされており、驚くほど機能が豊富です。各ページに設定するように設計されていますが、最近のX-Robots-Tag
ヘッダーの採用により、サイト全体に簡単に設定できます。この方法の唯一の欠点は、ボットがサイトをクロールすることです。これはを使用して制限できますnofollow
が、すべてのボットが本当に尊重するわけではありませんnofollow
。
古くなったこのブログ投稿で、大量の情報を見つけました。オリジナルのリリースは2007年でしたが、それに関する情報の多くはそれ以降の新機能であるため、定期的に更新されているようです。
要約すると、のHTTPヘッダーを送信する必要がありますX-Robots-Tag: noindex,nofollow,noodp,noydir
。理由の内訳は次のとおりです。
nofollow
サイトでクロールするページの数を制限して、ボットのトラフィックを抑えます。* noindex
ページにインデックスを付けないようにエンジンに指示します。
- 今、あなたはそれ
noindex
で十分かもしれないと仮定するかもしれません。ただし、noindex
サイトにリンクしている他のサイトが原因でサイトがインデックスに登録されている可能性があると言っても、Yからの一般的なサイトリンクを防ぐ最善の方法!ディレクトリ(noydir
)およびオープンディレクトリ(noodp
)。
- HTTPヘッダーを使用すると、ロボットデータがファイル、画像、その他の非HTMLファイルにも適用されます。わーい!
これは99%のケースで機能します。ただし、プロバイダーによっては、インデックスが作成される可能性があることに注意してください。Googleは完全に尊重するnoindex
と主張していますが、私には疑いがあります。
最後に、インデックスを作成する場合、またはすでにインデックスが作成されている場合、情報のインデックスを削除する唯一の方法は、各プロバイダーからのさまざまな手段に従って、サイト/ URLの削除を要求することです。これは明らかに、Google Alertsのようなものを使用してサイト/ページを監視する必要があることを意味します(@Joeに感謝)。