回答:
検索エンジンが特定のページをインデックスに登録しないようにするには、主に2つの方法があります。
Robots.txtは、複数のファイルに一致するURLパターンの最初のストップです。構文はこちらで、詳細はこちらで確認できます。robots.txtファイルは、ドメインのルートフォルダ、つまりに配置する必要がありhttp://www.yourdomain.com/robots.txt
、次のようなものが含まれます。
User-agent: *
Disallow: /path/with-trailing-slash/
(上記のテキストの色付けはStackexchangeソフトウェアによって行われるため、無視してください。)
Meta Robotsタグはより柔軟で機能的ですが、影響を与えるすべてのページに挿入する必要があります。
ここでも、Googleはメタロボットの使用方法と、ウェブマスターツールを使用してインデックスからページを削除する方法の概要を説明しています。ウィキペディアには、検索エンジン固有の派生物など、メタロボットに関するより包括的なドキュメントがあります。
Google、The Web Archive、およびその他の検索エンジンがWebページのコピーを保持することを禁止する場合は、次のタグ(HTML4形式で表示)が必要です。
<meta name="robots" content="noarchive">
インデックス作成とコピーの保持を防ぐには:
<meta name="robots" content="noindex, noarchive">
また、上記の両方を防ぐため、およびページ上のリンクを使用して、インデックスに登録するページをさらに検索します。
<meta name="robots" content="noindex, nofollow, noarchive">
注1:上記の3つのメタタグはすべて検索エンジンのみを対象としています。これらはHTTPプロキシやブラウザに影響を与えません。
注2:既にインデックスに登録されアーカイブされているページがあり、robots.txtを介してページをブロックすると同時にメタタグを同じページに追加すると、robots.txtにより、検索エンジンは更新されたメタタグを表示できなくなります。
実際、Googleや他の検索エンジンがURLをインデックスに登録しないようにする3つ目の方法があります。これはX-Robots-Tag
HTTP応答ヘッダーです。これはすべてのドキュメントで機能し、複数のタグを持つことができるため、メタタグよりも優れています。
REP METAタグを使用すると、サイトの各Webページのインデックスを作成する方法を制御できます。ただし、HTMLページでのみ機能します。Adobe PDFファイル、ビデオおよびオーディオファイル、その他のタイプなど、他のタイプのドキュメントへのアクセスをどのように制御できますか?さて、URLごとのタグを指定するための同じ柔軟性が、他のすべてのファイルタイプで使用できます。
METAタグのサポートを拡張し、任意のファイルに関連付けることができるようになりました。ファイルの提供に使用されるHTTPヘッダーの新しいX-Robots-Tagディレクティブに、サポートされているMETAタグを追加するだけです。次に、いくつかの例を示します。Google検索結果にこのアイテムのキャッシュリンクまたはスニペットを表示しないでください:X-Robots-Tag:noarchive、nosnippetこのドキュメントをGoogle検索結果に含めないでください:X-Robots-Tag :noindex 2007年7月7日午後4時30分(グリニッジ標準時)からドキュメントが利用できなくなることをお知らせください:X-Robots-Tag:unavailable_after:2007年7月7日16:30:00 GMT
同じドキュメント内で複数のディレクティブを組み合わせることができます。例:このドキュメントのキャッシュされたリンクを表示せず、2007年7月23日午後3時(太平洋標準時)にインデックスから削除します:X-Robots-Tag:noarchive X-Robots-Tag:unavailable_after:23 Jul 2007 15:00:00 PST
はい、それで問題は解決します。コンテンツがGoogleのインデックスに表示されないようにするには、robots.txtまたはhtmlメタタグを使用できます
<meta name="robots" content="noindex, nofollow" />
次にサイトがインデックスに登録されると、コンテンツがGoogleインデックスから削除されます。
noarchive
値を指定することもできます。これにより、ページのキャッシュがブロックされます。これはGoogle固有です。
<meta name="robots" content="noarchive" />
Googleのウェブマスターツールの「削除ツール」を使用して、コンテンツの非常に緊急な削除をリクエストできます。最初にコンテンツのインデックス登録をブロックする必要があることに注意してください(robots.txtまたはメタrobotsタグを使用)。
より詳しい情報:
このページが公開されないようにすることが目標である場合は、この一連のページにパスワードを設定することをお勧めします。 または、特定のホワイトリストに登録されたアドレスのみがサイトにアクセスできるようにするいくつかの構成があります(これは、おそらくホストまたはサーバー管理者を介してサーバーレベルで実行できます)。
他の人が述べたように、Googleまたは他の検索エンジンでインデックスが作成されていないだけで、これらのページが存在することを目標とする場合は、いくつかのオプションがありますが、これではGoogle検索の2つの主な機能を区別することが重要だと思います意味:クロールとインデックス作成。
Googleがサイトをクロールし、Googleがサイトにインデックスを作成します。クローラーはサイトのページを検索します。インデックスはサイトのページを整理しています。これについての詳細は、こちらをご覧ください。
この区別は、Googleの「インデックス」からページをブロックまたは削除するときに重要です。多くの人はデフォルトでrobots.txtを介してブロックするだけです。これは、クロールする対象(または対象外)をGoogleに指示するディレクティブです。多くの場合、Googleがサイトをクロールしない場合、インデックスに登録される可能性は低いと想定されています。ただし、robots.txtによってブロックされ、Googleでインデックス登録されたページを表示することは非常に一般的です。
これらのタイプの「ディレクティブ」は、サイトのどの部分をクロールしてインデックスに登録するかをGoogleに推奨するだけです。 彼らは彼らに従う必要はありません。 これは重要です。 私は長年にわたって多くの開発者がrobots.txtを介してサイトをブロックできると考えているのを見てきましたが、数週間後に突然、サイトがGoogleでインデックスに登録されました。他の誰かがサイトにリンクしている場合、またはGoogleのクローラーの1つが何らかの理由でサイトを取得している場合でも、インデックスに登録できます。
最近、GSC(Google Search Console)の更新されたダッシュボードで、彼らは「インデックスカバレッジレポート」と呼ばれるこのレポートを持っています。 これまで直接入手できなかった新しいデータ、Googleが特定の一連のページを処理する方法の具体的な詳細については、こちらのウェブマスターが入手できます。「インデックスに登録されていますが、Robots.txtによってブロックされています」というラベルの付いた「警告」を受信する多くのWebサイトを見たことがあります。
Googleの最新のドキュメントには、ページをインデックスから除外する場合は、noindex nofollowタグを追加することが記載されています。
「URLの削除ツール」について他の人が言及したことを基にして...
ページに既にインデックスが付けられていて、それらを早急に取り出す必要がある場合、Googleの「URL削除ツール」を使用すると、検索結果からページを「一時的に」ブロックできます。リクエストは90日間続きますが、noindex、nofollowなどの追加のレイヤーを使用するよりもGoogleからページをすばやく削除するために使用しました。
「URL削除ツール」を使用しても、Googleは引き続きページをクロールし、場合によってはページをキャッシュしますが、この機能を使用している間は、noindex nofollowタグを追加して、タグを表示することができます。うまくいけば、もうページをインデックスに登録しないことがわかっているでしょう。
重要:robots.txtとnoindex nofollowタグの両方を使用すると、Googleへのシグナルが多少競合します。
その理由は、グーグルにページをクロールしないように指示し、そのページにnoindex nofollowがある場合、noindex nofollowタグを表示するためにクロールしない可能性があるためです。次に、他の方法で(リンクかどうかにかかわらず)インデックスを作成できます。これが起こる理由の詳細は漠然としていますが、私はそれが起こるのを見てきました。
要するに、私の意見では、特定のURLのインデックス作成を停止する最良の方法は、それらのページにnoindex nofollowタグを追加することです。この場合、robots.txtでもこれらのURLをブロックしていないことを確認してください。ブロックすると、Googleがこれらのタグを正しく表示できなくなる可能性があります。Googleがnoindex nofollowを処理している間、GoogleからのURLの削除ツールを利用して、それらを検索結果から一時的に非表示にすることができます。