特定のURLのインデックス作成を停止する方法

8

入力するとsite:example.com（明らかにドメインを使用して）、リストにいくつかのリンクエラーが表示されます。通常、これらの形式は次のとおりです。/some/fixed/path/admin/unblockUser/11

次の行をrobots.txtファイルに追加することを考えています：

Disallow: /some/fixed/path/admin/*

— サイモン・ヘイター
ソース

18

検索エンジンが特定のページをインデックスに登録しないようにするには、主に2つの方法があります。

ドメインのRobots.txtファイル。
各ページのMeta Robotsタグ。

Robots.txtは、複数のファイルに一致するURLパターンの最初のストップです。構文はこちらで、詳細はこちらで確認できます。robots.txtファイルは、ドメインのルートフォルダ、つまりに配置する必要がありhttp://www.yourdomain.com/robots.txt、次のようなものが含まれます。

User-agent: *
Disallow: /path/with-trailing-slash/

（上記のテキストの色付けはStackexchangeソフトウェアによって行われるため、無視してください。）

Meta Robotsタグはより柔軟で機能的ですが、影響を与えるすべてのページに挿入する必要があります。

ここでも、Googleはメタロボットの使用方法と、ウェブマスターツールを使用してインデックスからページを削除する方法の概要を説明しています。ウィキペディアには、検索エンジン固有の派生物など、メタロボットに関するより包括的なドキュメントがあります。

Google、The Web Archive、およびその他の検索エンジンがWebページのコピーを保持することを禁止する場合は、次のタグ（HTML4形式で表示）が必要です。

<meta name="robots" content="noarchive">

インデックス作成とコピーの保持を防ぐには：

<meta name="robots" content="noindex, noarchive">

また、上記の両方を防ぐため、およびページ上のリンクを使用して、インデックスに登録するページをさらに検索します。

<meta name="robots" content="noindex, nofollow, noarchive">

注1：上記の3つのメタタグはすべて検索エンジンのみを対象としています。これらはHTTPプロキシやブラウザに影響を与えません。

注2：既にインデックスに登録されアーカイブされているページがあり、robots.txtを介してページをブロックすると同時にメタタグを同じページに追加すると、robots.txtにより、検索エンジンは更新されたメタタグを表示できなくなります。

— ジェスパーM
ソース

1

反対票？なぜこれが反対投票だったのですか？回答を改善できるように、反対票を投じる場合はコメントを残してください。

— Jesper M

@Jesper Mortensenあなたの最初の答えは、キャッシュの質問にまったく対処していませんでした。あなたの編集によりこれが修正され、noindex情報が大幅に改善されました。今すぐ+1 ;-)

— mawtex 2010

1

覚えておくべきことの1つは、robots.txtのdisallowディレクティブはURLのインデックス作成を妨げず、そのURLをインデックスから削除しないことです。検索エンジンは、URLをクロールせずに（許可されていない場合）インデックスを作成できます。そのため、URLのインデックス作成を停止することが重要な場合（コンテンツのインデックス作成を停止するだけでなく）、ロボットメタタグまたはxを使用する必要があります。 -robots-tag HTTPヘッダーを使用して、URLのクロールが禁止されていないことを確認します。

— John Mueller

1

また、必ずしも正しくはありませんが、「noindex、noarchive」を含むrobotsメタタグは「noindex」と同等です（URLがインデックスに登録されていない場合、アーカイブ/キャッシュされません）。

— John Mueller

1

最後に（あまりにも多くのコメントを追加してしまい申し訳ありません:-)）、この特定のケース（admin-pages）では、ログインしていないときにURLが403を返すことを確認します。 noindex robotsメタタグを使用してページに200 +を返すよりも。最終結果は検索結果でも同じですが、適切なHTTP結果コードを使用すると、ログ内の不正な管理者アクセスを簡単に認識できます。

— John Mueller

5

実際、Googleや他の検索エンジンがURLをインデックスに登録しないようにする3つ目の方法があります。これはX-Robots-TagHTTP応答ヘッダーです。これはすべてのドキュメントで機能し、複数のタグを持つことができるため、メタタグよりも優れています。

REP METAタグを使用すると、サイトの各Webページのインデックスを作成する方法を制御できます。ただし、HTMLページでのみ機能します。Adobe PDFファイル、ビデオおよびオーディオファイル、その他のタイプなど、他のタイプのドキュメントへのアクセスをどのように制御できますか？さて、URLごとのタグを指定するための同じ柔軟性が、他のすべてのファイルタイプで使用できます。

METAタグのサポートを拡張し、任意のファイルに関連付けることができるようになりました。ファイルの提供に使用されるHTTPヘッダーの新しいX-Robots-Tagディレクティブに、サポートされているMETAタグを追加するだけです。次に、いくつかの例を示します。Google検索結果にこのアイテムのキャッシュリンクまたはスニペットを表示しないでください：X-Robots-Tag：noarchive、nosnippetこのドキュメントをGoogle検索結果に含めないでください：X-Robots-Tag ：noindex 2007年7月7日午後4時30分（グリニッジ標準時）からドキュメントが利用できなくなることをお知らせください：X-Robots-Tag：unavailable_after：2007年7月7日16:30:00 GMT

同じドキュメント内で複数のディレクティブを組み合わせることができます。例：このドキュメントのキャッシュされたリンクを表示せず、2007年7月23日午後3時（太平洋標準時）にインデックスから削除します：X-Robots-Tag：noarchive X-Robots-Tag：unavailable_after：23 Jul 2007 15:00:00 PST

— ジョンコンデ
ソース

「X-Robots_tagヘッダー」リンクが壊れています。

— mawtex

ヘッドアップをありがとう。Chromeの書式設定ツールバーに問題があるようで、リンクに余分なテキストが追加されました。

— ジョンコンデ

1

はい、それで問題は解決します。コンテンツがGoogleのインデックスに表示されないようにするには、robots.txtまたはhtmlメタタグを使用できます

<meta name="robots" content="noindex, nofollow" />

次にサイトがインデックスに登録されると、コンテンツがGoogleインデックスから削除されます。

noarchive値を指定することもできます。これにより、ページのキャッシュがブロックされます。これはGoogle固有です。

<meta name="robots" content="noarchive" />

Googleのウェブマスターツールの「削除ツール」を使用して、コンテンツの非常に緊急な削除をリクエストできます。最初にコンテンツのインデックス登録をブロックする必要があることに注意してください（robots.txtまたはメタrobotsタグを使用）。

より詳しい情報：

— mawtex
ソース

1

このページが公開されないようにすることが目標である場合は、この一連のページにパスワードを設定することをお勧めします。 または、特定のホワイトリストに登録されたアドレスのみがサイトにアクセスできるようにするいくつかの構成があります（これは、おそらくホストまたはサーバー管理者を介してサーバーレベルで実行できます）。

他の人が述べたように、Googleまたは他の検索エンジンでインデックスが作成されていないだけで、これらのページが存在することを目標とする場合は、いくつかのオプションがありますが、これではGoogle検索の2つの主な機能を区別することが重要だと思います意味：クロールとインデックス作成。

クロールとインデックス作成

Googleがサイトをクロールし、Googleがサイトにインデックスを作成します。クローラーはサイトのページを検索します。インデックスはサイトのページを整理しています。これについての詳細は、こちらをご覧ください。

この区別は、Googleの「インデックス」からページをブロックまたは削除するときに重要です。多くの人はデフォルトでrobots.txtを介してブロックするだけです。これは、クロールする対象（または対象外）をGoogleに指示するディレクティブです。多くの場合、Googleがサイトをクロールしない場合、インデックスに登録される可能性は低いと想定されています。ただし、robots.txtによってブロックされ、Googleでインデックス登録されたページを表示することは非常に一般的です。

Googleおよび検索エンジンへのディレクティブ

これらのタイプの「ディレクティブ」は、サイトのどの部分をクロールしてインデックスに登録するかをGoogleに推奨するだけです。 彼らは彼らに従う必要はありません。 これは重要です。私は長年にわたって多くの開発者がrobots.txtを介してサイトをブロックできると考えているのを見てきましたが、数週間後に突然、サイトがGoogleでインデックスに登録されました。他の誰かがサイトにリンクしている場合、またはGoogleのクローラーの1つが何らかの理由でサイトを取得している場合でも、インデックスに登録できます。

最近、GSC（Google Search Console）の更新されたダッシュボードで、彼らは「インデックスカバレッジレポート」と呼ばれるこのレポートを持っています。これまで直接入手できなかった新しいデータ、Googleが特定の一連のページを処理する方法の具体的な詳細については、こちらのウェブマスターが入手できます。「インデックスに登録されていますが、Robots.txtによってブロックされています」というラベルの付いた「警告」を受信する多くのWebサイトを見たことがあります。

Googleの最新のドキュメントには、ページをインデックスから除外する場合は、noindex nofollowタグを追加することが記載されています。

URLツールの削除

「URLの削除ツール」について他の人が言及したことを基にして...

ページに既にインデックスが付けられていて、それらを早急に取り出す必要がある場合、Googleの「URL削除ツール」を使用すると、検索結果からページを「一時的に」ブロックできます。リクエストは90日間続きますが、noindex、nofollowなどの追加のレイヤーを使用するよりもGoogleからページをすばやく削除するために使用しました。

「URL削除ツール」を使用しても、Googleは引き続きページをクロールし、場合によってはページをキャッシュしますが、この機能を使用している間は、noindex nofollowタグを追加して、タグを表示することができます。うまくいけば、もうページをインデックスに登録しないことがわかっているでしょう。

重要：robots.txtとnoindex nofollowタグの両方を使用すると、Googleへのシグナルが多少競合します。

その理由は、グーグルにページをクロールしないように指示し、そのページにnoindex nofollowがある場合、noindex nofollowタグを表示するためにクロールしない可能性があるためです。次に、他の方法で（リンクかどうかにかかわらず）インデックスを作成できます。これが起こる理由の詳細は漠然としていますが、私はそれが起こるのを見てきました。

要するに、私の意見では、特定のURLのインデックス作成を停止する最良の方法は、それらのページにnoindex nofollowタグを追加することです。この場合、robots.txtでもこれらのURLをブロックしていないことを確認してください。ブロックすると、Googleがこれらのタグを正しく表示できなくなる可能性があります。Googleがnoindex nofollowを処理している間、GoogleからのURLの削除ツールを利用して、それらを検索結果から一時的に非表示にすることができます。

— 目が覚めたゾンビ
ソース