robots.txtでディレクトリ全体を禁止するにはどうすればよいですか?


19

現在作業中の2つのサイトは、ショッピングカートと買い物客です。両方が同じドメイン名の下にあるので、例えば

http://example.com/first_url 
http://example.com/second_url 

これらのURLは両方とも、その下に大量のページがあります

http://example.com/first_url/product1
http://example.com/first_url/product2 
http://example.com/first_url/product3

http://example.com/second_url/product1
http://example.com/second_url/product2 
http://example.com/second_url/product3

どのように私は、メインのURLを禁止します/first_urlし、/second_urlあまりにも、すべてのサブページやサブディレクトリ?私はこのようなことを考えていましたが、これが機能するかどうか、それが正しい構文であったかどうかはわかりません

Disallow: /first_url/*/
Disallow: /second_url/*/

1
あなたの構文は正しいと思いますが、余分なものについては

回答:


26

これらのディレクトリをブロックするために、末尾のスラッシュは必要ありません。これは動作します:

Disallow: /first_url/*
Disallow: /second_url/*

このGoogleヘルプページでは、これについて詳しく説明しています。


7
「Disallow:/ first_url」を実行するだけです。末尾のワイルドカードは無視されます。するためによるとdevelopers.google.com/webmasters/control-crawl-index/docs/...
エフゲニー・

あなたは禁止する必要が:/ URL / *のようなものと一致するexample.com/url/test?test=1
ギャレスDaine

-1

これをデフォルトとして使用できますrobots.txt

User-agent: *
Disallow: first_url/*
Disallow: second_url/*

スターを付けると、そのカテゴリの下にあるすべてのものが許可されなくなります。その特定のURLを入力することで、そのカテゴリの下にある特定のものを禁止することもできます。


4
これは、開始スラッシュが欠落していることを除けば、受け入れられている答えと違いはありません。robots.txtの禁止ルールはすべてスラッシュで始まる必要があります。それがすべての例がドキュメントにある方法です
スティーブン・オステルミラー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.