GoogleおよびBingボットにのみサイトのクロールを許可する

サイトに次のrobots.txtファイルを使用しています。ターゲットは、googlebotとbingbotがページ以外のサイトにアクセスできる/bedven/bedrijf/*ようにし、他のすべてのボットがサイトをクロールできないようにすることです。

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

最後のルールではUser-agent: * Disallow: /、すべてのボットがサイトのすべてのページをクロールすることを禁止していますか？

web-crawlers robots.txt

— コンソール
ソース

この全体の仕事は私に関係しています。他の検索エンジンがあり、それらを使用する誰もあなたのサイトを見ることはありません。theeword.co.uk/info/search_engine_marketによると、インターネットの4.99％は検索エンジンを利用していません。それはたくさんの人です。より良い方法は、トラフィックを監視し、ボットが実際に問題を引き起こしているかどうかを確認し、それらを具体的にブロックすることです。

— GKFX 2015年

誤動作しているボットは、robots.txtとにかく完全に無視することができます

— Nick T

本当に悪いボットはrobots.txtを気にしません

— Osvaldo

@NickT、現実の世界では、、robots.txtまたは少なくともDisallow: /ルールに従う、行儀の悪いボットの不足はありません。ボットプログラマーがサーバーが256 kbit接続の間違った端にあるRaspberry Piであるとは決して考えなかったために、個人のWebサイトが地面に打ち込まれている場合は、このような包括的な除外が役立ちます。

— Mark

@コンソールはなぜですか？

— o0 '。

回答:

最後のレコード（で始まるUser-agent: *）には、「googlebot」、「google」、「bingbot」、または「bing」として識別されないすべてのポライトボットが続きます。
そして、はい、それは彼らが何かをクロールすることが許可されていないことを意味します。

あなたは、省略することができます*では/bedven/bedrijf/*。
元のrobots.txt仕様で*は、特別な意味はなく、他の文字と同じです。したがって*、URLに文字が含まれているページのクロールのみが許可されます。
Googleは、彼らが使用しているため、その点ではrobots.txtの仕様に従っていませんが*、「任意の文字列」のためのワイルドカードとして、それはだ必要ありません。この場合には彼らのために：/bedven/bedrijf/*と/bedven/bedrijf/まったく同じ意味になります。そのパスのすべてのURLをブロック始まりと/bedven/bedrijf/。

そして最後に、レコードには複数のUser-agent行を含めることができるため、robots.txtを2つのレコードに減らすことができます。

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

— unor
ソース

Googleは robots.txtのcrawl-delayディレクティブを無視することに注意してください。代わりに、Googleウェブマスターツールで設定する必要があります。

— DisgruntledGoat 2015年

-2

ボット、特に悪いものはrobots.txtファイルを無視するかもしれません。したがって、そこに何が記述されていても、一部のボットがサイトをクロールする可能性があります。

— アティス・ルグス
ソース