GoogleおよびBingボットにのみサイトのクロールを許可する


10

サイトに次のrobots.txtファイルを使用しています。ターゲットは、googlebotとbingbotがページ以外のサイトにアクセスできる/bedven/bedrijf/*ようにし、他のすべてのボットがサイトをクロールできないようにすることです。

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

最後のルールではUser-agent: * Disallow: /、すべてのボットがサイトのすべてのページをクロールすることを禁止していますか?


11
この全体の仕事は私に関係しています。他の検索エンジンがあり、それらを使用する誰もあなたのサイトを見ることはありません。theeword.co.uk/info/search_engine_marketによると、インターネットの4.99%は検索エンジンを利用していません。それはたくさんの人です。より良い方法は、トラフィックを監視し、ボットが実際に問題を引き起こしているかどうかを確認し、それらを具体的にブロックすることです。
GKFX 2015年

8
誤動作しているボットは、robots.txtとにかく完全に無視することができます
Nick T

8
本当に悪いボットはrobots.txtを気にしません
Osvaldo

4
@NickT、現実の世界では、、robots.txtまたは少なくともDisallow: /ルールに従う、行儀の悪いボットの不足はありません。ボットプログラマーがサーバーが256 kbit接続の間違った端にあるRaspberry Piであるとは決して考えなかったために、個人のWebサイトが地面に打ち込まれている場合は、このような包括的な除外が役立ちます。
Mark

2
@コンソールはなぜですか?
o0 '。

回答:


24

最後のレコード(で始まるUser-agent: *)には、「googlebot」、「google」、「bingbot」、または「bing」として識別されないすべてのポライトボットが続きます。
そして、はい、それは彼らが何かをクロールすることが許可されていないことを意味します。

あなたは、省略することができます*では/bedven/bedrijf/*
元のrobots.txt仕様で*は、特別な意味はなく、他の文字と同じです。したがって*、URLに文字が含まれているページのクロールのみが許可されます。
Googleは、彼らが使用しているため、その点ではrobots.txtの仕様に従っていませんが*、「任意の文字列」のためのワイルドカードとして、それはだ必要ありません。この場合には彼らのために:/bedven/bedrijf/*/bedven/bedrijf/まったく同じ意味になります。そのパスのすべてのURLをブロック始まり/bedven/bedrijf/

そして最後に、レコードには複数のUser-agent行を含めることができるため、robots.txtを2つのレコードに減らすことができます。

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

5
Googleは robots.txtのcrawl-delayディレクティブを無視することに注意してください。代わりに、Googleウェブマスターツールで設定する必要があります。
DisgruntledGoat 2015年

-2

ボット、特に悪いものはrobots.txtファイルを無視するかもしれません。したがって、そこに何が記述されていても、一部のボットがサイトをクロールする可能性があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.