どのボットが本当にサイトに入れる価値があるのですか？

いくつかのボットを記述し、偶然にサイトをクロールする大量のランダムなボットを見て、私はWebマスターとして、どのボットが本当にサイトにアクセスする価値があるのだろうと思いますか？

私の最初の考えは、ボットをサイトに許可すると、潜在的に実際のトラフィックをサイトにもたらす可能性があるということです。既知のボットが実際のトラフィックをサイトに送信することを許可する理由はありますか？これらの「良い」ボットをどのように見つけますか？

— 失敗
ソース

+1：よい質問です。ただし、ボットが非常に多いため、質問に答えることは困難です。

— ジストローエン2014年

@Zistoloen：はい、難しい質問です。実際、私が尋ねた理由は、私が知っている非メジャー検索エンジンが数十億のページにインデックスを付けているため、サイトが非メジャー検索エンジンをブロックしようとしたために大量のWebにアクセスできなかったという不満があったためです。

— 2014年

関連：en.wikipedia.org/wiki/Spider_trap

— Mooing Duck

@blunders時間を割いていただきありがとうございます。質問を解析できた場合は、自分で編集したでしょう:)

— DisgruntledGoat

@DisgruntledGoat：問題ありません。編集ありがとうございます！

— 失敗

回答:

通常のボットの領域では、それはすべてあなたが感謝することに依存し、あなただけがそれを決定することができます。もちろん、Google、Bing / MSN / Yahoo！、Baidu、Yandexがあります。これらは主要な検索エンジンです。様々なSEOとバックリンクサイトもあります。正しいか間違っているか、私はいくつかの大きなサイトに私のサイトへのアクセスを許可していますが、一般的に、それらは役に立たないサイトです。robots.txtだけでなく、ドメイン名とIPアドレスでarchive.orgをブロックしています。これは、robots.txtを大々的に無視するためです。これはあなたが感触を得るために必要なものです。エージェント名に騙されないでください。多くの場合、彼らは悪い人たちによって偽造されています。今日、私はバイドゥであると主張する情報源から何千ものページ要求を受け取っていますが、そうではありません。ドメイン名とIPアドレスブロックによってこれらのスパイダーを理解し、そのレベルでそれらに対処する方法を学びます。良いものはrobots.txtに従います。

ただし、ステルスボット、ローグボット、スクレイパーなどが大量に存在するため、ログ分析を頻繁に検索してブロックする必要があります。この5uck5！しかし、それは行われなければなりません。最近の最大の脅威は、サイトへの低品質のリンクです。今年実装したボット対策の更新されたセキュリティコードは、7700の低品質リンクを自動的にドロップしました。もちろん、私のコードにはまだ作業が必要ですが、要点はわかります。悪いボットはまだサイトの潜在能力を盗んでいます。

あなたがそれのこつをつかむ前にそれは長くはありません。

— クローゼット
ソース

検索エンジンがほとんどトラフィックを送信していないときに、Baiduボットがサーバーの速度を低下させる問題がありました。これらのボットはrobots.txtファイルを考慮しないため、Baiduボットをブロックするには、以下をhtccessファイルに貼り付けます。

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

Baiduとは異なり、robots.txtファイルを尊重しているため、Bing / Microsoftスパイダーのクロールが速すぎるという問題もありました。

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1

— Chaoley
ソース