サイトからボットをブロックする必要がありますか？

私のログには、多くの場合、東ヨーロッパと中国からのボット訪問者でいっぱいです。ボットは、Ahrefs、Seznam、LSSRocketCrawler、Yandex、Sogouなどとして識別されます。私のサイトからこれらのボットをブロックする必要がありますか？

サイトへのトラフィックを増やすために正当な目的があるのはどれですか？それらの多くはSEOです。

ボットが大量に到着して以来、トラフィックが少ない場合は、トラフィックが少ないと言わざるを得ません。

これらはすべて、ユーザーエージェントでボットであることを認めているため、これらをブロックするのはそれほど難しくありません。

seo web-crawlers user-agent

— フランクE
ソース

回答:

ボットをブロックできますが、それはあなたのウェブサイトに何を望むかに依存します。

特定の検索エンジンでインデックス登録されたWebサイトを表示したくない場合は、検索エンジンボットをブロックできます。
例：Yandexはロシアの検索エンジンです。あなたのビジネスがロシアをターゲットにしていない場合、そのボットをブロックできます。

Web分析ソリューションを使用したくない場合は、SEOボットをブロックできます。
例：AhrefsはWeb分析ソリューションです。このWeb分析ソリューションを使用しない場合、そのボットをブロックできます。

ボットをブロックする理由：

Webサイトにアクセスするロボットの数が減り、実際の訪問者により多くの帯域幅が割り当てられます
マルウェアボットに対して安全である
ログサイズ

ボットをブロックしない理由：

検索エンジンボットなどのボットは、ウェブサイトにインデックスを付けることでトラフィックを増やすことができます。

robotstxt.orgのFAQを読むと、ボットについて詳しく知ることができます。

ブロックする複数のロボットを決定する場合は、このWebサイトrobots.txtからインスピレーションを得ることができます。

注意してください、一部のボットはrobots.txtを無視できます。詳細はこちらをご覧ください。

結論：インターネットロボット機能を検索して、ブロックすることが有用かどうかを判断できます。

— ジストロエン
ソース

ありがとう。ちなみに私はリノデからも訪問しています。UAは、Pythonスクリプトだと言っています。不審に思うべきですか？

— フランクE

もし私があなただったら、Linodeをブロックしなかった。ホスティングについての正確な理由はわかりません。

— ジストロエン

IPStradaはどうですか？それらが時々現れるのを見る。彼らは決してアカウントにサインアップしません。

— フランクE

Linodeのように。あなたや彼らがアカウントにサインアップしていなくても、ロボットはインターネットをスキャンします。しかし、心配しないでください、それは大したことではありません。

— ジストロエン

ボットをブロックしようとすると、リソースの解放とログのクリーンアップに役立ちますが、robots.txtに加え、ページnoindexでメタタグを使用しても、ボットがサイトにアクセスすることは実際には停止しません。彼らはまだサイトを時々クロールして、ロボットから拒否されたものが削除されたかどうかを確認できます。多くのボットはユーザーエージェントを使用せず、標準ユーザーエージェントを使用します。私が言及しているボットは、通常、検索エンジンから見つけた一般的なものではなく、バックリンクをスキャンするSEO収集ボットです。

ボットをブロックするのではなく、訪問者をカウントするときにこれらのボットを考慮する必要があります。しばらくの間サイトを積極的に監視した後、ボットである大まかな数字を確立します。ほとんどの人はユニークな訪問を気にしますが、これはボットが絶えず戻ってくるため、ボットを排除します。この日と時代には、これらのボットを処理できる多くのサーバー、共有ホスティングがあるため、インデックスを作成したくないページ以外に、これらのタイプのボットをブロックする理由はわかりません。もちろん有害なボットもありますが、これらは確かにユーザーエージェントを使用しません;）。

個人的には、ロボットをブロックすることはあまりリソースを使用しないので時間の無駄だと思います。SEOロボットはあなたのサイトをPR0ページにリストするので役立ちます。もちろん、あなたのPageRankが増加し、罰せられません彼らによって。

ログの問題

特定のリクエストを除外できる適切なログビューアを使用する必要があります。これにより、ログを確認するときに簡単になります。優れた視聴者は、通常の訪問や404などの多くのことを除外できます。

— サイモン・ヘイター
ソース

SEOボットがバックリンクをスキャンするのはなぜですか？それは、SEOコンサルタントが使用するものだからですか？それとももっと不吉な目的がありますか？

— フランクE

こんにちはフランク、彼らはバックリンクをスキャンし、ウェブマスターがそれらにリンクしている人を見ることができるようにそれらを記録します。SEO企業がバックリンクをログに記録し、ウェブマスターに料金を請求して、リンクの作成者、リンクが作成されたとき、削除された場合、フォローまたはフォローされない場合-使用するアンカーテキストなどを発見するのは大金です。グーグル、ビングはこの情報を提供しないので、それは望ましいサービスであり、リンクネットワークを見たいほとんどのウェブマスターにとって価値があります。

— サイモンヘイター

また、検索エンジンを使用し、ボットがすべてのサイトをスキャンすることなく、人々が探している多くの脆弱性が収集されることも意味がありません。たとえば、モジュール/プラグインが古く、既知のエクスプロイトが存在する場合、人々はグーグルを使用してこれらのサイトを見つけて悪用します。ブロッキングロボットはサーバーを保護しません：P

— サイモンヘイター

@bybe「vulablites」とは、「脆弱性」を意味しますか？

— -DaveP

@DavePは絶対;）thx-修正済み。

— サイモンヘイター