回答:
私は、かなり大規模なWebクローラーの主要な設計者および作成者です(metadatalabs.com/mlbot(アーカイブされたリンク)を参照)。あなたが求めているのは、私たちにとって非常に重要なトピック、おそらくクローラーを実行する上で最も重要なトピック、つまり礼儀正しさです。
まず、「Mozilla」の理由は、ブラウザの機能をサイトに伝えるためです。ボットがブラウザのように振る舞わない場合、「Mozilla」を含める必要がある特別な理由はありません。
ユーザーエージェント文字列およびその他のポライトネス関連の項目について:
誰も使用していないことがわかっている名前を選択します。「Goofybot」を使用すれば大丈夫だと思います。しかし、私は確かめるためにそれをチェックアウトするでしょう。
ユーザーエージェント文字列には、ボットに関する詳細情報へのリンクを含める必要があります。たとえば、文字列は「MLBot(www.metadatalabs.com/mlbot)」です。
誰かが「Goofybot」を検索した場合、検索結果でそのページが高い(できれば最初に)ことを確認してください。
ボットに関するページには、情報の使用目的、クロール元のIPアドレス、ボットの問題についてユーザーから連絡を受ける方法が記載されている必要があります。
「お客様は常に正しい」という哲学を使用して、質問や苦情に迅速に対応する必要があります。あなたのボットがこの人が不平を言っている問題を引き起こした場合、それはおそらく誰も不平を言っていない他の多くのサイトで問題を引き起こしたことを覚えておいてください。彼らは問題を認識しなかったか、単にあなたのIPアドレスをブロックしました。
ボットが特定のドメイン名にアクセスするのを防ぐために、ファシリティを構築する必要があります。クロールをまったく望まない人もいれば、robots.txtを作成したり.htaccessでブロックしたりするアクセス権や技術的能力を持っていない人もいます。この機能により、「MLBotが問題を引き起こしたことを申し訳なく思っています。サイトを再びクロールしないように指示しました。」おそらく驚くことではないが、それは人々を非常に素早く鎮静させる。
robots.txtをまだ尊重していない場合は、それを実行してください。robots.txtを無視するよりも早く評判が悪くなることはありません。
ワオ。それは予想以上に長く続きました。過去4年間で、私は上記で言及したこれらの過ちをすべて犯しました。しかし、私たちがやっていることについてオープンであり、正直にコミュニケーションをとる場合(苦情を受ける前に間違いに関する情報を投稿することを含む)、ウェブマスターの大多数は私たちを良いインターネット市民と見なしていることがわかりました。
Mozilla / 2.0およびMozilla / 5.0は、どちらもMozillaブラウザーへの参照です。多くのクローラーが使用しているため、ほとんど意味がなくなりましたが、通常のブラウザーでランダムに閲覧しているユーザーと同じようにクローラーを処理するようサイトに指示する必要があります。
ただし、次のセクションに、自分が誰であるか、なぜクロールしているのかに関するページにリンクするURLを含めるのは良いエチケットです。Aee Jeevesは名前だけで済ませることができますが、URLを含める必要があります。
例えば
Mozilla/5.0 (compatible; http://example.org/)
これにより、ウェブ管理者はサイトをクロールする理由を把握し、クローラーの動作に問題がある場合に連絡することができます。