robots.txtに従うことに加えnofollow
てnoindex
、<meta>
要素とリンクに従う:
robots.txtはインデックス作成をブロックする適切な方法ではないと考えている人が多く、その観点から、多くのサイト所有者に<meta name="robots" content="noindex">
タグを使用してWebクローラーにページのインデックス作成を行わないように指示しています。
Webサイト間の接続のグラフ(PageRankに似たもの)を作成しようとしている場合、
(および<meta name="robots" content="nofollow">
)は、ソースサイトが適切な承認を与えるほど十分に宛先サイトを信頼していないことを示します。したがって、宛先サイトにインデックスを付けることはできますが、2つのサイト間の関係は保存しないでください。
SEOは実際の科学というよりも芸術であり、自分が何をしているのかを知っている多くの人々と、何をしているのかを知っている人々のエグゼクティブサマリーを読む多くの人々によって実践されています。SEOmozのブログの投稿で誰かが聞いたことがある、または正しく解釈されていない可能性があるために、他のサイトが完全に受け入れられると判断したことを行うことで、サイトからブロックされるという問題が発生します。
あなたはGoogle、Microsoft、またはYahoo!でない限り、その人間の要素のため、特に証明されない限り、悪意があると推定されます。Webサイトの所有者に対する脅威ではないかのように行動し、潜在的に悪意のある(ただし望ましくは無害な)クローラーがどのように行動するかに従って行動するために、細心の注意を払う必要があります。
- ブロックされていることが検出されたら、サイトのクロールを停止します。仕事、スロットル、タイムアウトなどを知っているページの403/401
- 比較的短い期間で徹底的なクロールを回避します。サイトの一部をクロールし、後で(数日後に)戻って別の部分をクロールします。並列リクエストをしないでください。
- 潜在的に機密性の高い領域のクロールを回避します
/admin/
。たとえば、その中にあるURL 。
それでも、UAのなりすましやクロールパターンの意図的なマスキングなどのブラックハットテクニックに頼らない限り、困難な戦いになります:多くのサイト所有者は、上記と同じ理由で、未知のクローラーを目の前でブロックします「自分のサイトをハッキング」しようとしない人がいる可能性。多くの失敗に備える。
未知のクローラーが持つネガティブなイメージに対抗するためにできることの1つは、ユーザーエージェント文字列でそれを明確にすることです:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
どこでhttp://example.com/aarobot.html
達成しようとしているのか、なぜあなたが脅威ではないのかを説明しています。そのページにはいくつかのことがあります:
- 直接連絡する方法に関する情報
- クローラーが収集する情報と、クローラーが収集する理由に関する情報
- オプトアウトおよび収集されたデータの削除方法に関する情報
最後の1つが重要です。優れたオプトアウトは、Money Back Guarantee™のようなものであり、不当な量ののれんを獲得します。人道的である必要があります。1つの簡単な手順(メールアドレスまたは理想的にはフォーム)と包括的(「落とし穴」があってはなりません。オプトアウトは、例外なくクロールを停止することを意味します)。