サイトはプロキシまたは企業ネットワークの背後にあるボットをどのように検出しますか

大規模なサイト（Wikipediaなど）は、他のIPマスカの背後にあるボットをどのように処理しますか？たとえば、私の大学では、誰もがウィキペディアを検索し、かなりの負荷をかけています。しかし、私が知る限り、ウィキペディアは大学のルーターのIPしか知ることができないので、「要求の間にわずかな遅延がある」「解放された」ボットを設定すると、ウィキペディアは組織全体を禁止せずにボットを禁止できますか？サイトは実際に組織ネットワークの背後でIPを禁止できますか？

web-crawler

— user4052054
ソース

ウィキペディアがカタールを禁止した日。

— -isanae

@isanae関連：superuser.com/q/1013630/326546

— kasperd

より良いあなたのボット作る正当なユーザーから区別できないが

— ハーゲン・フォン・Eitzen

回答:

いいえ、彼らはパブリックIPを禁止し、そのIPにNATされているすべての人も禁止されます。

ただし、少なくともスタックでは、大学またはそのようなものを禁止しようと考えている場合は、虐待連絡先に連絡して、犯罪者を追跡して問題を停止させます。

— ザイファー
ソース

ザイファーが言ったこと。abuse@unnamedacademicinstitution.eduに送信された苦情を追跡するために使用していた人として、私たちは通常、パブリックIPのブロックを解除するために責任者を見つけることにかなり熱心でした。（大学の学生が大好きです。ピアに共有音楽ピアにRIAAはそれについて接触abuse@whatever.eduに愛しています。）

— キャサリンVillyard

...アクセストークンや一意のブラウザIDを渡すなど、ボットに関して一意に識別できるものがない限り。

— -simpleuser

これは、これらのサイトがボットを検出する方法に関する実際のタイトルの質問には答えません。実際、ボットの速度を十分に落とすと（それほどではありません）、実際には大勢の大学生による有効な使用と見分けがつかないようです。

— ワイルドカード

@KatherineVillyardのコメントを拡張します。ブロックする前に誰も私たちに連絡せず、ブロックされたリソースが定期的に使用されていた場合、組織のネットワークを正式に監督し、問題を修正するために彼らに連絡します。通常、私たちがこれを最後から解決する場合、彼らは私たちのブロックを解除してくれました。これは、虐待の原因を追究することを意味しました。ウィキペディアであるため、彼らがあなたの機関に手を差し伸べなくても、あなたの機関は彼らがブラックリストに載っていることに気づいたらそれを調べるでしょう。その一見無害な禁止は、すぐに追放に変わる可能性があります。

— ベーコンブラッド

@Wildcard FWIWのほとんどの場所では、ボットの検出方法を教えてくれません。単に、ボットの作者を捕まえて、状況を変えるだけだからです。つまり、ボットを検出する要求の速度以外にも多くの信号があります。しかし、たいていの場所は、あなたがいいプレーをしていても、くだらないことやリソースに負担をかけていなくてもそれほど気にしません。あらゆる小さなボットを追いかけるだけの価値はありません。

— ザイファー

サイトは、NATの背後にあるIPを直接禁止することはできません。匿名化されていないHTTPプロキシを介して渡されたIPに作用する可能性があります-そのようなプロキシがリクエストを転送する場合、通常、そのアドレスをX-Forwarded-Forヘッダーに追加するため、プライベートネットワークからのアクセスが実際にそのような内部IPが公開されるプロキシ。しかし、ほとんどのサイト（ウィキペディアを含む）は、とにかくそのヘッダーの情報を信用しません。なぜなら、無実のIPを暗示したり、禁止を回避したりするのは簡単だからです。

ただし、IPアドレスとは無関係にユーザーを一意に識別しようとする他の手法もあります。Webブラウザで、ユーザーエージェント、画面解像度、プラグインのリストなど、Webブラウザと実行中のシステムに関する多くの情報を問い合わせることができます。https：//github.com/carlo/jquery-を参照してくださいブラウザの指紋実際のこの例については。このようなフィンガープリントを使用してアクセスを制御できますが、サイトの設計によっては、フィンガープリントプロセスに関与せずにやり取りできる場合があり、ボットができない場合でも、偽のランダムなデータを提供して、この種の保護が行われていることを認識している場合、一貫した指紋。この制御方法は、特に同じストックハードウェアで同じストッククライアントを実行する多数のクライアントが存在するモバイルデバイス（特定のバージョンのiOSを実行しているiPhoneの特定のモデルのほとんどの人）がいる場合、特に誤検知のリスクがありますたとえば、おそらく同じ指紋を取得します）。

— カーサー
ソース

まったくありそうもないことではありません。多くの大学、および少なくとも1つの国全体で、Web接続をプロキシし、X-Forwarded-Forを追加します。

— マイケルハンプトン

面白い。会社が内部ネットワークに関するいくつかの（明らかに些細な）情報を公開するように、Webプロキシを構成する場合、個人的には驚かされますが、それは組織に依存すると思います。

— カーサー

@Carcer、それは実際の内部IPアドレスである必要はなく、プロキシの各ユーザーに一貫したものだけです。

— イアンリングローズ

一般に、IPアドレスは正しい禁止のための十分な情報ではありません。そのため、高度なネットワークはネットワークスタックの上位で機能します。

サービス拒否（DoS）攻撃（作成について心配している）は、通常、初期TCP接続セットアップのレート制限によって処理されます。これは、待機する正当なユーザーが通過するのに対して、サーバーリソースを消費しようとしているユーザーは無害になるまで速度が低下することを意味します。これが、DoSが分散型DoS（DDoS）攻撃に進化した場所です。

サーバーに接続したら、好きなだけリクエストを作成できます。Webサーバー管理者は、処理するリクエストの数を設定できます。

とにかく、Webサーバーはおそらくローカルネットワークゲートウェイよりも多くの容量を処理できます。これは、おそらくユースケースの制限要因です。ウィキペディアがやる前に、あなたの大学のネットワーク管理者があなたのドアをノックすることを望んでいます。

良いインターネット市民であることが重要なので、ボットにレート制限コードを追加します。

また、Wikipediaがデータダンプを提供しているため、サイトをトロールする必要がないことも指摘しておく必要があります。

— フィル・ハネン
ソース