空のユーザーエージェントの解釈


12

空のユーザーエージェントをどのように解釈すればよいですか?カスタム分析コードがいくつかあり、そのコードは人のトラフィックのみを分析する必要があります。人間のトラフィックとボットのトラフィックを示すユーザーエージェントの作業リストがありますが、空のユーザーエージェントには問題があることがわかっています。そして、空のUser-agentで約10%のトラフィックを大量に取得しています。

さらに、現在のログを分析することで、人的トラフィ​​ックとボットトラフィックのユーザーエージェントリストを作成しました。そのため、そこに多くのエントリがありません。ボットのトラフィックを示すユーザーエージェントのよく管理されたリスト、または人のトラフィックを示すユーザーエージェントのリストがありますか?


1
可能なユーザーエージェントのリストは非常に長いです。たとえば、次のモバイル専用ユーザーエージェントのリストをご覧ください: zytrax.com/tech/web/mobile_ids.html
Max Vernon

空のユーザーエージェントは非常にまれです-使用しているサーバーソフトウェアは何ですか?ユーザーエージェントはどのように入手していますか?本当に空白なのか、それとも空白のユーザーエージェントを作成しているコレクションシステムのバグがありますか?
マックスヴァーノン

@Max-私は自分自身が空のユーザーエージェントに驚いています。LAMPスタックを使用しています。PHPを介してユーザーエージェントを$ _SERVER ['HTTP_USER_AGENT']として収集します。コードは簡単です。私はユーザーエージェントがそこにいる可能性を完全に無視することはできませんが、私のコードはそれを収集できないか、データベースがそれを保存することを拒否しますが、私はそうではありません。

1
Apacheのアクセスログにアクセスできる場合:ログに記録されたユーザーエージェントも空ですか?

おそらく、あなたのサイトにアクセスするスクレーパーがいますか?これは、訪問者が何のUSER_AGENTを持っていないように見える一つの方法かもしれない
マックス・バーノン

回答:


5

「人間のトラフィック」のみを分析する場合、ユーザーエージェント文字列が空または欠落しているものはカウントしません。私の経験では、ほとんどすべてのブラウザーが常に1つを送信します。ほとんどのプライバシープラグインまたは拡張機能でさえ、UA文字列を偽造(他のOSまたはクライアント名を含む)または「正規化」(リリース番号なしなど)またはランダム化(例えばFF、時にはIE文字列)しますが、完全には削除しません(これによりたとえそれが良いアイデアでなくても、それに依存しているいくつかのサイトで問題を引き起こします。)

UAを使用しない単純なリクエストは、次のように実行できます。

wget --user-agent="" www.example.com

ご覧のとおり、必要なものを追加できます。「野生」で見つかったUAを保存および公開するサイトは、多くのがらくたを見つけるので、あまり役に立ちません。

誰かがあなたのコンテンツを再帰的に取得しただけかもしれません。または、SEOツールを使用してサイトを分析しました(ユーザーがヘッダーを手動で変更できるものもあれば、robots.txt行を無視する意図があるものもあります)。そういうもの。そのような状況では、UAヘッダーはしばしばクライアントと目的を隠すために偽造されます。

これらの要求が絶えず回避されている場合、ヘッダー(プロキシ?)またはIP(特定のブロック?プライバシーに関する会社/プロキシ?)をさらに分析すると役立つ場合があります。


2

私は警備会社で働いており、とりわけBad Botのトラフィックを監視しています。

私の経験に基づいて、空白のユーザーエージェントデータでの人間の訪問は、「ヘッドレスブラウザー」ボットによるスクレイピング/スパムの試み(通常はスクレイピング)を示しています。

これらの訪問者は時々JSを実行することができるため、GAに表示されます-それでも、これは彼らを人間にしません:)

「プラグ」についておpoび申し上げますが、必要に応じて、CDNアクセラレーションやその他の特典と組み合わせて、無料のBad Bot保護サービスを提供しています。

この特定のケースでは、システムはこの訪問を「疑わしい」と認識し、既知の攻撃ベクトルと照合して検証し、まだ不明な場合はさらにテストとチャレンジを実行しました。これらの課題は、セッションを遅延させることなくシームレスに実行されます。


0

インターネットにアクセスするすべてのソフトウェアにユーザーエージェントが魔法のように与えられるわけではありません。ソフトウェア開発者は、その機能をソフトウェアにプログラムする必要があります。空のユーザーエージェントは、ソフトウェア開発者がユーザーエージェントをソフトウェアに追加するのを忘れたことを意味します。


または、ブラウザユーザーがUA文字列を削除またはブロックしたこと。
-unor

5
これは間違っています。「単なる意味」と言うことは、それが通常または少なくとも頻繁に理由であることを意味します。開発者であるhttpソフトウェアを使用する人はほとんどいません。何かあれば、ほとんどの場合、トラフィックソースが特定されることを望まず、悪意のあるまたは悪用可能なトラフィックに深く関係していることを示します。残念ながら、一部の大企業(Facebook)は過去に空のユーザーエージェント文字列を使用していたため、それらを完全にブロックすることは必ずしも賢明ではありません。
jerclarke 14

1
@jeremyclarke +1この種の動作は決して見落とさないでください!そして、Facebookで恥を知れ!正当なボットまたはブラウザがサイトを見る必要がある場合、それらには常に識別子が必要です。結局のところ、彼らは他の誰かの財産を入力しています。ユーザーエージェントを持たないことは、強盗が身を隠すためにマスクを忍び込むようなものです。
白ひげ

2
それは、あなたの家の前にある歩道を行き来する顔をした人のようです。必ずしも違法ではありませんが、ドアに答えなければ、彼らはあなたが偏執狂的なナッツだと思ってはいけません。
jerclarke

0

この質問への回答には、ユーザーエージェントとあなたの身元を隠すことまたは人間であることを比較したコメントがいくつかあります。これはばかげた比較です。User-Agentは、アイデンティティや人間であることとは関係ありません。

履物のように考えてください。あなたが彼らを入れる前にどんなタイプの履物を着ているか訪問者に尋ねています。これの最も一般的な用途は、どのタイプのカーペットを広げる必要があるか、きれいなドレスシューズ用の素敵な赤いカーペット、泥だらけのdoorい玄関マットを知ることですブーツ、アレルギーのカーペットである訪問者のためのカーペットはありません。

訪問者が自分が持っている履物(別名空のユーザーエージェント)を言いたくない場合は、無視します。

はい、User-Agentおよびその他のリクエストヘッダー情報に基づいてWebリクエストに関することを推測しようとする多くの優れたプラクティスがあります。それらは99%の時間でうまく機能しますが、他の多くの同様のプラクティスと同様に、偽陽性になりやすく、それによって通常の無知なユーザーを傷つけます。

自分で誤って空のUser-Agentを使用するという問題に遭遇したので、Webサービスがあなたの履物についてそれを伝えようと思わなかったという理由だけであなたを異なるように扱うとき、それは間違いなく楽しいと言えます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.