タグ付けされた質問 「user-agent」

ブラウザとオペレーティングシステムを識別するhttpヘッダーフィールド。

4
Yahoo Searchは現在Bing Searchと同じですか?
過去にYahooの(信じられないほど)ひどく書かれたクモにいくつかの深刻な問題があったため、それらをブロックしました。TumblrのMarco Armentも、2009年8月31日にフラストレーションを私たちと共有しました。 [Yahoo's Spider]は、米国東部時間の午前5時30分頃から、毎秒70〜200件のリクエストを殺到しています。過去に私たちを虐待してきた不正な「実験的」なクローラーからでさえ、私はこのようなものを見たことはありません。Robots.txtの禁止では十分ではありません。ロードバランサーレベルでIPによってブロックする必要があります。彼らは過去にStack Overflowを悪用してきたので、あなたが知りたいかもしれないと思いました。 Yahooのウェブ検索は「Powered by Bing!」のようです。今。これは、Bingのスパイダー(別名MSNBOT)で問題が発生したことがないため、良いことです。 ヤフーの検索は現在Bingの検索と同じですか、それとも何らかの形で何らかの形で吸い込みを止めたのであれば、ブロックを解除する可能性を検討すべきでしょうか?

3
どのユーザーエージェントを設定する必要がありますか?
このヘッダーを設定するAskボットがあります。 Mozilla/2.0 (compatible; Ask Jeeves/Teoma) これを考慮して、次の質問があります。 Goofyという名前のWebクローラーを作成している場合、どのユーザーエージェントを使用する必要がありますか? Mozilla/2.0またはを入れた場合の違いは何Mozilla/5.0ですか? 現在の標準に準拠するためにユーザーエージェントをどのようにフォーマットするかについてのその他の提案は大歓迎です。

2
サイトからボットをブロックする必要がありますか?
私のログには、多くの場合、東ヨーロッパと中国からのボット訪問者でいっぱいです。ボットは、Ahrefs、Seznam、LSSRocketCrawler、Yandex、Sogouなどとして識別されます。私のサイトからこれらのボットをブロックする必要がありますか? サイトへのトラフィックを増やすために正当な目的があるのはどれですか?それらの多くはSEOです。 ボットが大量に到着して以来、トラフィックが少ない場合は、トラフィックが少ないと言わざるを得ません。 これらはすべて、ユーザーエージェントでボットであることを認めているため、これらをブロックするのはそれほど難しくありません。

4
空のユーザーエージェントの解釈
空のユーザーエージェントをどのように解釈すればよいですか?カスタム分析コードがいくつかあり、そのコードは人のトラフィックのみを分析する必要があります。人間のトラフィックとボットのトラフィックを示すユーザーエージェントの作業リストがありますが、空のユーザーエージェントには問題があることがわかっています。そして、空のUser-agentで約10%のトラフィックを大量に取得しています。 さらに、現在のログを分析することで、人的トラフィ​​ックとボットトラフィックのユーザーエージェントリストを作成しました。そのため、そこに多くのエントリがありません。ボットのトラフィックを示すユーザーエージェントのよく管理されたリスト、または人のトラフィックを示すユーザーエージェントのリストがありますか?

3
通常のブラウザのユーザーエージェントに「ボット」または「クロール」が含まれていますか?
通常のブラウザのユーザーエージェントに「ボット」または「クロール」が含まれていますか? 私は自分のサイトのユーザーエージェントをチェックして、ボットから送信されたものかどうかを確認します。もしそうなら、彼らはログインしないので、私はいくつかの小さな最適化を行うことができます。(内容は一切変更しません) 30-40以上のボットのチェックを追加した後、それらを追加するのに飽きてきました。そのため、「ボット」または「クロール」のみが含まれているかどうかを確認しているのではないかと考えていました。すべてのボットを取得できるわけではありませんが、多くのボットが取得されます。しかし、それが誤検知を引き起こす可能性がある場合、カートに追加して注文し、ログインする機能が完全に台無しになります。
11 user-agent 

3
一部のスクリプト攻撃手法でユーザーエージェントの識別を使用しましたか?
私のサイトのApacheアクセスログエントリは通常、次のようなものです。 207.46.13.174--[31 / Oct / 2016:10:18:55 +0100] "GET / contact HTTP / 1.1" 200 256 "-" "Mozilla / 5.0(compatible; bingbot / 2.0; + http:// www .bing.com / bingbot.htm) "0.607 MISS 10.10.36.125:104 0.607 そこでユーザーエージェントフィールドを見ることができます。しかし、今日は次のように使用されるユーザーエージェントフィールドも見つかりました。 62.210.162.42--[31 / Oct / 2016:11:24:19 +0100] "GET / HTTP / 1.1" 200 399 "-" "} __ test …

1
robots.txtでユーザーエージェントを組み合わせる
ユーザーエージェントを一緒にリストしてから、robots.txtにそのような一般的なルールを続けることはできますか? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

2
ユーザーエージェントのURLの前にプラス記号を付ける
私は小さなWebクローラーを実行し、それに使用するユーザーエージェントを決定する必要がありました。 クローラエージェントのリストだけでなく、ウィキペディアには、次のフォーマットをお勧め: examplebot/1.2 (+http://www.example.com/bot.html) ただし、一部のボットはURLの前のプラス記号を省略します。そもそもそれが何を意味するのか気になりますが、説明が見つかりませんでした。 RFC 2616は、括弧内のすべてをコメントと見なし、その形式を制限しません。しかし、ブラウザのバージョンと機能を宣伝するコメントには、ブラウザがセミコロンで区切られたトークンのリストを含めるのが一般的です。これは、ほとんどのブラウザが同じようにフォーマットする以外の方法で標準化されているとは思いません。また、コメントにURLに関する情報は見つかりませんでした。 私の質問は、なぜプラス記号なのか?必要ですか?

3
不正なロボットに対処するための戦術
規制上の理由で、インデックスに登録されない、または自動的に検索されないサイトがあります。これは、すべてのロボットを遠ざけ、サイトをスパイダーで防ぐ必要があることを意味します。 明らかに、最初からすべてを許可しないrobots.txtファイルがあります。ただし、robots.txtファイルの監視は、正常に動作するロボットだけが行うことです。最近、動作の悪いロボットにいくつかの問題がありました。いくつかのユーザーエージェントを禁止するようにApacheを構成しましたが、それを回避するのは非常に簡単です。 それで、問題は、ロボットのような動作を検出して応答するように(おそらくいくつかのモジュールをインストールすることによって)Apacheを構成するいくつかの方法がありますか?他のアイデアは? 現時点で私ができることは、ログの手動検査に基づいてIPアドレスを禁止することだけであり、これは単に実行可能な長期戦略ではありません。

4
base64でエンコードされたコンポーネントを持つユーザーエージェント?
(一番下の賞金質問) 私たちのサイトにアクセスするクライアントに問題があります。根本的な原因は、WAF(Web Application Firewall)がユーザーエージェント文字列を好きではないことです。 User-Agent: Mozilla/5.0 (X11; Linux i686; rv:34.0; C7QcSBPWTsrpX5YLvVZMqiujEZLWPtOYk3tDZ9WhW18=) Gecko/20100101 Firefox/34.0 この場合、base64でエンコードされた文字列は、ユーザーエージェントがlibwww-perlであると考えるWAFで誤検知を引き起こしています。base64文字列は、読み取り可能なテキストにデコードされません。 ユーザーエージェント内にbase64でエンコードされた文字列があるのは正常ですか、それとも異常ですか? User-Agent内でのbase64文字列の使用は、RFCまたは主要なベンダーの慣行でカバーされていますか? ここで何が起こっているのかを理解しようとしています。WAFシグネチャがオブジェクトと完全に一致していないとは思わないので、無効にするだけでなく、この種のユーザーエージェント文字列を見たことがないので、一般的な方法と/またはこれが正当なユースケースです。 このサイトは、人間がブラウザで使用するように設計されており、APIなどではなく、ユーザーが「FF / IE / Chrome」でサイトにアクセスしようとして失敗したと報告されています。ただし、同じクライアントIPからOperaユーザーエージェントを使用して接続が成功したことを示しています。 User-Agent: Opera/9.80 (X11; Linux i686) Presto/2.12.388 Version/12.16 ユーザーがIEを試したと報告するのは少し奇妙ですが、私が目にするすべてのユーザーエージェント文字列はLinuxのようです。(いつものように、エンドユーザーとの連絡は複数の当事者を介して行われるため、聞いたことを完全に信頼することはできません)。また、IPがビジネスクラスのWebプロキシの発信側である可能性もあります。これは、誰かが同じIPから問題を報告しているのに、一部のOperaが誰かのために機能しているのを説明する理由です。 更新 @PlanetScaleNetworksの例に触発されて、文字列をグーグルし、そこからUA Trackerを使用してbase64文字列(または、埋め込まれた文字列のサブセット-「=)」を検索しました)。それは約20のユーザーエージェントを返しました: 私はこの質問に賞金を追加します。私が探している回答スペースは、「どのようなソフトウェアがbase64文字列をUser-Agentに入れているのか、そしてその理由です。そして、この実践には正当性の印がありますか?」 」 マイナーポイント: ユーザーはブラウザプラグインを使用してユーザーエージェントを変更することで問題を回避しているため、これは学術的な問題ですが、興味深い学術的な問題だと思います:)

4
携帯電話の検出(ブランド、モデル、ブラウザなど)
可能であればモデルに至るまで、訪問者の携帯電話を検出するために何を使用しますか? 現在、私たちは独自のデータベースを維持していますが、それを維持するための人手不足のために本当に遅れを取っているため、サードパーティのソリューションを試してみることにしました。 これらは私の候補ですが、実際にすべてを試す時間はありません。 DeviceAtlas - 1年間の個人評価ですが、基本的なライセンスは手頃な価格です。彼らのデータベースは、毎日の更新とユーザーから提供されたテスト/更新で堅実に見えます。現時点ではこれを優先しています。 DetectRight-これは同僚から推奨されましたが、実際にはサイトから多くを見つけることができません。2万台のデバイス-本当に? WURFL -共同由来のオープンソース、データベースのUAProf。したがって、基本的には、UAProfソリューションを使用している場合は、WURFLのほうが適しています。 DetectMoBileBrowsers-これは、最も単純なように見えます。言語に依存している(PHP)のは残念です。 あなたの経験や提案を共有してください!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.