タグ付けされた質問 「web-crawlers」

さまざまな目的でWebページにアクセスするコンピュータープログラム(コンテンツのスクレイピング、検索エンジンへのサイト情報の提供など)


1
存在しないtrafficbasedsspsitemap.xmlのBingbotリクエスト
私が管理しているWebサイトのログには、Bingbotによる存在しないファイルの要求が示されています。リクエストの詳細は パス:/trafficbasedsspsitemap.xml ユーザーエージェント:「Mozilla / 5.0(互換性あり; bingbot / 2.0; + http://www.bing.com/bingbot.htm)」 IPアドレス:65.55.213.244(逆引き参照はmsnbot-65-55-213-244.search.msn.comに解決されます) Bingbotがこのファイルを検索する理由は何ですか?「トラフィックベースのSSPサイトマップ」とはどういう意味ですか?

8
ロボットがページの特定の部分をクロールしないようにする
フォーラムのある小さなサイトを担当するウェブマスターとして、内部検索エンジンと外部検索(Googleを使用している場合など)の両方がユーザーの署名によって完全に汚染されている(長い間使用している)私のフォーラムでは署名が非常に理にかなっているので、署名とそれはフォーラムの経験の一部です。 だから基本的に私は今のところ2つのオプションを見ています: 署名を画像としてレンダリングし、ユーザーが「署名画像」をクリックすると、実際の署名(署名内のリンクなど)を含むページに移動し、そのページは検索でクロール不可として設定されます。エンジンスパイダー)。これはいくらかの帯域幅を消費し、いくつかの作業が必要になります(画像を生成するHTMLレンダラーなどが必要になるため)が、明らかにそれは問題を解決します(署名がユーザーは、しかし私のユーザーは、カスタムフォント/色/サイズなどを使用して、とにかく署名で非常に創造的ですので、それほど問題ではありません)。 署名を含むWebページのすべての部分をクロール不可としてマークする。 しかし、私は後について確信がありません:これはできることですか?Webページの特定の部分をクロール不可としてマークすることはできますか?

4
Yahoo Searchは現在Bing Searchと同じですか?
過去にYahooの(信じられないほど)ひどく書かれたクモにいくつかの深刻な問題があったため、それらをブロックしました。TumblrのMarco Armentも、2009年8月31日にフラストレーションを私たちと共有しました。 [Yahoo's Spider]は、米国東部時間の午前5時30分頃から、毎秒70〜200件のリクエストを殺到しています。過去に私たちを虐待してきた不正な「実験的」なクローラーからでさえ、私はこのようなものを見たことはありません。Robots.txtの禁止では十分ではありません。ロードバランサーレベルでIPによってブロックする必要があります。彼らは過去にStack Overflowを悪用してきたので、あなたが知りたいかもしれないと思いました。 Yahooのウェブ検索は「Powered by Bing!」のようです。今。これは、Bingのスパイダー(別名MSNBOT)で問題が発生したことがないため、良いことです。 ヤフーの検索は現在Bingの検索と同じですか、それとも何らかの形で何らかの形で吸い込みを止めたのであれば、ブロックを解除する可能性を検討すべきでしょうか?


6
サイトをクロールし、デッドリンクとリンクされていないファイルを見つけるのに役立つツール[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、 Webmasters Stack Exchangeで話題になるようにします。 6年前に閉鎖されました。 文字通り何千ものPDFを含むかなり大きなレガシーサイトがあります。これらのPDFは時々データベースで処理されますが、多くの場合、ページ上の単なるリンクであり、サイト上のほとんどすべてのディレクトリに格納されます。 自分のサイトのすべてのリンクをたどるphpクローラーを作成し、それをディレクトリ構造のダンプと比較していますが、もっと簡単なことはありますか?

3
Baiduspiderのクロール頻度を遅くすることは可能ですか?
Baiduクモのクロール頻度については、多くのことが行われています。本当です:「バイダスパイダーは狂ったようにい回る」。 私は一緒に働いているサイトでこの現象を経験しました。少なくとも1つの例では、BaiduがGoogleの約0.1%のトラフィックを配信しているという事実にもかかわらず、BaiduspiderがGooglebotとほぼ同じ頻度でクロールすることを発見しました。 サイトへのアクセスをできるだけ少なくしたいのですが(いつかは成長しますか?)、サーバーにこのような重い負荷をかけることを正当化することはできません。 上記のリンクされた質問に対する受け入れられた回答は、Baidu Webmaster Toolsがクロール速度を制限する機会を提供することを示唆していますが、(中国語のみの)ワームの可能性を開くことをheしています。 BWTでBaiduspiderのクロール速度を制限した経験はありますか?この負荷を制限する別の方法はありますか?

3
どのユーザーエージェントを設定する必要がありますか?
このヘッダーを設定するAskボットがあります。 Mozilla/2.0 (compatible; Ask Jeeves/Teoma) これを考慮して、次の質問があります。 Goofyという名前のWebクローラーを作成している場合、どのユーザーエージェントを使用する必要がありますか? Mozilla/2.0またはを入れた場合の違いは何Mozilla/5.0ですか? 現在の標準に準拠するためにユーザーエージェントをどのようにフォーマットするかについてのその他の提案は大歓迎です。

3
robots.txtはサーバーのサブディレクトリにありますか?
検索エンジンのWebクローラーから隠したいサブディレクトリがあります。 これを行う1つの方法robots.txtは、サーバーのルートディレクトリでaを使用することです(標準的な方法)。ただし、WebサイトのURLを知っていて、基本的なWeb知識がある人は、robots.txtのコンテンツにアクセスして、許可されていないディレクトリを見つけることができます。 これを避ける方法を考えましたが、うまくいくかどうかはわかりません。 Let Xを除外するサブディレクトリの名前にします。一つの方法は、Webクローラがインデックス作成を停止するXディレクトリを、同時に識別するために、誰かのために困難にするためにX、ルートのからディレクトリをrobots.txt、追加することであるrobots.txtにXディレクトリの代わりに、ルートディレクトリ。 この解決策に従う場合、次の質問があります。 Webクローラーrobots.txtはサブディレクトリでそれを見つけますか?(それがrobots.txt既に存在し、ルートディレクトリにも存在する場合) 場合robots.txtであるXサブディレクトリ、私は相対的または絶対パスを使用する必要が?: User-agent: * Disallow: /X/ または User-agent: * Disallow: /

3
SEO-レスポンシブWebサイトと複製メニュー
レスポンシブWebサイトを作成するたびに、通常2つのメニューを作成します。1つは非表示でモバイル用に使用し、もう1つはメインメニューとして表示し、次に非表示にしてモバイルメニューを表示します。SEOやWebサイトを操作するスパイダーに関しては、メニューが重複しているとうんざりしますか?このメニューがモバイル用であり、これがメインであることをスパイダーに示すためにできることはありますか? 私が2つの異なるメニューを持っている最後の理由は、場所のためです。通常、メインメニューはロゴなどの下のある種のバーにありますが、モバイルメニューはすべての上にあるため、ロゴの上などにあります

7
白頭spをブロックする方法
私の訪問のほとんどは白頭spからです。検索エンジンにはまったく役に立たないと思うので、検索エンジンをブロックする方法を考えています。これはiptablesを介して実行できますか?Webサーバーとしてnginxを使用しています。

3
悪意のあるボットがスパムを投稿するのを防ぐ
誤用のためにサイトが閉鎖されたことを覚えていますが、ボットにその一部があるのではないかと思います。ボットがサイトに何かを投稿している場合、ボットと戦う方法は何ですか?私はいくつかのクッキーを設定し、JavaScript +タイムスタンプと署名を使用してクッキーを変更することを考えていました(したがって、昨日のクッキーは今日と来週使用できません)。 ほとんどの人/ボットは、ボットでJavaScriptを有効にするのではなく、別のサイトを使用するに違いないと確信しています。 他に何ができますか?私は毎日のPOST制限と、ランダムにスパムを投稿するだけの一般的なボットのハニーポットを考えています。

3
Googleは、リンクのないドメインをどのように見つけますか?
最近、新しいドメインを登録し、それを既存のサーバーにポイントして、「test」とだけ言う最小限のページを設定しました。 今夜、ページが既にGoogleでインデックス登録されていることを発見しました。サイトへのリンクはありません(ドメインについてはまだ何もしていないので、ドメインについては誰にも話していません)。 GoogleはWHOISレコードなどをトロールしていますか?

2
サイトからボットをブロックする必要がありますか?
私のログには、多くの場合、東ヨーロッパと中国からのボット訪問者でいっぱいです。ボットは、Ahrefs、Seznam、LSSRocketCrawler、Yandex、Sogouなどとして識別されます。私のサイトからこれらのボットをブロックする必要がありますか? サイトへのトラフィックを増やすために正当な目的があるのはどれですか?それらの多くはSEOです。 ボットが大量に到着して以来、トラフィックが少ない場合は、トラフィックが少ないと言わざるを得ません。 これらはすべて、ユーザーエージェントでボットであることを認めているため、これらをブロックするのはそれほど難しくありません。

1
baiduが私のサイトをクレイジーにクロールするのはなぜですか
Apacheログを確認していると、baiduが過去2週間に1日10回ウェブサイトをクロールしていることがわかります。 私はそれを大事にしているわけではありませんが、なぜ彼がこれをしているのか本当に興味があります。これは、リンクがあまりない、非常に小さな単一ページのWebサイトです。 その背後に何か理由はありますか? 220.181.108.169 [10/Mar/2012:10:41:29 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 180.76.5.197 [10/Mar/2012:11:02:02 +0100] "GET / ...robots.txt +(+http://www.baidu.com/search/spider.htm)" 123.125.71.100 [10/Mar/2012:11:33:15 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 220.181.108.167 [10/Mar/2012:11:33:52 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 123.125.71.116 [10/Mar/2012:12:24:48 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 220.181.108.172 [10/Mar/2012:12:25:05 +0100] "GET / ... +http://www.baidu.com/search/spider.html)" 123.125.71.111 [10/Mar/2012:13:33:22 +0100] "GET / …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.