タグ付けされた質問 「web-crawlers」

さまざまな目的でWebページにアクセスするコンピュータープログラム(コンテンツのスクレイピング、検索エンジンへのサイト情報の提供など)

4
Crawlable Ajaxのステータス?
Googleには、#を介してAjaxアプリケーションをクロール可能にするための素晴らしい提案/標準があることがわかりました。(ハッシュバン)。 http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html 私の質問は: 彼らは現在、現実世界ですでにこの「提案」を使用していますか? 他の検索エンジンはありますか?Bingは具体的に、それを使用していますか、または使用を計画していますか?

4
robots.txtおよびsitemap.xmlファイルは、.htaccessリダイレクトを介して動的にできますか?
多言語、マルチドメインのサイトがあります。独自のCMSインストール(Drupal)で実行されるため、ルートディレクトリは1つです。したがって、静的なrobots.txtがある場合、私が知る限り、単一のドメインのファイルしか表示できません。 .htaccessに行を入れてもらえますか Redirect 301 /robots.txt /robots.php (または同等の指示。許可されている場合は指示してください) したがって、動的なphpファイルにリダイレクトされます$_SERVER['HTTP_HOST']。 また、sitemap.xmlについても同じ質問なので、異なるドメインごとに異なるリンクを示す動的なsitemap.phpを提供できます。 .txtと.xmlを使用しない場合の問題は、前述のように、すべてのドメインがサーバーコンピュータの単一の物理ディレクトリを共有することです。

4
GoogleはCDNファイルをクロールしません
Googleウェブマスターツールが、私のウェブサイトでブロックされた多くのリソースを報告していることに気づきました。現在、すべての「ブロックされたリソース」は、Cloudfront CDNから提供する.css、.jsおよび画像(.jpg、.png)です。 私は多くの時間をかけてテストし、Googleがこれらのファイルをクロールせず、「リソースブロック」ステータスを報告しない理由を理解しようとしました。 現在、これらのファイルをcdn1.example.com、cdn2.example.comなどのいくつかのホスト名から提供しています。 cdn1、cdn2などは、cloudfrontディストリビューション名に対するCNAMEです。 テスト:cloudfrontディストリビューション(CNAMEなし)を直接使用しようとしましたが、問題は解決しません。 現在、robots.txtは次のようになっています。 # Google AdSense User-agent: Mediapartners-Google Disallow: #Google images User-agent: Googlebot-Image Disallow: / User-agent: * Disallow: /homepage Disallow: /index.php* Disallow: /uncategorized* Disallow: /tag/* Disallow: *feed Disallow: */page/* Disallow: *author* Disallow: *archive* Disallow: */category* Disallow: *tag=* Disallow: /test* Allow: / また、1つのサンプルページでブロックされたファイルの例: cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/themes/magazine/css/font-awesome.min.css,wp-content/themes/magazine/css/sensitive .css cdn5.example.com/wp-content/themes/magazine/images/nobg.png …

2
どのボットが本当にサイトに入れる価値があるのですか?
いくつかのボットを記述し、偶然にサイトをクロールする大量のランダムなボットを見て、私はWebマスターとして、どのボットが本当にサイトにアクセスする価値があるのだろうと思いますか? 私の最初の考えは、ボットをサイトに許可すると、潜在的に実際のトラフィックをサイトにもたらす可能性があるということです。既知のボットが実際のトラフィックをサイトに送信することを許可する理由はありますか?これらの「良い」ボットをどのように見つけますか?

2
Googleウェブマスターツールから、ロボットがサイトマップへのアクセスをブロックしていることがわかります
これは私のrobots.txtです: User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz しかし、Googleウェブマスターツールは、ロボットがサイトマップへのアクセスをブロックしていることを教えてくれます: サイトマップへのアクセス中にエラーが発生しました。サイトマップがGoogleのガイドラインに従っており、指定した場所からアクセスできることを確認してから、再送信してください:robots.txtにより制限されたURL。 Googleウェブマスターツールがrobots.txtをキャッシュすることを読みましたが、ファイルは36時間以上前に更新されています。 更新: TESTサイトマップを押しても、Googleは新しいサイトマップを取得しません。SUBMITサイトマップだけがそれを行うことができました。(ところで、現在のサイトマップをそこに貼り付けない限り、「テストサイトマップ」の要点はわかりません。テスト前に入力を要求するアドレスからサイトマップの新しいコピーを取得することはありませんが、それは別の日の質問です。) 新しいサイトマップを(テストではなく)送信した後、状況が変化しました。「robots.txtによってブロックされたURLです。サイトマップにはrobots.txtによってブロックされたURLが含まれています」と表示されます。44 URL。サイトマップには正確に44のURLがあります。このGoogleは新しいサイトマップを使用しているが、それはまだ(立ち入り禁止のすべてを保持する)古いロボット規則によって起こっていないことを意味 44のURLのいずれもしている/wp-admin/か/wp-includes/いるので、とにかく種類が不可能のである(robots.txtのは、上に構築されますサイトマップを作成するのと同じプラグインによるフライ)。 アップデート2: さらに悪いことに、Google検索結果ページでは、ホームページの説明に「このサイトのrobots.txtがあるため、この結果の説明はありません–詳細」と表示されます。他のすべてのページには詳細な説明があります。ホームページのrobots.txtまたはrobotsメタブロックインデックスはありません。 行き詰まっています。

4
AdSenseクリックボットが私のサイトを爆撃している
現在、1日あたり約7,000〜10,000ページビューのサイトがあります。7/1/12の午前1時頃から、CTRが劇的に上昇していることに気付きました。これらのクリックはクレジットされ、その後すぐにクレジットが取り消されます。つまり、明らかに不正なクリックでした。翌日、約200回のクリックがあり、そのうち約100回が不正でした。1日24時間、3つの広告のそれぞれについて、1時間あたり約3〜8回のクリックが均等に分散されます。これは、ある種のAdSenseクリックボットであると私を信じさせます。また、昨晩広告を削除してから午前3時頃に戻し、無効なクリックが10分以内に開始されました。 AdSenseの出口リンクを分析するためにstatcounter.comにサインアップしました。次に、これを行っていると思われる人物/ボットのIPアドレスの広告を条件付きでブロックしました。ただし、ボットにはいくつかのプロキシがあり、IPアドレスを更新できます。 状況を認識して解決に取り組んでいることをお客様に知らせるために、無効なクリックフォーム /メールで過去2日間に4回Googleに通知しました。また、そのサイトのすべての広告を一時的に削除しました。 このようにボットをブロックするにはどうすればよいですか?ありがとうございました。

6
ビュー数からボットを除外する最良の方法は何ですか?
私のウェブサイトは特定のページの訪問者の閲覧をカウントしています。Googleや他のボットがクレイジーに私のサイトに「クリック」していて、一部のページが(人間が作成したものと比較して)非現実的なビュー数になっていることに気付きました。 これらのボットを私のビュー数から除外するためのベストプラクティスを求めています。単純な「ユーザーエージェント」に「ボット」が含まれていると、それはできません。 弾丸証明ソリューションがあるとは思いませんし、必要もありません。 注:私はPHP + MySQLを使用しています。

1
Googlebotが何千ものリクエストをマップロケーターに送信し、APIクォータを使い果たす
お客様のサイトに店舗検索ページがあります。エンドユーザーが郵便番号と検索範囲を入力すると、Googleマップに結果が表示されます。 最近、サイト全体のトラフィックを著しく増加させることなく、サイトが無料のマップ検索制限(24時間あたり約25,000)に達していることに気づき始めました。追加のロギングをオンにして、何が問題なのかを調べてみました。 Googlebotがこの地図で何千もの検索を押し進めていることがわかります。これは小さなサンプルです: 2017-07-09 23:56:22,719 [7] INFO ShopLanding-[Thread 41] Google Maps:検索されたG23は66.249.66.221からOKを受け取りました 2017-07-09 23:56:35,469 [7] INFO ShopLanding-[スレッド10] Googleマップ:検索されたCA6は66.249.66.221からOKを受け取りました 2017-07-09 23:57:24,563 [7] INFO ShopLanding-[Thread 48] Google Maps:検索されたBN14は66.249.66.223からOKを受け取りました 2017-07-09 23:58:00,970 [7] INFO ShopLanding-[Thread 42] Google Maps:検索されたCB4は66.249.66.221からOKを受け取りました 2017-07-09 23:58:13,064 [7] INFO ShopLanding-[Thread 54] Google Maps:検索されたDY9は66.249.66.221からOKを受け取りました 2017-07-09 23:59:18,722 [7] INFO ShopLanding-[Thread 59] Google Maps:検索されたTS3は66.249.66.223からOKを受け取りました 2017-07-09 …

1
robots.txtの「Noindex:」はどのように機能しますか?
今日、私のSEOニュースでこの記事に遭遇しました。robots.txtのNoindex:標準Disallow:ディレクティブに加えて、ディレクティブを使用できることを暗示しているようです。 Disallow: /page-one.html Noindex: /page-two.html 検索エンジンがページ1をクロールしたり、ページ2のインデックスを作成したりできないように思われます。 このrobots.txtディレクティブはGoogleや他の検索エンジンでサポートされていますか?うまくいきますか?文書化されていますか?

2
GoogleおよびBingボットにのみサイトのクロールを許可する
サイトに次のrobots.txtファイルを使用しています。ターゲットは、googlebotとbingbotがページ以外のサイトにアクセスできる/bedven/bedrijf/*ようにし、他のすべてのボットがサイトをクロールできないようにすることです。 User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: * Disallow: / 最後のルールではUser-agent: * Disallow: /、すべてのボットがサイトのすべてのページをクロールすることを禁止していますか?

1
robots.txtでユーザーエージェントを組み合わせる
ユーザーエージェントを一緒にリストしてから、robots.txtにそのような一般的なルールを続けることはできますか? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

2
ユーザーエージェントのURLの前にプラス記号を付ける
私は小さなWebクローラーを実行し、それに使用するユーザーエージェントを決定する必要がありました。 クローラエージェントのリストだけでなく、ウィキペディアには、次のフォーマットをお勧め: examplebot/1.2 (+http://www.example.com/bot.html) ただし、一部のボットはURLの前のプラス記号を省略します。そもそもそれが何を意味するのか気になりますが、説明が見つかりませんでした。 RFC 2616は、括弧内のすべてをコメントと見なし、その形式を制限しません。しかし、ブラウザのバージョンと機能を宣伝するコメントには、ブラウザがセミコロンで区切られたトークンのリストを含めるのが一般的です。これは、ほとんどのブラウザが同じようにフォーマットする以外の方法で標準化されているとは思いません。また、コメントにURLに関する情報は見つかりませんでした。 私の質問は、なぜプラス記号なのか?必要ですか?

1
Googleはどのようにして403ページをクロールしましたか?
学校のフォルダのディレクトリにいくつかのプライベートファイルがありました。myschool.edu/myusername/myfolderに移動するとファイルが存在することがわかりますが、myschool.edu / myusername / myfolder / myfile.htmlを介してファイル自体にアクセスしようとすると、403エラーが返されます。 それでも、Googleはなんとかしてこれらのプライベートファイルのコンテンツを取得し、キャッシュに保存することができました。これはどのようにして可能ですか?[私はそれらのファイルを削除したので、Googleがこれをどうやって管理したのか興味があるだけです。]

6
archive.orgボットを適切に(拒否)する方法は?状況は変わりましたか?
検索エンジンでインデックスに登録したくないウェブサイトを持っていますが、archive.orgに永久に保存したいのですが。だから私robots.txtはこれから始めます: User-agent: * Disallow: / 今日、archive.orgによるとrobots.txt、ボットを許可するために以下を追加する必要があります: User-agent: ia_archiver Disallow: しかし、私は彼らが数年前に彼らが示したことをすでに行っていました、少なくとも、私は以下を追加しました: User-agent: archive.org_bot Disallow: 次に、上記の2つに加えてもう1 つを追加する必要があると主張する別のソースがありますDisallow。 User-agent: ia_archiver-web.archive.org Disallow: ボットにサイトをアーカイブさせたくないDisallow: /場合は、置く必要があることに注意してください。 IAボットに変更はありますか?もしそうなら、いつ? 推奨される方法は何ですか?とりあえず3つすべてを許可し、IAがボット名を今後変更しないことを望みますか?

2
AJAXクロールスキームを削除する必要がありますか?
そのため、GoogleはAJAXクロールスキームを廃止しました。Googlebotが動的コンテンツを見るのに問題がなくなったので、それはもはや必要ないので、彼らは新しいウェブサイトにそれを実装することを気にしないと言います。私たちはこの声明をすぐに信頼すべきですか、それともしばらくの間廃止された標準に準拠する方が良いでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.