タグ付けされた質問 「googlebot」

Googlebotは、Googleが毎日200億以上のページをクロールするために使用するボットソフトウェアです。クロール中に取得されたデータは、Google検索で分析およびランク付けされます。

1
モバイルでChromeを使用しているときにIPアドレスがGoogleのIPアドレスになるのはなぜですか?
すべてのメンバーの位置情報を(db-ipを使用して)追跡していますが、Chromeブラウザーを搭載した携帯電話を除くすべてが正常です。 彼らはいつも結果をくれUS Mountain View California ip:66.249.xxx.xxxます。これはGoogleです。私はそれについて100%確信しています。しかし、ウェブサイトにアクセスする人は私です。 私はアメリカにさえいません。ローカルGSM ISPを使用しています。 Chromeブラウザでモバイルを使用すると、IPアドレスがGoogleのIPアドレスの1つになるのはなぜですか?

4
GoogleサイトマップがGoogle検索結果に表示されないようにします
次のsite:検索クエリの結果のように、GoogleサイトマップファイルがGoogle検索結果に表示されないようにするにはどうすればよいですか。 そもそもGoogleが検索結果にサイトマップファイルを表示することを選択する理由がわかりません。これらのファイルは、人間が使用するためのものではありません。 Googleがクロールして処理できるようにする必要があるため、robots.txtでそれを禁止することはできません。処理後に検索結果に表示させたくないだけです。

3
Baiduspiderのクロール頻度を遅くすることは可能ですか?
Baiduクモのクロール頻度については、多くのことが行われています。本当です:「バイダスパイダーは狂ったようにい回る」。 私は一緒に働いているサイトでこの現象を経験しました。少なくとも1つの例では、BaiduがGoogleの約0.1%のトラフィックを配信しているという事実にもかかわらず、BaiduspiderがGooglebotとほぼ同じ頻度でクロールすることを発見しました。 サイトへのアクセスをできるだけ少なくしたいのですが(いつかは成長しますか?)、サーバーにこのような重い負荷をかけることを正当化することはできません。 上記のリンクされた質問に対する受け入れられた回答は、Baidu Webmaster Toolsがクロール速度を制限する機会を提供することを示唆していますが、(中国語のみの)ワームの可能性を開くことをheしています。 BWTでBaiduspiderのクロール速度を制限した経験はありますか?この負荷を制限する別の方法はありますか?

7
Googleはrobots.txtをキャッシュしますか?
1 週間前にrobots.txtファイルを自分のサイトの1つに追加しました。これにより、Googlebotが特定のURLを取得できなくなりました。ただし、今週の週末には、Googlebotがそれらの正確なURLを読み込んでいるのを見ることができます。 Googleはrobots.txtをキャッシュしますか?

3
SEO-レスポンシブWebサイトと複製メニュー
レスポンシブWebサイトを作成するたびに、通常2つのメニューを作成します。1つは非表示でモバイル用に使用し、もう1つはメインメニューとして表示し、次に非表示にしてモバイルメニューを表示します。SEOやWebサイトを操作するスパイダーに関しては、メニューが重複しているとうんざりしますか?このメニューがモバイル用であり、これがメインであることをスパイダーに示すためにできることはありますか? 私が2つの異なるメニューを持っている最後の理由は、場所のためです。通常、メインメニューはロゴなどの下のある種のバーにありますが、モバイルメニューはすべての上にあるため、ロゴの上などにあります

4
GooglebotはTLS v1.2をサポートしていますか?そうでない場合、TLS v1.2専用サイトはどのようになりますか?
現在、すべての非HTTPS接続をHTTPSにリダイレクトし、TLS v1、TLS v1.1、およびTLS v1.2をサポートしています。非常に限定された安全な暗号スイートとTLSv1.2のみを受け入れるようにテストサーバーを再構成しました。SSL Labsテストを実行すると、互換性チャートでBingおよびGoogleのクローラーがTLSv1を超えるサポートをしていないことがわかりました。 これはまだ正確ですか?SSL Labsの結果ページを除いて、ボットのプロトコルサポートについての言及を見つけることができませんでした。 Googlebotは本当にTLS v1のみをサポートしていますか? TLS v1.2のみをサポートし、Googlebotがサイトに接続できない場合、Googleはどのステータスにあると見なしますか?

3
googleonとgoogleoffのコメントを使用して、Googlebotがページの一部をインデックスに登録できないようにできますか?
Googleがページの一部をインデックスに登録しないようにするコードを見ました: <p>This is a paragraph that will be indexed by Google.</p> <!--googleoff: index--> <p>This is a paragraph that will NOT be indexed by Google.</p> <!--googleon: index> これは機能しますか?

2
Googlebotは、認証されたユーザーにのみ表示されるURLをどのように検索しますか?
これは私のアカウントの1つで、アカウントにログインした後に何らかのアクションを実行しています。一意のトークンは、単に暗号化されたユーザーID +タイムスタンプです。 94.254.xxx.xxx--[02 / Jul / 2011:22:25:46 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 200 410 "-" "Mozilla / 5.0(互換性あり; MSIE 9.0; Windows NT 6.1; Trident / 5.0) " さて、Googlebotはどういうわけかこのユニークなリンクを見つけ、1週間後にまったく同じURLにアクセスしようとしました。 66.249.71.179--[10 / Jul / 2011:09:56:01 +0200] "GET / some-action / unique-token-123abc HTTP / 1.1" 302-"-" "Mozilla / 5.0(互換性; …

4
GoogleはCDNファイルをクロールしません
Googleウェブマスターツールが、私のウェブサイトでブロックされた多くのリソースを報告していることに気づきました。現在、すべての「ブロックされたリソース」は、Cloudfront CDNから提供する.css、.jsおよび画像(.jpg、.png)です。 私は多くの時間をかけてテストし、Googleがこれらのファイルをクロールせず、「リソースブロック」ステータスを報告しない理由を理解しようとしました。 現在、これらのファイルをcdn1.example.com、cdn2.example.comなどのいくつかのホスト名から提供しています。 cdn1、cdn2などは、cloudfrontディストリビューション名に対するCNAMEです。 テスト:cloudfrontディストリビューション(CNAMEなし)を直接使用しようとしましたが、問題は解決しません。 現在、robots.txtは次のようになっています。 # Google AdSense User-agent: Mediapartners-Google Disallow: #Google images User-agent: Googlebot-Image Disallow: / User-agent: * Disallow: /homepage Disallow: /index.php* Disallow: /uncategorized* Disallow: /tag/* Disallow: *feed Disallow: */page/* Disallow: *author* Disallow: *archive* Disallow: */category* Disallow: *tag=* Disallow: /test* Allow: / また、1つのサンプルページでブロックされたファイルの例: cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/themes/magazine/css/font-awesome.min.css,wp-content/themes/magazine/css/sensitive .css cdn5.example.com/wp-content/themes/magazine/images/nobg.png …

2
どのボットが本当にサイトに入れる価値があるのですか?
いくつかのボットを記述し、偶然にサイトをクロールする大量のランダムなボットを見て、私はWebマスターとして、どのボットが本当にサイトにアクセスする価値があるのだろうと思いますか? 私の最初の考えは、ボットをサイトに許可すると、潜在的に実際のトラフィックをサイトにもたらす可能性があるということです。既知のボットが実際のトラフィックをサイトに送信することを許可する理由はありますか?これらの「良い」ボットをどのように見つけますか?

1
link rel =“ alternate”、複数の言語および正規URL
コンテキスト:複数の言語バージョンで利用できるWebサイトがあります。ただし、内容は同じです。サイトの各翻訳バージョンは、個別のサブドメインで利用できます。 一部のページでは<link rel="canonical" />、必要に応じて、同じページの同じ言語の正規バージョンを指すために使用しています。これは基本的な正規化のことで、この場合はタグの順序付けです。 問題は、<link rel="canonical" />正規化のためにa が存在するページに加えて、<link rel="alternate" hreflang="XX"/>さまざまな翻訳を指すタグの束があることです。 このような場合、Googleは何をしますか?コンテンツの重複によって罰せられることは望まないが、Googleインデックスにあるページの異なる言語バージョンを失うことは望まない。 私たちはたくさん検索しましたが、私たちのケースに対処するものは何も見つかりませんでした、そしていくつかのリソースはこのトピックについて混乱していました。

1
robots.txtの「Noindex:」はどのように機能しますか?
今日、私のSEOニュースでこの記事に遭遇しました。robots.txtのNoindex:標準Disallow:ディレクティブに加えて、ディレクティブを使用できることを暗示しているようです。 Disallow: /page-one.html Noindex: /page-two.html 検索エンジンがページ1をクロールしたり、ページ2のインデックスを作成したりできないように思われます。 このrobots.txtディレクティブはGoogleや他の検索エンジンでサポートされていますか?うまくいきますか?文書化されていますか?

3
検索エンジンスパイダーはPOSTフォームを送信しますか?
POSTフォーム(私の場合は選択ボックス)の背後にコンテンツがある場合、Googlebotまたは他の検索エンジンスパイダーはそのフォームの背後にあるコンテンツをクロールできますか? たとえば、1つのページの4つの翻訳があり、言語の選択が同じURLへのPOSTフォームで、言語固有のURLにリダイレクトされた場合、Googlebotは「他の」言語をクロールできますか?

1
Googleはどのようにして403ページをクロールしましたか?
学校のフォルダのディレクトリにいくつかのプライベートファイルがありました。myschool.edu/myusername/myfolderに移動するとファイルが存在することがわかりますが、myschool.edu / myusername / myfolder / myfile.htmlを介してファイル自体にアクセスしようとすると、403エラーが返されます。 それでも、Googleはなんとかしてこれらのプライベートファイルのコンテンツを取得し、キャッシュに保存することができました。これはどのようにして可能ですか?[私はそれらのファイルを削除したので、Googleがこれをどうやって管理したのか興味があるだけです。]

2
AJAXクロールスキームを削除する必要がありますか?
そのため、GoogleはAJAXクロールスキームを廃止しました。Googlebotが動的コンテンツを見るのに問題がなくなったので、それはもはや必要ないので、彼らは新しいウェブサイトにそれを実装することを気にしないと言います。私たちはこの声明をすぐに信頼すべきですか、それともしばらくの間廃止された標準に準拠する方が良いでしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.