タグ付けされた質問 「robots.txt」

Robots.txtは、Webサイトの所有者が自分のサイトに関する指示をWebロボットに提供するために使用するテキストファイルです。基本的に、サイトのどの部分が開いていて、どの部分が閉じているかをロボットに伝えます。これはロボット排除プロトコルと呼ばれます。

5
Googleを呼び出してrobots.txtをチェックできますか?
私はこの質問の回答を読みましたが、それでも私の質問は開いたままです:Googleはrobots.txtをキャッシュしますか? Googleウェブマスターツールでrobots.txtの再ダウンロードを呼び出す方法が見つかりませんでした。 エラーが発生したため、robots.txtは次のように置き換えられました。 User-agent: * Disallow: / そして今、私のすべてのコンテンツがGoogleの検索結果から削除されました。 明らかに、私はこれをできるだけ早く修正することに興味があります。robots.txtは既に置き換えましたが、Googleにキャッシュバージョンを更新させる方法が見つかりません。

3
GoogleプレビューはRobots.txtに従いますか?
確かにそうですから。私のサイトでは、画像ディレクトリを許可していません。プレビューはすべて画像が欠落しているため、サイトが不安定に見えます。 これは事実ですか?プレビューボットだけがrobots.txtを使用して画像にアクセスできるようにする方法はありますか? 編集:プレビューは、通常のGoogleボットと、ウェブマスターセントラルブログで(簡単に)言及されているオンザフライボットのGoogle Webプレビューの両方によって生成されているようです。 サイトを使用することにより、ボットが私のサイトにヒットしたとき、およびこれが発生したときに、画像がプレビューに正常に表示されたことがわかりました。ですから、私の推測では、通常のクローラーはrobots.txtごとの画像を無視しますが、プレビュークローラーはとにかく画像を取得します。 私のオプションは次のように見えるので、この実装は一種の不器用に見えます: グーグルボットが私の画像をクロールすることを許可する(私はしたくない) プレビューをブロックするnosnippetタグを使用しますが、ALSOスニペット(私はしたくありません) クリックスルーに悪影響を与える可能性のある不安定なプレビューを表示させます

3
サイトマップインデックスに他のサイトマップインデックスを含めることはできますか?
いくつかの異なるサイトマップ(1つはビデオ用、1つは静的コンテンツ用、1つは記事用)にリンクする、各言語のサイトマップインデックスを含む2か国語のWebサイトがあります。サイトマップインデックスをリンクする別のサイトマップを紹介したいので、ルートのrobots.txtでそのサイトマップをリンクでき、言語ごとにrobots.txtを1つ持つ必要はありません。 それは有効ですか?または、私の問題に対するより簡単な解決策はありますか?

1
robots.txtの「Noindex:」はどのように機能しますか?
今日、私のSEOニュースでこの記事に遭遇しました。robots.txtのNoindex:標準Disallow:ディレクティブに加えて、ディレクティブを使用できることを暗示しているようです。 Disallow: /page-one.html Noindex: /page-two.html 検索エンジンがページ1をクロールしたり、ページ2のインデックスを作成したりできないように思われます。 このrobots.txtディレクティブはGoogleや他の検索エンジンでサポートされていますか?うまくいきますか?文書化されていますか?

2
GoogleおよびBingボットにのみサイトのクロールを許可する
サイトに次のrobots.txtファイルを使用しています。ターゲットは、googlebotとbingbotがページ以外のサイトにアクセスできる/bedven/bedrijf/*ようにし、他のすべてのボットがサイトをクロールできないようにすることです。 User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: * Disallow: / 最後のルールではUser-agent: * Disallow: /、すべてのボットがサイトのすべてのページをクロールすることを禁止していますか?

1
robots.txtでユーザーエージェントを組み合わせる
ユーザーエージェントを一緒にリストしてから、robots.txtにそのような一般的なルールを続けることはできますか? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

3
robots.txtを使用してサブドメインのみを禁止するにはどうすればよいですか?
私のコードベースは、いくつかの環境(ライブ、ステージング、DEV)およびサブドメイン(の間で共有されるstaging.example、dev.exampleなど)、および2つだけクロールすることが許容されるべきである(すなわち。www.exampleとexample)。通常は変更/robots.txtして追加しますがDisallow: /、コードベースが共有されているため、/robots.txtすべての(サブ)ドメインに影響を与えずに変更することはできません。 それについてどうやって行くのですか?

6
archive.orgボットを適切に(拒否)する方法は?状況は変わりましたか?
検索エンジンでインデックスに登録したくないウェブサイトを持っていますが、archive.orgに永久に保存したいのですが。だから私robots.txtはこれから始めます: User-agent: * Disallow: / 今日、archive.orgによるとrobots.txt、ボットを許可するために以下を追加する必要があります: User-agent: ia_archiver Disallow: しかし、私は彼らが数年前に彼らが示したことをすでに行っていました、少なくとも、私は以下を追加しました: User-agent: archive.org_bot Disallow: 次に、上記の2つに加えてもう1 つを追加する必要があると主張する別のソースがありますDisallow。 User-agent: ia_archiver-web.archive.org Disallow: ボットにサイトをアーカイブさせたくないDisallow: /場合は、置く必要があることに注意してください。 IAボットに変更はありますか?もしそうなら、いつ? 推奨される方法は何ですか?とりあえず3つすべてを許可し、IAがボット名を今後変更しないことを望みますか?

10
ボットによるWebサーバーの停止を阻止する必要がある
ホスティングアカウント内のいくつかのWebサイトで、極端なボットの問題が発生しています。ボットは私のCPUリソースの98%以上と私のホスティングアカウント全体に私の帯域幅の99%を使用します。これらのボットは、私のサイトに対して1時間あたり1 GBを超えるトラフィックを生成しています。これらすべてのサイトの実際の人的トラフィ​​ックは100 MB /月未満です。 これらのボットをブロックするためにrobots.txtと.htaccessファイルの両方で広範な調査を行いましたが、すべての方法が失敗しました。 robots.txtファイルにコードを入れてスクリプトディレクトリへのアクセスをブロックしましたが、これらのボット(Google、MS Bing、Yahoo)はルールを無視し、スクリプトを実行します。 Google、MS Bing、Yahooのボットを完全にブロックしたくないが、クロール速度を制限したい。また、robots.txtファイルにCrawl-delayステートメントを追加しても、ボットの速度は低下しません。すべてのサイトの現在のrobots.txtおよび.htaccesコードを以下に示します。 MicrosoftとGoogleの両方のウェブマスターツールを設定して、クロール速度を絶対最小に落としましたが、これらのサイトは10ヒット/秒の速度でヒットしています。 さらに、エラーの原因となるファイルをアップロードするたびに、VPS Webサーバー全体が数秒以内にダウンするため、これらのボットによる攻撃のせいでサイトにアクセスできず、問題を修正できません。 Webサイトへのトラフィックのスロットを停止するにはどうすればよいですか? 過去数か月間にこの問題についてWebホスティング会社(site5.com)に何度も質問してみましたが、彼らはこの問題を解決することができません。 ボットがrss2html.phpスクリプトを実行しないようにすることが本当に必要です。セッションとCookieの両方を試しましたが、どちらも失敗しました。 robots.txt User-agent: Mediapartners-Google Disallow: User-agent: Googlebot Disallow: User-agent: Adsbot-Google Disallow: User-agent: Googlebot-Image Disallow: User-agent: Googlebot-Mobile Disallow: User-agent: MSNBot Disallow: User-agent: bingbot Disallow: User-agent: Slurp Disallow: User-Agent: Yahoo! Slurp Disallow: # Directories User-agent: * Disallow: / …

1
検索エンジンからWordpressアーカイブページをブロックする必要がありますか?
私/sample-post/は自分の投稿と/yyyy/mm/アーカイブにWordPressとURL を使用しています。 Googleはサイトを完全にインデックス化しました。 アーカイブには現在完全な投稿が表示されているので、アーカイブページには完全な投稿が含まれているため、Googleがアーカイブページをインデックスに登録することはできません。重複したコンテンツになります。したがって、私のrobots.txtには以下が含まれます。 Disallow: /2009/ Disallow: /2010/ Disallow: /2011/ Disallow: /2012/ Disallow: /2013/ Disallow: /2014/ Disallow: /2015/ これは良い習慣だと思いますか、それとも私のランキングや到達可能性に悪影響を及ぼしますか?

4
ドメインによって拒否されたロボットは引き続き検索結果に表示されます
そのため、検索に対応していないすべてのサイトにrobots.txtファイルを適用しました(WebサイトをリアルタイムのGoogle検索結果から除外する方法、またはその他の同様の質問による)。 ただし、検索語句が十分に具体的である場合、ドメイン自体は結果から見つけることができます。この例はここにあります。リンクからわかるように、ドメイン自体を見つけることができます(コンテンツはキャッシュされませんが、ドメインはリストされます)。さらに、site:hyundaidigitalmarketing.comshould 3の結果で検索を実行します。バックリンクのチェックもいくつか提供しますが、バックリンクを防ぐことはできません(コンテキスト内でリンクが許可されます)。または、バックリンクの処理方法を制御できます(ホストにnofollow、noindexを追加するように指示できません)。 今、私はこれが深刻なエッジケースであることを知っていますが、私の会社のクライアントはこれをまさにやっています。実際、私たちのドメインはかなり良いので、一見恣意的な検索でも関連する結果が出ています。今、私はこれがどのように/なぜ起こっているのかについてのレポートを書く必要があります。 そこで、素晴らしいStack Exchangeネットワークに目を向けて、足りないものを理解したり、何が起こっているのかを理解したりします。業界の記事へのリンクは非常に役に立ちますが、あなたが与えることができるものはすべて明らかに素晴らしいです。私はこれを将来に向けての答えにするために最善を尽くして賞金を提供するつもりです。 編集:私はこの質問に対してさらに多くの回答を得ることを期待して、この質問に報奨金を出しました。自分の調査結果も以下に示します。
9 seo  robots.txt 

3
301リダイレクトを介してサイトを移動する場合、robots.txtを設定して、ロボットが古いアドレスをクロールできないようにする必要がありますか?
作業中のサイトで、301リダイレクトを介してサブドメインを別のサブドメインに移動しました。ただし、古いサブドメインのrobots.txtを確認すると、robots.txtが含まれているため、検索エンジンのWebクローラーがクロールできないようになっています。 これは正しい動きですか?クローラーが古いサイトをクロールして301ステータスコードを表示することができないので、私は信じていません。

5
CSSとJavaScriptのクロールに関するGoogleの発表後、Joomla robots.txtを変更する必要がありますか?
Googleからのお知らせを見つけました:http : //googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html それは述べています: 最適なレンダリングとインデックス作成のために、新しいガイドラインでは、ページが使用するJavaScript、CSS、および画像ファイルへのGooglebotのアクセスを許可する必要があることを指定しています。これにより、サイトに最適なレンダリングとインデックス作成が提供されます。サイトのrobots.txtでJavascriptまたはCSSファイルのクロールを禁止すると、Googleのアルゴリズムがコンテンツをどのようにレンダリングおよびインデックス化するかに直接悪影響を及ぼし、結果としてランキングが最適化されない可能性があります。 デフォルトでは、Joomlaのrobots.txtファイルには以下が禁止されています: Disallow: /administrator/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Googleの発表に基づいて、robots.txtファイルから以下の項目を削除しますか? Disallow: /components/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ これはJoomlaベースのサイトの発表に従って推奨されるものですか?

4
Robots.txtとサイトマップ—紛争で勝つ人
robots.txt内のディレクトリ/ fooをブロックしているが、xmlサイトマップに/ fooを含むURLが含まれている場合、サイトマップ内のURLはGoogleおよび他の検索エンジンによって取得されますか?つまり、サイトマップはrobots.txtに勝っていますか?そうだと思いますが、よくわかりません。

2
robots.txtで許可と禁止を処理する適切な方法は何ですか?
かなり大規模なWebクローラーを実行しています。私たちは、受け入れられたコミュニティ標準の範囲内でクローラーを操作するために一生懸命努力しています。クローラーに関する苦情はほとんどありませんが、多くの場合、robots.txtの処理についての苦情です。ほとんどの場合、ウェブマスターがrobots.txtに誤りを犯したため、その旨を指摘してください。しかし、Allowとの処理を含む灰色の領域に定期的に出くわしDisallowます。 robots.txtののページがカバーしていませんAllow。他のページを見たことがあります。その中には、クローラーが「最初に一致する」ルールを使用しているものと、指定していないものがあります。これは混乱を招きます。たとえば、robots.txtに関するGoogleのページには、この例がありました。 User-agent: Googlebot Disallow: /folder1/ Allow: /folder1/myfile.html 明らかに、ここでの「最初に一致する」ルールは機能しません。クローラーがを表示してDisallow立ち去るため、特別に許可されたファイルをクロールすることがないためです。 すべてのAllow行を無視すれば明確ですが、クロールが許可されているものをクロールしない可能性があります。見逃してしまいます。 Allow最初に確認しDisallow、次に確認することで、私たちは大きな成功を収めました。アイデアは、Allowより具体的であるように意図されていましたDisallow。これは、デフォルトで(つまり、反対の指示がない場合)、すべてのアクセスが許可されるためです。しかし、次のようなものに出くわします。 User-agent: * Disallow: /norobots/ Allow: / ここでの意図は明白ですが、これAllow: /により、Allow最初にチェックするボットは、サイト上のあらゆるものをクロールできると考えます。 この場合でもそれは回避できます。マッチングをAllowと比較してDisallow、/ norobots /の何もクロールできないことを確認できます。しかし、これはワイルドカードに直面すると失敗します。 User-agent: * Disallow: /norobots/ Allow: /*.html$ では、ボットはクロールを許可されてい/norobots/index.htmlますか? 「最初に一致」ルールでは、すべての曖昧さを排除し、私は多くの場合、より具体的に入れて、古いGoogleの例のようなものを示しサイトを参照してくださいAllow 後Disallow。この構文では、ボットによる処理がさらに必要であり、解決できないあいまいさが生じます。 それで私の質問は、物事を行うための正しい方法は何ですか?robots.txtの処理に関して、ウェブマスターは行儀の良いボットに何を期待していますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.