ウェブマスター robots.txt

4

すべてのWebサイトに存在するはずのファイルのリストが必要です。アイデアは、ほとんどのブラウザとボットを満足させ、ログ内の404メッセージの数を把握することです。これまでのところ、次のファイルがあります。 /favicon.ico /robots.txt /sitemap.xml /apple-touch-icon-72x72-precomposed.png /apple-touch-icon-72x72.png /apple-touch-icon-precomposed.png /apple-touch-icon.png 頻繁にリクエストされ、すべてのWebサイトに存在する必要がある他のファイルはありますか？

36 robots.txt 404 logging favicon

6

特別な動作を設定したくない場合、robots.txtファイルを持っていなくてもかまいませんか？

特別な動作を設定したくない場合、robots.txtファイルを持っていなくてもかまいませんか？または、1つの欠如は有害ですか？

29 robots.txt

2

空のrobots.txtとないrobots.txtに違いはありますか？

ウェブサーバーでは、robots.txtが空であることに気付きました。空のrobots.txtとファイルがまったくない場合に違いがあるのではないかと思いました。これら2つのケースでクローラーの動作は異なりますか？それでは、空のrobots.txtを削除するだけで安全ですか？

28 web-crawlers robots.txt webserver

1

robots.txtファイルで正規表現を使用してURLをブロックできますか？

いくつかの動的に生成されたURLがあります。 robots.txtファイルで正規表現を使用してこれらのURLをブロックできますか？

23 robots.txt regular-expression

2

robots.txtでディレクトリ全体を禁止するにはどうすればよいですか？

この質問は、ウェブマスターStack Exchangeで回答できるため、Stack Overflowから移行されました。 8年前に移行されました。現在作業中の2つのサイトは、ショッピングカートと買い物客です。両方が同じドメイン名の下にあるので、例えば http://example.com/first_url http://example.com/second_url これらのURLは両方とも、その下に大量のページがあります http://example.com/first_url/product1 http://example.com/first_url/product2 http://example.com/first_url/product3 http://example.com/second_url/product1 http://example.com/second_url/product2 http://example.com/second_url/product3 どのように私は、メインのURLを禁止します/first_urlし、/second_urlあまりにも、すべてのサブページやサブディレクトリ？私はこのようなことを考えていましたが、これが機能するかどうか、それが正しい構文であったかどうかはわかりません Disallow: /first_url/*/ Disallow: /second_url/*/

19 seo robots.txt

2

Googleの検索結果にrobots.txtで許可されていないページが含まれているのはなぜですか？

私のサイトには検索エンジンを遠ざけたいページがいくつかあるので、次のようにrobots.txtファイルでそれらを禁止しました。 User-Agent: * Disallow: /email しかし最近、Googleが検索結果でこれらのページへのリンクを時々返すことがあることに気付きました。なぜこれが起こるのですか、どうすれば停止できますか？バックグラウンド：数年前、私は私の親relativeが関係しているクラブの簡単なウェブサイトを作りました。彼らは自分のページにメールリンクを入れたいと思っていました。スパムリストは、直接mailto:リンクを使用する代わりに、自分のサイトで実行されている単純なリダイレクタ/ アドレスハーベスタトラップスクリプトを指すようにしました。このスクリプトは、実際のmailto:URL への301リダイレクト、または疑わしいアクセスパターンを検出した場合、ランダムな偽の電子メールアドレスを多く含むページと、そのようなページへのリンクを返します。正当な検索ボットをトラップから遠ざけるために、robots.txt上記のルールを設定し、正当なリダイレクタリンクとトラップページの両方のスペース全体を許可しません。しかし、つい最近、クラブのメンバーの1人がGoogleで自分の名前を検索しました。最初のページの結果の1つがリダイレクタースクリプトへのリンクであり、電子メールアドレスで構成されるタイトル私の名前。もちろん、彼らはすぐに私に電子メールを送り、Googleのインデックスからアドレスを取得する方法を知りたいと思っていました。GoogleがそのようなURLをインデックスに登録するという考えがまったくなかったので、私も非常に驚きましたrobots.txt。私はどうにかしてGoogleに削除リクエストを送信しましたが、うまくいったようですが、Googleがrobots.txtそのようなことを回避している理由と方法と、許可されていないページが表示されないようにする方法を知りたいですの検索結果。追伸この質問の準備中に、実際に可能な説明と解決策を見つけました。これを以下に投稿しますが、他の誰かが同じ問題を抱えている可能性がある場合は、とにかく質問したいと思いました。あなた自身の答えを投稿してください。また、他の検索エンジンもこれを行うかどうか、そして同じソリューションがそれらにも機能するかどうかを知ることに興味があります。

18 google-search robots.txt

7

Googleはrobots.txtをキャッシュしますか？

1 週間前にrobots.txtファイルを自分のサイトの1つに追加しました。これにより、Googlebotが特定のURLを取得できなくなりました。ただし、今週の週末には、Googlebotがそれらの正確なURLを読み込んでいるのを見ることができます。 Googleはrobots.txtをキャッシュしますか？

17 googlebot robots.txt google-cache

3

robots.txtはサーバーのサブディレクトリにありますか？

検索エンジンのWebクローラーから隠したいサブディレクトリがあります。これを行う1つの方法robots.txtは、サーバーのルートディレクトリでaを使用することです（標準的な方法）。ただし、WebサイトのURLを知っていて、基本的なWeb知識がある人は、robots.txtのコンテンツにアクセスして、許可されていないディレクトリを見つけることができます。これを避ける方法を考えましたが、うまくいくかどうかはわかりません。 Let Xを除外するサブディレクトリの名前にします。一つの方法は、Webクローラがインデックス作成を停止するXディレクトリを、同時に識別するために、誰かのために困難にするためにX、ルートのからディレクトリをrobots.txt、追加することであるrobots.txtにXディレクトリの代わりに、ルートディレクトリ。この解決策に従う場合、次の質問があります。 Webクローラーrobots.txtはサブディレクトリでそれを見つけますか？（それがrobots.txt既に存在し、ルートディレクトリにも存在する場合）場合robots.txtであるXサブディレクトリ、私は相対的または絶対パスを使用する必要が？： User-agent: * Disallow: /X/ または User-agent: * Disallow: /

16 web-crawlers robots.txt

4

サイトがハッキングされました。+で始まるすべてのURLをGoogleから削除する必要があります。robots.txtを使用しますか？

robots.txtGooglebotがこのようなURLをブロックしてインデックス作成を停止する方法を教えてください。 http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q 私のウェブサイトはハッキングされましたが、ハッカーはGoogleで5000個のURLのインデックスを作成し、ランダムリンクでエラー404が発生しました/+。 GoogleウェブマスターツールからこれらのURLを手動で削除する以外の簡単な方法があるかどうか疑問に思っていましたか？ signでrobots.txt始まるURLでこれをブロックできます+か？

15 google-search robots.txt url-removal

3

有効な最小のrobots.txtファイルとは何ですか？

Webサーバーのaccess.logに多くの404エラーが記録されるのが好きではありません。クローラーがrobots.txtファイルを開こうとしましたが、見つかりませんでした。そこで、ログファイルに404エラーが表示されないようにする単純なrobots.txtファイルを配置します。サイト上のすべてをクロールできる最小の有効なrobots.txtファイルとは何ですか？

14 robots.txt

3

Robots.txt-CSSの許可または禁止

robots.txtで CSSとテンプレートを使用できますか？それは問題を引き起こすべきですか？ Joomlaでは、CSSとテンプレートはrobots.txtで許可されていません。今後のWebサイトのCSS、テンプレートなどのロボットに禁止を設定するかどうかの解決策を見つけてください。

12 css robots.txt

3

Robots.txt：どこにもリンクされていないページを禁止する必要がありますか？

私のWebサイトには、URLを指定した場合にのみユーザーがアクセスできるようにするページがいくつかあります。の単一ページを許可しない場合、ページを閲覧しrobots.txtている人は誰でも見ることができます。私の質問は、どこからでも、または少なくともインデックス化されたページからそれらをリンクしない場合でも、何らかの方法でクローラーがそれらに到達するのでしょうか？

12 robots.txt

2

どのボットが本当にサイトに入れる価値があるのですか？

いくつかのボットを記述し、偶然にサイトをクロールする大量のランダムなボットを見て、私はWebマスターとして、どのボットが本当にサイトにアクセスする価値があるのだろうと思いますか？私の最初の考えは、ボットをサイトに許可すると、潜在的に実際のトラフィックをサイトにもたらす可能性があるということです。既知のボットが実際のトラフィックをサイトに送信することを許可する理由はありますか？これらの「良い」ボットをどのように見つけますか？

11 seo web-crawlers robots.txt googlebot bingbot

4

Google /検索エンジンのSEO結果からサブドメインを非表示にしますか？

検索エンジンの結果に表示したくないサブメインがあります。私が持っているとしましょう： http://www.example.com http://child.example.com 検索エンジンの結果に現在表示されているドメインのすべての URL を非表示にするにはどうすればよいchild.example.comですか？

11 search-engines url robots.txt search noindex

2

Googleウェブマスターツールから、ロボットがサイトマップへのアクセスをブロックしていることがわかります

これは私のrobots.txtです： User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz しかし、Googleウェブマスターツールは、ロボットがサイトマップへのアクセスをブロックしていることを教えてくれます：サイトマップへのアクセス中にエラーが発生しました。サイトマップがGoogleのガイドラインに従っており、指定した場所からアクセスできることを確認してから、再送信してください：robots.txtにより制限されたURL。 Googleウェブマスターツールがrobots.txtをキャッシュすることを読みましたが、ファイルは36時間以上前に更新されています。更新： TESTサイトマップを押しても、Googleは新しいサイトマップを取得しません。SUBMITサイトマップだけがそれを行うことができました。（ところで、現在のサイトマップをそこに貼り付けない限り、「テストサイトマップ」の要点はわかりません。テスト前に入力を要求するアドレスからサイトマップの新しいコピーを取得することはありませんが、それは別の日の質問です。）新しいサイトマップを（テストではなく）送信した後、状況が変化しました。「robots.txtによってブロックされたURLです。サイトマップにはrobots.txtによってブロックされたURLが含まれています」と表示されます。44 URL。サイトマップには正確に44のURLがあります。このGoogleは新しいサイトマップを使用しているが、それはまだ（立ち入り禁止のすべてを保持する）古いロボット規則によって起こっていないことを意味 44のURLのいずれもしている/wp-admin/か/wp-includes/いるので、とにかく種類が不可能のである（robots.txtのは、上に構築されますサイトマップを作成するのと同じプラグインによるフライ）。アップデート2：さらに悪いことに、Google検索結果ページでは、ホームページの説明に「このサイトのrobots.txtがあるため、この結果の説明はありません–詳細」と表示されます。他のすべてのページには詳細な説明があります。ホームページのrobots.txtまたはrobotsメタブロックインデックスはありません。行き詰まっています。

11 google-search-console robots.txt web-crawlers

タグ付けされた質問 「robots.txt」

タグ付けされた質問「robots.txt」