タグ付けされた質問 「robots.txt」

Robots.txtは、Webサイトの所有者が自分のサイトに関する指示をWebロボットに提供するために使用するテキストファイルです。基本的に、サイトのどの部分が開いていて、どの部分が閉じているかをロボットに伝えます。これはロボット排除プロトコルと呼ばれます。

4
すべてのWebサイトに必要なファイル
すべてのWebサイトに存在するはずのファイルのリストが必要です。アイデアは、ほとんどのブラウザとボットを満足させ、ログ内の404メッセージの数を把握することです。 これまでのところ、次のファイルがあります。 /favicon.ico /robots.txt /sitemap.xml /apple-touch-icon-72x72-precomposed.png /apple-touch-icon-72x72.png /apple-touch-icon-precomposed.png /apple-touch-icon.png 頻繁にリクエストされ、すべてのWebサイトに存在する必要がある他のファイルはありますか?




2
robots.txtでディレクトリ全体を禁止するにはどうすればよいですか?
この質問は、ウェブマスターStack Exchangeで回答できるため、Stack Overflowから移行されました。 8年前に移行され ました。 現在作業中の2つのサイトは、ショッピングカートと買い物客です。両方が同じドメイン名の下にあるので、例えば http://example.com/first_url http://example.com/second_url これらのURLは両方とも、その下に大量のページがあります http://example.com/first_url/product1 http://example.com/first_url/product2 http://example.com/first_url/product3 http://example.com/second_url/product1 http://example.com/second_url/product2 http://example.com/second_url/product3 どのように私は、メインのURLを禁止します/first_urlし、/second_urlあまりにも、すべてのサブページやサブディレクトリ?私はこのようなことを考えていましたが、これが機能するかどうか、それが正しい構文であったかどうかはわかりません Disallow: /first_url/*/ Disallow: /second_url/*/
19 seo  robots.txt 

2
Googleの検索結果にrobots.txtで許可されていないページが含まれているのはなぜですか?
私のサイトには検索エンジンを遠ざけたいページがいくつかあるので、次のようにrobots.txtファイルでそれらを禁止しました。 User-Agent: * Disallow: /email しかし最近、Googleが検索結果でこれらのページへのリンクを時々返すことがあることに気付きました。なぜこれが起こるのですか、どうすれば停止できますか? バックグラウンド: 数年前、私は私の親relativeが関係しているクラブの簡単なウェブサイトを作りました。彼らは自分のページにメールリンクを入れたいと思っていました。スパムリストは、直接mailto:リンクを使用する代わりに、自分のサイトで実行されている単純なリダイレクタ/ アドレスハーベスタトラップスクリプトを指すようにしました。このスクリプトは、実際のmailto:URL への301リダイレクト、または疑わしいアクセスパターンを検出した場合、ランダムな偽の電子メールアドレスを多く含むページと、そのようなページへのリンクを返します。正当な検索ボットをトラップから遠ざけるために、robots.txt上記のルールを設定し、正当なリダイレクタリンクとトラップページの両方のスペース全体を許可しません。 しかし、つい最近、クラブのメンバーの1人がGoogleで自分の名前を検索しました。最初のページの結果の1つがリダイレクタースクリプトへのリンクであり、電子メールアドレスで構成されるタイトル私の名前。もちろん、彼らはすぐに私に電子メールを送り、Googleのインデックスからアドレスを取得する方法を知りたいと思っていました。GoogleがそのようなURLをインデックスに登録するという考えがまったくなかったので、私も非常に驚きましたrobots.txt。 私はどうにかしてGoogleに削除リクエストを送信しましたが、うまくいったようですが、Googleがrobots.txtそのようなことを回避している理由と方法と、許可されていないページが表示されないようにする方法を知りたいですの検索結果。 追伸 この質問の準備中に、実際に可能な説明と解決策を見つけました。これを以下に投稿しますが、他の誰かが同じ問題を抱えている可能性がある場合は、とにかく質問したいと思いました。あなた自身の答えを投稿してください。また、他の検索エンジンもこれを行うかどうか、そして同じソリューションがそれらにも機能するかどうかを知ることに興味があります。

7
Googleはrobots.txtをキャッシュしますか?
1 週間前にrobots.txtファイルを自分のサイトの1つに追加しました。これにより、Googlebotが特定のURLを取得できなくなりました。ただし、今週の週末には、Googlebotがそれらの正確なURLを読み込んでいるのを見ることができます。 Googleはrobots.txtをキャッシュしますか?

3
robots.txtはサーバーのサブディレクトリにありますか?
検索エンジンのWebクローラーから隠したいサブディレクトリがあります。 これを行う1つの方法robots.txtは、サーバーのルートディレクトリでaを使用することです(標準的な方法)。ただし、WebサイトのURLを知っていて、基本的なWeb知識がある人は、robots.txtのコンテンツにアクセスして、許可されていないディレクトリを見つけることができます。 これを避ける方法を考えましたが、うまくいくかどうかはわかりません。 Let Xを除外するサブディレクトリの名前にします。一つの方法は、Webクローラがインデックス作成を停止するXディレクトリを、同時に識別するために、誰かのために困難にするためにX、ルートのからディレクトリをrobots.txt、追加することであるrobots.txtにXディレクトリの代わりに、ルートディレクトリ。 この解決策に従う場合、次の質問があります。 Webクローラーrobots.txtはサブディレクトリでそれを見つけますか?(それがrobots.txt既に存在し、ルートディレクトリにも存在する場合) 場合robots.txtであるXサブディレクトリ、私は相対的または絶対パスを使用する必要が?: User-agent: * Disallow: /X/ または User-agent: * Disallow: /

4
サイトがハッキングされました。+で始まるすべてのURLをGoogleから削除する必要があります。robots.txtを使用しますか?
robots.txtGooglebotがこのようなURLをブロックしてインデックス作成を停止する方法を教えてください。 http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q 私のウェブサイトはハッキングされましたが、ハッカーはGoogleで5000個のURLのインデックスを作成し、ランダムリンクでエラー404が発生しました/+。 GoogleウェブマスターツールからこれらのURLを手動で削除する以外の簡単な方法があるかどうか疑問に思っていましたか? signでrobots.txt始まるURLでこれをブロックできます+か?

3
有効な最小のrobots.txtファイルとは何ですか?
Webサーバーのaccess.logに多くの404エラーが記録されるのが好きではありません。クローラーがrobots.txtファイルを開こうとしましたが、見つかりませんでした。そこで、ログファイルに404エラーが表示されないようにする単純なrobots.txtファイルを配置します。 サイト上のすべてをクロールできる最小の有効なrobots.txtファイルとは何ですか?
14 robots.txt 

3
Robots.txt-CSSの許可または禁止
robots.txtで CSSとテンプレートを使用できますか? それは問題を引き起こすべきですか? Joomlaでは、CSSとテンプレートはrobots.txtで許可されていません。今後のWebサイトのCSS、テンプレートなどのロボットに禁止を設定するかどうかの解決策を見つけてください。
12 css  robots.txt 

3
Robots.txt:どこにもリンクされていないページを禁止する必要がありますか?
私のWebサイトには、URLを指定した場合にのみユーザーがアクセスできるようにするページがいくつかあります。 の単一ページを許可しない場合、ページを閲覧しrobots.txtている人は誰でも見ることができます。 私の質問は、どこからでも、または少なくともインデックス化されたページからそれらをリンクしない場合でも、何らかの方法でクローラーがそれらに到達するのでしょうか?
12 robots.txt 

2
どのボットが本当にサイトに入れる価値があるのですか?
いくつかのボットを記述し、偶然にサイトをクロールする大量のランダムなボットを見て、私はWebマスターとして、どのボットが本当にサイトにアクセスする価値があるのだろうと思いますか? 私の最初の考えは、ボットをサイトに許可すると、潜在的に実際のトラフィックをサイトにもたらす可能性があるということです。既知のボットが実際のトラフィックをサイトに送信することを許可する理由はありますか?これらの「良い」ボットをどのように見つけますか?


2
Googleウェブマスターツールから、ロボットがサイトマップへのアクセスをブロックしていることがわかります
これは私のrobots.txtです: User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz しかし、Googleウェブマスターツールは、ロボットがサイトマップへのアクセスをブロックしていることを教えてくれます: サイトマップへのアクセス中にエラーが発生しました。サイトマップがGoogleのガイドラインに従っており、指定した場所からアクセスできることを確認してから、再送信してください:robots.txtにより制限されたURL。 Googleウェブマスターツールがrobots.txtをキャッシュすることを読みましたが、ファイルは36時間以上前に更新されています。 更新: TESTサイトマップを押しても、Googleは新しいサイトマップを取得しません。SUBMITサイトマップだけがそれを行うことができました。(ところで、現在のサイトマップをそこに貼り付けない限り、「テストサイトマップ」の要点はわかりません。テスト前に入力を要求するアドレスからサイトマップの新しいコピーを取得することはありませんが、それは別の日の質問です。) 新しいサイトマップを(テストではなく)送信した後、状況が変化しました。「robots.txtによってブロックされたURLです。サイトマップにはrobots.txtによってブロックされたURLが含まれています」と表示されます。44 URL。サイトマップには正確に44のURLがあります。このGoogleは新しいサイトマップを使用しているが、それはまだ(立ち入り禁止のすべてを保持する)古いロボット規則によって起こっていないことを意味 44のURLのいずれもしている/wp-admin/か/wp-includes/いるので、とにかく種類が不可能のである(robots.txtのは、上に構築されますサイトマップを作成するのと同じプラグインによるフライ)。 アップデート2: さらに悪いことに、Google検索結果ページでは、ホームページの説明に「このサイトのrobots.txtがあるため、この結果の説明はありません–詳細」と表示されます。他のすべてのページには詳細な説明があります。ホームページのrobots.txtまたはrobotsメタブロックインデックスはありません。 行き詰まっています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.