Robots.txt:どこにもリンクされていないページを禁止する必要がありますか?


12

私のWebサイトには、URLを指定した場合にのみユーザーがアクセスできるようにするページがいくつかあります。

の単一ページを許可しない場合、ページを閲覧しrobots.txtている人は誰でも見ることができます。

私の質問は、どこからでも、または少なくともインデックス化されたページからそれらをリンクしない場合でも、何らかの方法でクローラーがそれらに到達するのでしょうか?

回答:


11

ページをSERPにまったく表示したくない場合...

robots.txtで禁止しないでください。代わりに、noindexメタタグ(またはX-Robots-Tag HTTPヘッダー)をページに追加します。

j0kが示唆するように、あなたのページは何とか見つけることができました。統計レポート、ディレクトリ一覧など...

robots.txtで許可しないことで、ページのクロールを防止できますが、インデックスを作成でき、SERPでURLのみのリンクとして表示される可能性があります。何かのようなもの:

Google SERPのURLのみのリンク

noindexメタタグは、ページがSERPにまったく表示されないようにしますが、noindexメタタグを表示するにはGoogleがページをクロールできる必要があるため、robots.txtで禁止できません。

ページ上に公開してはならないものがある場合、ページは何らかの認証の背後にある必要があります。


覚えておくべきことの1つは、これが本当に機密情報である場合、選択した方法に関係なく、URLで「隠す」ことは悪い習慣です。そのような場合には、適切な認証を使用することが本当に重要です。
ジョンミューラー

1
また、ソーシャルメディアボタン(いいね/共有/ + 1 /さまざまなブックマーク)もコンテンツを取得し、URLにnoindexが含まれている(またはロボットによって許可されていない)場合でも、URL、タイトル、およびスニペットをパブリックな方法で表示できます。txt)。それを防ぐ唯一の方法は、認証を使用することです。
ジョンミューラー

2

さて、robots.txtを読んでディレクティブに従う優れたクローラーがあると思います。そして、指示に従わない他のもの。

そして、このURLをどのように与える予定ですか?電子メールで、FacebookまたはTwitterを使用していますか?これらのサービスはすべて、送信した情報をクロールします。Gmailは受信したメールを解析して広告を提供します。そのため、URLは何らかの形でクロールされます。

Googleツールバー(または検索エンジンの他のツールバー)を使用する人もいます。ツールバーからアクセスしたすべてのURLをGoogleに送信できるオプション(覚えている場合はデフォルトでチェックされています)があります。これは、Googleが隠されたWebを見るための別の方法です。そのため、URLを共有しないように指示したとしても、暗黙的にその人は(ツールバーのおかげで)共有します。

他の多くの可能性を見つけることができると思います。

したがって、robots.txtに追加するだけでなく、noindex、nofollowなどのメタを追加することもできます。

編集:

robots.txtについてのw3dの提案は、私には良いようです。したがって、robots.txtに追加してpropreメタタグを提供しないでください。


メールでリンクしています。はい、適切なメタを提供する予定でした。あなたの提案は、ロボットに追加するかどうかです?ありがとう
-martjno

robots.txtに追加することをお勧めします。しかし、w3dの提案は私の考えを変えました。追加せずに、適切なメタタグを提供します。
j0k

0

上記のコメントに加えて、HTACCESS認証も最低限の賞賛に値します。この方法で、ページを表示する資格の期間中にユーザー名とパスワードの組み合わせを個人に提供できます。

プライバシーの問題がある場合は、適切なログイン制御スクリプトを検討する必要があります。

保護されていないページ(どれだけ隠されていると思われるかもしれませんが)は、それを野生にします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.