Robots.txt：どこにもリンクされていないページを禁止する必要がありますか？

12

私のWebサイトには、URLを指定した場合にのみユーザーがアクセスできるようにするページがいくつかあります。

の単一ページを許可しない場合、ページを閲覧しrobots.txtている人は誰でも見ることができます。

私の質問は、どこからでも、または少なくともインデックス化されたページからそれらをリンクしない場合でも、何らかの方法でクローラーがそれらに到達するのでしょうか？

robots.txt

— マルトノ
ソース

11

ページをSERPにまったく表示したくない場合...

robots.txtで禁止しないでください。代わりに、noindexメタタグ（またはX-Robots-Tag HTTPヘッダー）をページに追加します。

j0kが示唆するように、あなたのページは何とか見つけることができました。統計レポート、ディレクトリ一覧など...

robots.txtで許可しないことで、ページのクロールを防止できますが、インデックスを作成でき、SERPでURLのみのリンクとして表示される可能性があります。何かのようなもの：

Google SERPのURLのみのリンク

noindexメタタグは、ページがSERPにまったく表示されないようにしますが、noindexメタタグを表示するにはGoogleがページをクロールできる必要があるため、robots.txtで禁止できません。

ページ上に公開してはならないものがある場合、ページは何らかの認証の背後にある必要があります。

— ミスターホワイト
ソース

覚えておくべきことの1つは、これが本当に機密情報である場合、選択した方法に関係なく、URLで「隠す」ことは悪い習慣です。そのような場合には、適切な認証を使用することが本当に重要です。

— ジョンミューラー

1

また、ソーシャルメディアボタン（いいね/共有/ + 1 /さまざまなブックマーク）もコンテンツを取得し、URLにnoindexが含まれている（またはロボットによって許可されていない）場合でも、URL、タイトル、およびスニペットをパブリックな方法で表示できます。txt）。それを防ぐ唯一の方法は、認証を使用することです。

— ジョンミューラー

2

さて、robots.txtを読んでディレクティブに従う優れたクローラーがあると思います。そして、指示に従わない他のもの。

そして、このURLをどのように与える予定ですか？電子メールで、FacebookまたはTwitterを使用していますか？これらのサービスはすべて、送信した情報をクロールします。Gmailは受信したメールを解析して広告を提供します。そのため、URLは何らかの形でクロールされます。

Googleツールバー（または検索エンジンの他のツールバー）を使用する人もいます。ツールバーからアクセスしたすべてのURLをGoogleに送信できるオプション（覚えている場合はデフォルトでチェックされています）があります。これは、Googleが隠されたWebを見るための別の方法です。そのため、URLを共有しないように指示したとしても、暗黙的にその人は（ツールバーのおかげで）共有します。

他の多くの可能性を見つけることができると思います。

~~したがって、robots.txtに追加するだけでなく、noindex、nofollowなどのメタを追加することもできます。~~

編集：

robots.txtについてのw3dの提案は、私には良いようです。したがって、robots.txtに追加してpropreメタタグを提供しないでください。

— j0k
ソース

メールでリンクしています。はい、適切なメタを提供する予定でした。あなたの提案は、ロボットに追加するかどうかです？ありがとう

— -martjno

robots.txtに追加することをお勧めします。しかし、w3dの提案は私の考えを変えました。追加せずに、適切なメタタグを提供します。

— j0k

0

上記のコメントに加えて、HTACCESS認証も最低限の賞賛に値します。この方法で、ページを表示する資格の期間中にユーザー名とパスワードの組み合わせを個人に提供できます。

プライバシーの問題がある場合は、適切なログイン制御スクリプトを検討する必要があります。

保護されていないページ（どれだけ隠されていると思われるかもしれませんが）は、それを野生にします。

— アンドリュー
ソース