私のサイトには検索エンジンを遠ざけたいページがいくつかあるので、次のようにrobots.txt
ファイルでそれらを禁止しました。
User-Agent: *
Disallow: /email
しかし最近、Googleが検索結果でこれらのページへのリンクを時々返すことがあることに気付きました。なぜこれが起こるのですか、どうすれば停止できますか?
バックグラウンド:
数年前、私は私の親relativeが関係しているクラブの簡単なウェブサイトを作りました。彼らは自分のページにメールリンクを入れたいと思っていました。スパムリストは、直接mailto:
リンクを使用する代わりに、自分のサイトで実行されている単純なリダイレクタ/ アドレスハーベスタトラップスクリプトを指すようにしました。このスクリプトは、実際のmailto:
URL への301リダイレクト、または疑わしいアクセスパターンを検出した場合、ランダムな偽の電子メールアドレスを多く含むページと、そのようなページへのリンクを返します。正当な検索ボットをトラップから遠ざけるために、robots.txt
上記のルールを設定し、正当なリダイレクタリンクとトラップページの両方のスペース全体を許可しません。
しかし、つい最近、クラブのメンバーの1人がGoogleで自分の名前を検索しました。最初のページの結果の1つがリダイレクタースクリプトへのリンクであり、電子メールアドレスで構成されるタイトル私の名前。もちろん、彼らはすぐに私に電子メールを送り、Googleのインデックスからアドレスを取得する方法を知りたいと思っていました。GoogleがそのようなURLをインデックスに登録するという考えがまったくなかったので、私も非常に驚きましたrobots.txt
。
私はどうにかしてGoogleに削除リクエストを送信しましたが、うまくいったようですが、Googleがrobots.txt
そのようなことを回避している理由と方法と、許可されていないページが表示されないようにする方法を知りたいですの検索結果。
追伸 この質問の準備中に、実際に可能な説明と解決策を見つけました。これを以下に投稿しますが、他の誰かが同じ問題を抱えている可能性がある場合は、とにかく質問したいと思いました。あなた自身の答えを投稿してください。また、他の検索エンジンもこれを行うかどうか、そして同じソリューションがそれらにも機能するかどうかを知ることに興味があります。
robots.txt
ファイルには、誰かの私道の横にある小さな「立ち入り禁止」看板のようなものです。それは魔法ではなく、(訪問者が明示的に探しているのでない限り)彼らは存在にわずかに影響されることなくあなたの財産をさまようことができます。フラッドライトやカミソリのフェンスに相当するインターネットがありますが、それらがあなたが望むものなら、そうでrobots.txt
はありません。