Webクローラーがリンクをたどらずに静的ページを表示することは可能ですか？

8

ドメイン（http://www.domain.com/page.html）に静的ページを作成した場合、サイト上のどこにもリンクがない場合でも、クローラーはページを表示できますか？

web-crawlers

— 分かれた
ソース

はい、Skypeでリンクを送信するだけで、Bingがリンクを見つけてインデックスに登録します。

— クロエ

10

彼らはそれを見ることができますか？はい。彼らはそれを見つけることができますか？助けなしではありません。

Webクローラーは通常、他のページにあるリンクをたどってクロールするページを見つけます。一部のクローラー（検索エンジンクローラーなど）は、特別なXMLファイルにリストされているページもクロールします。そのため、あなたのWebサイトまたは他のWebサイトにページへのリンクがない場合、そのページはクロールされません（そのページのURLを含むがプレーンテキストのページは、Googleによって検出されます）。

ただし、ページが検出されてクロールされると、そのページへのすべてのリンクがそれぞれのWebサイトから削除されていても、再度クロールされる場合があります。これは、クロールされたページにインデックスが付けられるため（たとえば、クロールするページのクローラーリストに追加され、再度クロールされるため）、クローラーが後で再度クロールして変更を探すことができるためです。これを防ぐには、次のいずれかを実行します。

最も効果的な

インターネットからページを削除する
そのページのURLを変更しました（基本的にページを削除して新しいページを追加します）
ログインの後ろに置きます

効果が低い

robots.txtファイルを使用してそのページをブロックします（無視される場合があります）
不正なボットをIP（訪問のたびに変わる可能性があります）またはユーザーエージェント（なりすましの可能性があります）で除外してみてください

— ジョンコンデ
ソース

1

ページが発見されるもう1つの方法は、そのページに他のサイトへのリンクがある場合です。

あなたのページのURLはリファラーログに表示されます。多くのウェブマスターの良い時間は、それらのログを簡単に閲覧し、他の人が自分のページについて何を言っているかを確認することです。

一部のサイトは、アクセス制限なしでこれらのログへのアクセスを提供しているようです。したがって、クローラーもそれらにアクセスできます...

ページを本当に秘密にしておくために、外部サイトへのリンクを許可しないでください。

— ルイス・ソマーズ
ソース