ここには本当に2つの問題があります。
- ウィル
robots.txt
あなたのサイトに許可しないサイトをクロールから(ブロック)ウェイバックが。
- ウェイバックはあなたのサイトをクロールします。
ポイント#1の場合:
他の人が言ったように、robots.txtの正しいエントリは次のとおりです。
User-agent: ia_archiver
Disallow:
Waybackがrobots.txtに加えた変更に気付くには、しばらく(おそらくかなり長い時間)かかる可能性があることに注意してください。
robots.txt
サイトのでWaybackがサイトをクロールできるかどうかを確認するには:
- 次のURLにアクセスします:https : //archive.org/web/
- ページ上部のボックスに、サイトのページのURLを入力し、
"Browse History"
ボタンをクリックします。
- または、[今すぐページを保存]の下のボックス(現在、右側の下部近く)にサイトのページのURLを入力し、
"Save Page"
ボタンをクリックします。
この時点で、3つのうちの1つが表示されます。
- 「robots.txt」が原因でWaybackがそのサイトのページにアクセスできないことを示すエラーメッセージが表示されます。
- サイトのページの履歴保存ポイントの「カレンダー」が表示されます。この場合、Waybackがサイトのクロールをブロックされていないことがわかります。
- または、Waybackにそのページのアーカイブがないことを示すメッセージと、リンクをクリックしてページをWaybackに追加する提案が表示されます。この場合も、Waybackがサイトのクロールをブロックされていないことがわかります。
さて、ポイント#2について:
ウィルウェイバックには、あなたのサイトをクロール?
Waybackがサイトをクロールすることを許可したからといって、Waybackが(いつまでも)サイトをクロールするという意味ではありません。
Wayback FAQ(強調を追加)によると:
アーカイブされたWebデータの多くは、独自のクロールまたはAlexa Internetのクロールから取得されます。どちらの組織にも「今すぐサイトをクロールする」ことはできません。提出プロセス。インターネットアーカイブのクロールでは、他のサイトからリンクされているサイトを見つける傾向があります。私たちがあなたのウェブサイトを確実に見つけるための最良の方法は、それがオンラインディレクトリに含まれていることと、類似/関連サイトがあなたにリンクしていることを確認することです。
Alexa Internetは独自の方法を使用して、クロールするサイトを検出します。無料のAlexaツールバーをインストールし、クロールするサイトにアクセスして、そのことを確実に知っておくと役立ちます。
誰がサイトをクロールするかに関係なく、サイトの「robots.txt」ルールとページはめ込みMETAロボットディレクティブがサイトを回避するようにクローラーに指示しないようにする必要があります。
更新:2017年5月9日
他のユーザーは、Archive.orgがrobots.txtを尊重しなくなったことを示すコメント/回答を残しています。おそらくこれは「進行中の作業」であり、最終的にはそうなるでしょうが、この新しい動作はまだ見ていません。
このため場合は、この記事から来ているようだrobots.txtの:robots.txtのIS Aの遺書によりますarchiveteam.org
。そのページには、「Robots.txt」について言って良いことはほとんどありませんが、Archive.orgがrobots.txtを尊重しなくなることはどこにも述べられていません。
また、ノートの:記事は上のホストされていることをarchiveteam.org
最も確実にされていない、archive.org
と私はありません確認してくださいとの間に任意の(公式)関係があるarchive.org
とはarchiveteam.org
。
実際、Archive Teamに関するこのページでは、と(強調を追加)の区別を宣言しているようです:archive.org
archive.org
archiveteam.org
2009年に設立されたArchive Team(archive.org Archive-It Team と混同しないでください)は、歴史とデジタル遺産のために、急速に消滅するか削除されたWebサイトのコピーを保存することを専門とする不正なアーキビスト集団です。...
いずれにせよ、私はこれを試してみることにしました、と私はそれが、少なくともこの時点では、見つかったArchive.orgは、 STILLのrobots.txtを称えます:
- eBayでランダムなアイテムを見つけました:アイテム番号:131795294232
- クリックして販売アイテムを表示:
- [販売アイテム]ページが開きます:http : //offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232リンクをクリップボードにコピーします。
- 後藤web.archive.org、とeBayからのリンクを貼り付けます。
- これ
archive.org
は、「robots.txtが原因でページを表示できない」ことを示しています。
だから、現時点では、私は確信が持てないままですが、私は間違っていると証明されたいと思います...それが本当なら素晴らしいでしょう。