archive.orgボットを適切に(拒否)する方法は?状況は変わりましたか?


10

検索エンジンでインデックスに登録したくないウェブサイトを持っていますが、archive.orgに永久に保存したいのですが。だから私robots.txtはこれから始めます:

User-agent: *
Disallow: /

今日、archive.orgによるとrobots.txt、ボットを許可するために以下を追加する必要があります:

User-agent: ia_archiver
Disallow:

しかし、私は彼らが数年前に彼らが示したことをすでに行っていました、少なくとも、私は以下を追加しました:

User-agent: archive.org_bot
Disallow:

次に、上記の2つに加えてもう1 つを追加する必要があると主張する別のソースがありますDisallow

User-agent: ia_archiver-web.archive.org 
Disallow:

ボットにサイトをアーカイブさたくないDisallow: /場合は、置く必要があることに注意してください。

IAボットに変更はありますか?もしそうなら、いつ?

推奨される方法は何ですか?とりあえず3つすべてを許可し、IAがボット名を今後変更しないことを望みますか?


ia_archiverしか知りませんでした。他は私にとって驚きです。これへのリンクはありますか?私が尋ねる理由は、とにかくarchive.orgが私のサイトを訪問し、IPアドレスでそれらをブロックしなければならなかったからです。また、archive.orgを許可たいが、それをブロックすることについて話していると述べました。私はこれについてより明確にしたいだけであり、リンクは私たち全員を助けることができます。前もって感謝します!
closetnoc 2014年

質問を更新しました。それが今より明確になることを願っています。小さなバージョン:このサイトに検索エンジンボットは必要ありません。archive.orgボットが必要です。しかし、それはほとんどの人が探しているものなので、おそらく私は質問を逆にする必要がありますか?
kqw 2014年

実際、これらのいずれも使用しない場合は、包括的なステートメントでブロックしない限り、archive.orgを許可します。
closetnoc 2014年

「ia_archiver」だけを使用すると、「ia_archiver-web.archive.org」もブロックされるため、後者は不要であるように見えます(このボットが標準に従っている場合)。
MrWhite 2014年

アクセスログにia-archiver(またはarchive.org_bot)ボットが表示されますか?
MrWhite 2014年

回答:


9

更新:@KevinFeganがコメントに記されているように、ドキュメントが変更されました。以下の部分では、過去(少なくとも2014年)にインターネットアーカイブがそれをどのように処理したかについて説明します。


彼らのFAQ どうすれば自分のサイトのページをウェイバックマシンから除外できますか?は、ボットが呼び出されたドキュメントをウェイバックマシンから削除することを指しia_archiverます。

したがって、このレコードにより、ボットがサイト全体をクロールできるようになります。

User-agent: ia_archiver
Disallow:

グループの順序は重要ではありません。最も具体的には、試合が勝利その一つであること(すなわち最長)ユーザエージェント。*他のグループがマッチしていないときのグループにのみ一致します。
MrWhite 2014年

@ w3d:そうです、私はこの部分を削除しました。情報をありがとう:)
unor '26年

1
どうやら、これは時間とともに変化しました。提供されたFAQページと、2017年4月25日以降のこのArchive.orgブログページで「ia_archiver」が見つかりません。MarkGraham は次のように述べています。
ケビンフィーガン

@KevinFegan:ご連絡ありがとうございます。回答を更新して、名前が含まれているドキュメントのアーカイブバージョンにリンクしました。
'06年

彼らが故意に物事を複雑にし、彼らが逃げることができる方法が好きです!
Ultralisk

5

ここには本当に2つの問題があります。

  1. ウィルrobots.txtあなたのサイトに許可しないサイトをクロールから(ブロック)ウェイバックが。
  2. ウェイバックはあなたのサイトをクロールします。

ポイント#1の場合:
他の人が言ったように、robots.txtの正しいエントリは次のとおりです。

User-agent: ia_archiver
Disallow:

Waybackがrobots.txtに加えた変更に気付くには、しばらく(おそらくかなり長い時間)かかる可能性があることに注意してください。

robots.txtサイトのでWaybackがサイトをクロールできるかどうかを確認するには:

  1. 次のURLにアクセスします:https : //archive.org/web/
  2. ページ上部のボックスに、サイトのページのURLを入力し、"Browse History"ボタンをクリックします。
  3. または、[今すぐページを保存]の下のボックス(現在、右側の下部近く)にサイトのページのURLを入力し、"Save Page"ボタンをクリックします。

この時点で、3つのうちの1つが表示されます。

  1. 「robots.txt」が原因でWaybackがそのサイトのページにアクセスできないことを示すエラーメッセージが表示されます。
  2. サイトのページの履歴保存ポイントの「カレンダー」が表示されます。この場合、Waybackがサイトのクロールをブロックされていないことがわかります。
  3. または、Waybackにそのページのアーカイブがないことを示すメッセージと、リンクをクリックしてページをWaybackに追加する提案が表示されます。この場合も、Waybackがサイトのクロールをブロックされていないことがわかります。


さて、ポイント#2について:

ウィルウェイバックには、あなたのサイトをクロール?

Waybackがサイトをクロールすることを許可したからといって、Waybackが(いつまでも)サイトをクロールするという意味ではありません。

Wayback FAQ(強調を追加)によると:

ウェイバックマシンにサイトを含めるにはどうすればよいですか?

アーカイブされたWebデータの多くは、独自のクロールまたはAlexa Internetのクロールから取得されます。どちらの組織にも「今すぐサイトをクロールする」ことはできません。提出プロセス。インターネットアーカイブのクロールでは、他のサイトからリンクされているサイトを見つける傾向があります。私たちがあなたのウェブサイトを確実に見つけるための最良の方法は、それがオンラインディレクトリに含まれていることと、類似/関連サイトがあなたにリンクしていることを確認することです。

Alexa Internetは独自の方法を使用して、クロールするサイトを検出します。無料のAlexaツールバーをインストールし、クロールするサイトにアクセスして、そのことを確実に知っておくと役立ちます。

誰がサイトをクロールするかに関係なく、サイトの「robots.txt」ルールとページはめ込みMETAロボットディレクティブがサイトを回避するようにクローラーに指示しないようにする必要があります。


更新:2017年5月9日

他のユーザーは、Archive.orgがrobots.txtを尊重しなくなったことを示すコメント/回答を残しています。おそらくこれは「進行中の作業」であり、最終的にはそうなるでしょうが、この新しい動作はまだ見ていません。

このため場合は、この記事から来ているようだrobots.txtの:robots.txtのIS Aの遺書によりますarchiveteam.org。そのページには、「Robots.txt」について言って良いことはほとんどありませんが、Archive.orgがrobots.txtを尊重しなくなることはどこにも述べられていません。

また、ノートの:記事は上のホストされていることをarchiveteam.org最も確実にされていない、archive.orgと私はありません確認してくださいとの間に任意の(公式)関係があるarchive.orgとはarchiveteam.org

実際、Archive Teamに関するこのページでは、と(強調を追加)の区別を宣言しているようです:archive.org archive.orgarchiveteam.org

2009年に設立されたArchive Team(archive.org Archive-It Team と混同しないでください)は、歴史とデジタル遺産のために、急速に消滅するか削除されたWebサイトのコピーを保存することを専門とする不正なアーキビスト集団です。...

いずれにせよ、私はこれを試してみることにしました、と私はそれが、少なくともこの時点では、見つかったArchive.orgは、 STILLのrobots.txtを称えます:

  1. eBayでランダムなアイテムを見つけました:アイテム番号:131795294232
  2. クリックして販売アイテムを表示:

販売したeBayアイテム

  1. [販売アイテム]ページが開きます:http : //offer.ebay.com/ws/eBayISAPI.dll?ViewBidsLogin&item=131795294232リンクをクリップボードにコピーします。
  2. 後藤web.archive.org、とeBayからのリンクを貼り付けます。
  3. これarchive.orgは、「robots.txtが原因でページを表示できない」ことを示しています。

Wayback / Archive.orgの「エラー」メッセージ

だから、現時点では、私は確信が持てないままですが、私は間違っていると証明されたいと思います...それが本当なら素晴らしいでしょう。


robots.txtのでarchive.orgをロックアウトすることは、もはや動作しません:
wortwart

@wortwart-もしそうならそれは素晴らしいだろう(私の回答に追加した更新を参照)。これに関する情報へのリンクはありますか?
Kevin Fegan

確かに:blog.archive.org/2017/04/17/…「数か月前、米国政府および軍のWebサイトにあるrobots.txtファイルの参照をやめました(...)現在、これをより広範囲に行うことを検討しています。 」
ワートワート2017年

4

2017年の更新

アーカイブボットはrobots.txtを気にしなくなりました。

本当にブロックしたい場合は、このページに従ってメールを送るか、htaccessでIPアドレスをブロックしてください


2
私の答えに2017年5月の更新プログラムを参照してください:適切に(DIS)はarchive.orgボットを許可するようにどのように...? 。Archiveボット、政府のWebサイトを除いて、robots.txtファイルを引き続き考慮します。あなたが言及した記事がwww.archiveteam.orgからのものであることに注意してください。これはArchive.orgとは関係ありません。--->
ケビンフェガン2017年

--->そのページには「Robots.txt」について言って良いことはほとんどありませんが、Archive.orgがrobots.txtを尊重しなくなることについては言及されていません。関連するArchive.orgの記事は次のとおりです。検索エンジン向けのRobots.txtは、ウェブアーカイブではうまく機能しません。「数か月前、米国政府および軍のWebサイトにあるrobots.txtファイルの参照をやめました(...)現在、これをより広範囲に行うことを目指しています。」
Kevin Fegan 2017年

はい。これで、アーカイブは削除要求を完全に無視します。
Ultralisk

3

robots.txt ia_archiver Disallowエントリ(「/」付き)は、説明する必要がある場合は問題ありません(「永久に保持する」ためですが、まだ一般には公開されていません)。

私は簡単なテストを行い、少なくとも過去10年間それがあったサイトのia_archiver Disallowエントリーをコメントアウトしました。次に、archive.org / webでサイトを調べたところ、2007年、2008年、2009年、2011年、2012年、2013年、2014年、2015年、2016年、2017年に収集されたグラブが表示されました。つまり、Archive.orgは、この数年間、他の人が「アーカイブしない」と考えていたことを厳密に尊重したことはなく、単にアーカイブされたコピーを公開するだけではなかったということです。


2
  1. : "ia_archiverは、"今、(AB)はアレクサ、いくつかのソースと言うで使用されている12
  2. Archive.org now(2018)は、「robots.txt」をまったく尊重しなくなりました。3 mil / govページだけでなく、すべてのページ。2012年以来、iaを除外するrobots.txtを所有している、私自身のプライベートWebサイトで経験したとおり。そして今、私は突然それが何年にもわたってクロールされ、保存されたことに気づき、今ではすべての歴史が見えています。それは裏切られた感じです。> :-(

1

私はそのrobots.txt方法を試しましたが、うまくいきませんでした。だから私は彼らのメールinfo@archive.orgでウェブサイトに連絡しました:

こんにちは、

私の個人的なウェブサイトdimitarnestorov.comをアーカイブから削除していただけますか?

ありがとう!

ディミター

そして、私は次の答えを得ました:

こんにちは、

インターネットアーカイブでは、ウェイバックマシン(web.archive.org)からWebサイトを除外できますが、まず、以下のいずれかを実行して、dimitarnestorov.comのサイト所有者またはコンテンツ作成者であることを確認する手助けをしてください。

(注:これらのオプションの一部は、以前のWayback Machineキャプチャにあるコンテンツや、指定した期間に関連している可能性のあるドキュメントを参照している場合があります。)

  • 現在のバージョンのサイトにリクエストを投稿してください(リンクを送信してください)。
  • サイトに記載されているメインのメール連絡先からリクエストを送信し、それがどこにあるか(存在する場合)をお知らせください。
  • 登録者のメール(WHOISルックアップで公開されている場合は、リンクすることができます)またはサイトにリストされているウェブマスターのメールからリクエストを送信します。
  • あなたの個人情報(名前、連絡先、自己の画像)がサイトのどこに表示されるかを、サイトの所有者または除外したいコンテンツの作成者として識別できるようにしてください。この場合、有効な写真付き身分証明書をスキャンして本人確認を行う(生年月日、住所、電話番号などの機密情報は編集可能です)。
  • ドメインの所有者としてあなたに宛てられたホスティング会社またはレジストラからの通信を私たちに転送します。

(注:誰かの名前/ユーザー名の単純な言及、および/またはサイト/ページ/アカウント間のハイパーリンク/リダイレクト自体は、通常、アーカイブを除外するのに十分ではありません。)

これらのオプションのいずれも利用できない場合は、このメールへの返信でお知らせください。

できるだけ多くのアーカイブを保存していただけると助かります。したがって、残りのアーカイブを利用できるようにするために、特定のURLまたはディレクトリのみが関係している場合はお知らせください。

ご存知かもしれませんが、インターネットアーカイブは非営利のデジタルライブラリであり、Wayback Machineを介して、インターネットの自由にアクセス可能な歴史的記録を維持しようとしています。アーカイブ内の資料は、営利目的でインターネットアーカイブによって悪用されることはありません。


インターネットアーカイブチーム

wayback-removal-request.htmlは次のコンテンツで作成しました(有効なHTMLでさえありません):

<p>Hello,</p>

<p>Can you remove my website from the Wayback Machine?</p>

<p>Thanks!</p>
<p>Dimitar</p>

それをアップロードして、ウェブページが利用できるURLで彼らのメールに返信しました、そして後に私は次の返信を受け取りました:

こんにちは、

以下の電子メールで参照されているサイト/ URLは、Wayback Machineからの除外のためにhttp://www.archive.orgに送信されました(過去のすべてのキャプチャに関して):

dimitarnestorov.com

プロセスの自動化された部分がコースを実行し、変更が有効になるまで、最大1日かかります。


インターネットアーカイブチーム

数時間チェックした後、私のウェブサイトは削除されました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.