「Disallow /」だけでなく、インターネットアーカイブを制御しますか?


13

インターネットアーカイブがサイトでアーカイブする内容を制御するメカニズムはありますか?私は追加できるすべてのページを禁止することを知っています:

User-agent: ia_archiver
Disallow: /
  1. 月に1回、または年に1回サイトをクロールするようにボットに伝えることはできますか?

  2. アセットが取得されないために正しくアーカイブされない/されないサイトがあります。インターネットアーカイブボットがサイトを取得する場合に必要な資産を伝える方法はありますか?


私はこれに対する答えにも非常に興味があります。+1 :)
ティムポスト

回答:


8

:この回答はますます古くなっています。

Internet ArchiveのWebコレクションへの最大の貢献者はAlexa Internetです。Alexaがその目的のためにクロールする資料は、数か月後にIAに寄付されました。質問で言及されている不許可ルールを追加しても、それらのクロールには影響しませんが、ウェイバックはそれらを「再帰的に」尊重します(アクセスを拒否すると、素材はアーカイブに残ります-素材を本当に保持したい場合は、Alexaのロボットを除外する必要がありますインターネットアーカイブの)。

Alexaのクロールに影響を与える方法はあるかもしれませんが、私はそれをよく知りません。

IAは独自のクローラー(Heritrix)を開発して以来、独自のクロールを開始しましたが、それらはターゲットクロールになりがちです(議会図書館では選挙クロールを行い、フランスやオーストラリアなどでは全国クロールを行っています)。彼らは、GoogleとAlexaが実施するような世界規模の持続的なクロールには関与していません。IAの最大のクロールは、20億ページをクロールする特別なプロジェクトでした。

これらのクロールは、プロジェクトの具体的な要因から派生したスケジュールで運営されているとして、あなたは彼らがあなたのサイトを訪問するか、どのくらいの頻度に影響することはできません場合、彼らはあなたのサイトを参照してください。

IAがサイトをクロールする方法とタイミングに直接影響を与える唯一の方法は、Archive-Itサービスを使用することです。このサービスでは、カスタムクロールを指定できます。結果のデータは(最終的に)IAのWebコレクションに組み込まれます。ただし、これは有料のサブスクリプションサービスです。


3
IAが独自のクロールを実行することについてのあなたのコメントは2011年に当てはまりましたが、2016年には当てはまりません。
グレッグリンダール

@GregLindahlこの質問に更新された回答を追加することを歓迎します
スティーブン・オステルミラー

2

ほとんどの検索エンジンは「クロール遅延」ディレクティブをサポートしていますが、IAがサポートしているかどうかはわかりません。あなたもそれを試すことができます:

User-agent: ia_archiver
Crawl-delay: 3600

これにより、リクエスト間の遅延が3600秒(1時間)、または1か月あたり約700リクエストに制限されます。

私は#2が可能だとは思わない-IAボットは、適切であると判断したときに資産を取得します。あまりにも多くのストレージを使用しないように、ファイルサイズに制限がある場合があります。


@Kris:クロール遅延を設定するには、プロキシを使用する必要があります。30ページあり、クローラーに1日に1回しかヒットしないように指示した場合、各ページは約30日ごとに更新される可能性があります。(明らかに保証ではありません。)
不機嫌なヤギ

ただし、理論上ははい、アーカイブクロールを実行している場合、このような規則に従うことはありません。サイトを1日に1文書ずつクロールするということは、特定の瞬間にサイトの適切なキャプチャを取得できないことを意味します。この属性を尊重する場合、アーカイブクロールの上限は1〜5分です。
クリス

ああ、あなたの主張がわかります。
不機嫌なヤギ

最近リリースされたHeritrix 3を調べたところ、クロール遅延ディレクティブの処理が追加されたことがわかりましたが、デフォルトでは最大300秒(5分)のみが尊重されます。
クリス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.