インターネットアーカイブがサイトでアーカイブする内容を制御するメカニズムはありますか?私は追加できるすべてのページを禁止することを知っています:
User-agent: ia_archiver
Disallow: /
月に1回、または年に1回サイトをクロールするようにボットに伝えることはできますか?
アセットが取得されないために正しくアーカイブされない/されないサイトがあります。インターネットアーカイブボットがサイトを取得する場合に必要な資産を伝える方法はありますか?
インターネットアーカイブがサイトでアーカイブする内容を制御するメカニズムはありますか?私は追加できるすべてのページを禁止することを知っています:
User-agent: ia_archiver
Disallow: /
月に1回、または年に1回サイトをクロールするようにボットに伝えることはできますか?
アセットが取得されないために正しくアーカイブされない/されないサイトがあります。インターネットアーカイブボットがサイトを取得する場合に必要な資産を伝える方法はありますか?
回答:
注:この回答はますます古くなっています。
Internet ArchiveのWebコレクションへの最大の貢献者はAlexa Internetです。Alexaがその目的のためにクロールする資料は、数か月後にIAに寄付されました。質問で言及されている不許可ルールを追加しても、それらのクロールには影響しませんが、ウェイバックはそれらを「再帰的に」尊重します(アクセスを拒否すると、素材はアーカイブに残ります-素材を本当に保持したい場合は、Alexaのロボットを除外する必要がありますインターネットアーカイブの)。
Alexaのクロールに影響を与える方法はあるかもしれませんが、私はそれをよく知りません。
IAは独自のクローラー(Heritrix)を開発して以来、独自のクロールを開始しましたが、それらはターゲットクロールになりがちです(議会図書館では選挙クロールを行い、フランスやオーストラリアなどでは全国クロールを行っています)。彼らは、GoogleとAlexaが実施するような世界規模の持続的なクロールには関与していません。IAの最大のクロールは、20億ページをクロールする特別なプロジェクトでした。
これらのクロールは、プロジェクトの具体的な要因から派生したスケジュールで運営されているとして、あなたは彼らがあなたのサイトを訪問するか、どのくらいの頻度に影響することはできません場合、彼らはあなたのサイトを参照してください。
IAがサイトをクロールする方法とタイミングに直接影響を与える唯一の方法は、Archive-Itサービスを使用することです。このサービスでは、カスタムクロールを指定できます。結果のデータは(最終的に)IAのWebコレクションに組み込まれます。ただし、これは有料のサブスクリプションサービスです。
ほとんどの検索エンジンは「クロール遅延」ディレクティブをサポートしていますが、IAがサポートしているかどうかはわかりません。あなたもそれを試すことができます:
User-agent: ia_archiver
Crawl-delay: 3600
これにより、リクエスト間の遅延が3600秒(1時間)、または1か月あたり約700リクエストに制限されます。
私は#2が可能だとは思わない-IAボットは、適切であると判断したときに資産を取得します。あまりにも多くのストレージを使用しないように、ファイルサイズに制限がある場合があります。