ウェブサイト全体をアーカイブするには？

14

Wayback Machineを介して単一のページを保存するには、次のように移動します。

http://web.archive.org/save/https://somewebsite.example.com/

Wayback Machineで Webサイトを再帰的にアーカイブするにはどうすればよいですか？

などのプロジェクトがありますがwayback-machine-downloader、ウェブサイトを再帰的にアップロードできる機能を探しています。

archive.org

— ケノーブ
ソース

11

Wayback Machineはそのような機能を提供していないので、いくつかの回避策を見つけました。

まず、使用してウェブサイトをミラーwget、例えば
```
wget -m https://example.com/
```
次に、を使用curlして、ダウンロードしたすべてのページを1つずつアーカイブします。
```
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
```
^{注：に変更.htmlする.phpか、特定のタイプのファイルを含めることができます。}

— ケノーブ
ソース

サイトが拡張機能を使用しない場合（htmlやphpなど-SEがセットアップされているように）、コマンドをどのように調整しますか？

— db

2

あなたは変更することができます-name "*.html"し-type f、すべてのファイルを含めること。

— ケノーブ2018

これはクエリパラメータでどのように機能しますか？

— 架空の

6

小さなWebサイトをアーカイブする場合、アーカイブチームは、Webサイトのクロールを要求できるIRCボットであるArchiveBotを維持します。アーカイブチームは、クロールされたページをインターネットアーカイブのWayback Machineに送信します。

— フラックス
ソース

これは非常に役に立ちます。

— ガイ

1

ウェイバックマシンは、サイト全体を送信する方法を提供していません。すでに見たように、1ページのみです。これは、Wayback Machine FAQのいくつかの点で触れられています。

ウェイバックマシンにページを追加できますか？

上https://archive.org/webあなたは、特定のページを一時間を節約するために「保存ページ今」機能を使用することができます。現在、これによりURLが今後のクロールに追加されることも、その1ページ以上が保存されることもありません。複数のページ、ディレクトリ、サイト全体は保存されません。

そして

ウェイバックマシンにサイトを含めるにはどうすればよいですか？

アーカイブされたWebデータの多くは、独自のクロールまたはAlexa Internetのクロールから取得されます。どちらの組織にも「今すぐサイトをクロールする」ことはできません。提出プロセス。Internet Archiveのクロールは、他のサイトからリンクされているサイトを見つける傾向があります。私たちがあなたのウェブサイトを見つけることを確実にする最良の方法は、それがオンラインディレクトリに含まれていることと、類似/関連サイトがあなたにリンクしていることを確認することです。

— ジョンC
ソース

1

これは質問に対する答えではありません。公式な方法がないために、このタスクを実行することは不可能ではありません。実際、リンクを再帰的に追加するスクリプトを作成するのはかなり簡単なはずです。

— db

@db、ケノーブの答えはあなたが求めていたもののようです。ちなみに、私は今、The WaybackMachineに1ページをキャプチャしてほしかったので、この答えは現時点では私にとってより便利です。

— cp.engr

1

archive.orgのこの記事では、必要に応じて頻繁にクロールを実行する有料サービスも提案しています。

Archive-Itアカウントにサインアップする

Archive-Itは、インターネットアーカイブによって提供されるサブスクリプションサービスで、技術的な専門知識がなくても独自のクロールプロジェクトを実行できます。クロール対象とクロール頻度を教えてください。クロールを実行し、結果をウェイバックマシンに入れます。

これはおそらくあなたが望んでいることではありませんが、一部の企業にとってはこのサービスが役立つかもしれません。それ以外の場合は無料であるarchive.orgへの資金提供に役立つと思います。

— ステイソン
ソース