Wayback Machineを介して単一のページを保存するには、次のように移動します。
Wayback Machineで Webサイトを再帰的にアーカイブするにはどうすればよいですか?
などのプロジェクトがありますがwayback-machine-downloader
、ウェブサイトを再帰的にアップロードできる機能を探しています。
Wayback Machineを介して単一のページを保存するには、次のように移動します。
Wayback Machineで Webサイトを再帰的にアーカイブするにはどうすればよいですか?
などのプロジェクトがありますがwayback-machine-downloader
、ウェブサイトを再帰的にアップロードできる機能を探しています。
回答:
Wayback Machineはそのような機能を提供していないので、いくつかの回避策を見つけました。
まず、使用してウェブサイトをミラーwget
、例えば
wget -m https://example.com/
次に、を使用curl
して、ダウンロードしたすべてのページを1つずつアーカイブします。
find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
注:に変更.html
する.php
か、特定のタイプのファイルを含めることができます。
-name "*.html"
し-type f
、すべてのファイルを含めること。
小さなWebサイトをアーカイブする場合、アーカイブチームは、Webサイトのクロールを要求できるIRCボットであるArchiveBotを維持します。アーカイブチームは、クロールされたページをインターネットアーカイブのWayback Machineに送信します。
ウェイバックマシンは、サイト全体を送信する方法を提供していません。すでに見たように、1ページのみです。これは、Wayback Machine FAQのいくつかの点で触れられています。
ウェイバックマシンにページを追加できますか?
上https://archive.org/webあなたは、特定のページを一時間を節約するために「保存ページ今」機能を使用することができます。現在、これによりURLが今後のクロールに追加されることも、その1ページ以上が保存されることもありません。複数のページ、ディレクトリ、サイト全体は保存されません。
そして
ウェイバックマシンにサイトを含めるにはどうすればよいですか?
アーカイブされたWebデータの多くは、独自のクロールまたはAlexa Internetのクロールから取得されます。どちらの組織にも「今すぐサイトをクロールする」ことはできません。提出プロセス。Internet Archiveのクロールは、他のサイトからリンクされているサイトを見つける傾向があります。私たちがあなたのウェブサイトを見つけることを確実にする最良の方法は、それがオンラインディレクトリに含まれていることと、類似/関連サイトがあなたにリンクしていることを確認することです。
archive.orgのこの記事では、必要に応じて頻繁にクロールを実行する有料サービスも提案しています。
- Archive-Itアカウントにサインアップする
Archive-Itは、インターネットアーカイブによって提供されるサブスクリプションサービスで、技術的な専門知識がなくても独自のクロールプロジェクトを実行できます。クロール対象とクロール頻度を教えてください。クロールを実行し、結果をウェイバックマシンに入れます。
これはおそらくあなたが望んでいることではありませんが、一部の企業にとってはこのサービスが役立つかもしれません。それ以外の場合は無料であるarchive.orgへの資金提供に役立つと思います。