特定のWebサイトのすべてのファイルをarchive.orgで取得したい。理由は次のとおりです。
- 元の作者は自分のウェブサイトをアーカイブしておらず、現在オフラインになっているため、そこからパブリックキャッシュを作成したい
- 私はいくつかのウェブサイトの元の著者であり、一部のコンテンツを失った。回復したい
- ...
それ、どうやったら出来るの ?
archive.orgウェイバックマシンが非常に特別であることを考慮すると、Webページリンクはアーカイブ自体を指しているのではなく、もう存在しないWebページを指している。JavaScriptはクライアント側でリンクを更新するために使用されますが、再帰的なwgetのようなトリックは機能しません。
gem install wayback_machine_downloader
。パラメーターとして取得するWebサイトのベースURLでwayback_machine_downloaderを実行します。wayback_machine_downloader http://example.com
詳細情報:github.com/hartator/wayback_machine_downloader