archive.org Wayback MachineからWebサイトをダウンロードする方法は？

84

特定のWebサイトのすべてのファイルをarchive.orgで取得したい。理由は次のとおりです。

元の作者は自分のウェブサイトをアーカイブしておらず、現在オフラインになっているため、そこからパブリックキャッシュを作成したい
私はいくつかのウェブサイトの元の著者であり、一部のコンテンツを失った。回復したい
...

それ、どうやったら出来るの？

archive.orgウェイバックマシンが非常に特別であることを考慮すると、Webページリンクはアーカイブ自体を指しているのではなく、もう存在しないWebページを指している。JavaScriptはクライアント側でリンクを更新するために使用されますが、再帰的なwgetのようなトリックは機能しません。

archiving web

— user36520
ソース

14

同じ問題に遭遇し、gemをコーディングしました。インストールするには：gem install wayback_machine_downloader。パラメーターとして取得するWebサイトのベースURLでwayback_machine_downloaderを実行します。wayback_machine_downloader http://example.com詳細情報：github.com/hartator/wayback_machine_downloader

— Hartator

3

Rubyを初めて使用するWindowsユーザー（私の場合はwin8.1 64ビット）向けのステップバイステップヘルプです。1）rubyinstaller.org/downloadsをインストールしてから、「rubyinstaller-2.2.3-x64」を実行します。 .exe "2）zipファイルgithub.com/hartator/wayback-machine-downloader/archive/…をダウンロードしました 3）コンピューターでzipを解凍します4）Windowsで「Rubyでコマンドプロンプトを開始」のスタートメニューを検索します続き）

— Erb

3

5）github.com/hartator/wayback_machine_downloaderの指示に従います（例：この「gem install wayback_machine_downloader」をコピーしてプロンプトに貼り付けます。Enterキーを押すと、プログラムがインストールされます...その後、「使用法」ガイドラインに従ってください）。あなたのウェブサイトが撮影した後6）あなたがCにファイルを見つける：\ Users \ユーザーあなたのユーザ名\ウェブサイト

— エルブ

64

サイトをダウンロードするさまざまな方法を試してみたところ、ウェイターマシンダウンローダーを見つけました-これは以前Hartatorによって言及されていました（すべてのクレジットは彼にお願いします）。時間を節約するために、ここで別の回答としてwayback_machine_downloader gemを追加することにしました。

http://www.archiveteam.org/index.php?title=Restoringのサイトには、archive.orgからダウンロードするこれらの方法がリストされています。

Wayback Machine Downloaderは、Rubyの小さなツールで、Wayback Machineから任意のWebサイトをダウンロードします。無料でオープンソース。私の選択！
ウォリック -メインサイトはダウンしているようです。
Wayback downloaderは、Wayback Machineからサイトをダウンロードし、Wordpressのプラグインを追加するサービスです。空いてない。

— コミックサンズ
ソース

：私はまた、など、リンクを調整し、リソースをダウンロードし、PHPで、「ウェイバックダウンローダ」を書いた gist.github.com/divinity76/85c01de416c541578342580997fa6acf

— hanshenrik

@ComicSans、リンクしたページで、アーカイブチームグラブとは ??

— 18

1

2018年10月、Wayback Machine Downloaderは引き続き機能します。

— そのブラジル人の

それはアーカイブのチームによって生成さWARCファイル（通常はインターネットアーカイブのウェイバックマシンに供給）（のセット）は、参照意味@Pacerier archive.org/details/archiveteam

— ニモ

13

これは、bashシェルスクリプトとを組み合わせてwget使用できます。

アイデアは、ウェイバックマシンのURL機能の一部を使用することです。

http://web.archive.org/web/*/http://domain/*保存されたすべてのページをhttp://domain/再帰的にリストします。ダウンロードするページのインデックスを構築し、Webページ内のリンクを検出するためのヒューリスティックを回避するために使用できます。各リンクには、最初のバージョンと最後のバージョンの日付もあります。
http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pagehttp://domain/page年YYYYのすべてのバージョンをリストします。そのページ内で、バージョンへの特定のリンクを見つけることができます（正確なタイムスタンプ付き）
http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pagehttp://domain/page指定されたタイムスタンプで変更されていないページを返します。id_トークンに注意してください。

これらは、特定のドメインからすべてをダウンロードするスクリプトを作成するための基本です。

— user36520
ソース

7

代わりに実際にAPIを使用する必要がありますarchive.org/help/wayback_api.phpウィキペディアのヘルプページは編集者向けであり、一般向けではありません。そのため、このページはグラフィカルインターフェイスに焦点を当てていますが、これはこのタスクに取って代わり、不十分です。

— ニモ

おそらくURL（などhttp://web.archive.org/web/19981202230410/http://www.google.com/）を取得しid_、「日付番号」の最後に追加する方が簡単でしょう。すると、のようなものが得られますhttp://web.archive.org/web/19981202230410id_/http://www.google.com/。

— -haykam

1

Pythonスクリプトもここで見つけることができます：gist.github.com/ingamedeo/...

— アメデオBaragiola

4

この目的のために特別に設計されたツール、Warrick：https : //code.google.com/p/warrick/

Mementoプロトコルに基づいています。

— ニモ
ソース

3

私がこれを使用することができた限り（2017年5月）、archive.isが保持しているものを回復し、archive.orgにあるものをほとんど無視します。また、Google / Yahooキャッシュからドキュメントと画像を取得しようとしますが、まったく失敗します。Warrickは、Google CodeがシャットダウンしてからGitHubで数回クローン化されています。おそらく、より良いバージョンがいくつかあります。

— グウィネスLlewelyn

0

これを簡単に行うことができますwget。

wget -rc --accept-regex '.*ROOT.*' START

どこROOTがWebサイトのルートURLでSTARTあり、開始URLです。例えば：

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

STARTURL のWebアーカイブのラッピングフレームをバイパスする必要があることに注意してください。ほとんどのブラウザでは、ページを右クリックして「このフレームのみ表示」を選択できます。

— jcoffland
ソース