archive.org Wayback MachineからWebサイトをダウンロードする方法は?


84

特定のWebサイトのすべてのファイルをarchive.orgで取得したい。理由は次のとおりです。

  • 元の作者は自分のウェブサイトをアーカイブしておらず、現在オフラインになっているため、そこからパブリックキャッシュを作成したい
  • 私はいくつかのウェブサイトの元の著者であり、一部のコンテンツを失った。回復したい
  • ...

それ、どうやったら出来るの ?

archive.orgウェイバックマシンが非常に特別であることを考慮すると、Webページリンクはアーカイブ自体を指しているのではなく、もう存在しないWebページを指している。JavaScriptはクライアント側でリンクを更新するために使用されますが、再帰的なwgetのようなトリックは機能しません。


14
同じ問題に遭遇し、gemをコーディングしました。インストールするには:gem install wayback_machine_downloader。パラメーターとして取得するWebサイトのベースURLでwayback_machine_downloaderを実行します。wayback_machine_downloader http://example.com詳細情報:github.com/hartator/wayback_machine_downloader
Hartator

3
Rubyを初めて使用するWindowsユーザー(私の場合はwin8.1 64ビット)向けのステップバイステップヘルプです。1)rubyinstaller.org/downloadsをインストールしてから、「rubyinstaller-2.2.3-x64」を実行します。 .exe "2)zipファイルgithub.com/hartator/wayback-machine-downloader/archive/…をダウンロードしました 3)コンピューターでzipを解凍します4)Windowsで「Rubyでコマンドプロンプトを開始」のスタートメニューを検索します続き)
Erb

3
5)github.com/hartator/wayback_machine_downloaderの指示に従います(例:この「gem install wayback_machine_downloader」をコピーしてプロンプトに貼り付けます。Enterキーを押すと、プログラムがインストールされます...その後、「使用法」ガイドラインに従ってください)。あなたのウェブサイトが撮影した後6)あなたがCにファイルを見つける:\ Users \ユーザーあなたのユーザ名\ウェブサイト
エルブ

回答:


64

サイトをダウンロードするさまざまな方法を試してみたところ、ウェイターマシンダウンローダーを見つけました-これは以前Hartatorによって言及されていました(すべてのクレジットは彼にお願いします)。時間を節約するために、ここで別の回答としてwayback_machine_downloader gemを追加することにしました。

http://www.archiveteam.org/index.php?title=Restoringのサイトには、archive.orgからダウンロードするこれらの方法がリストされています

  • Wayback Machine Downloaderは、Rubyの小さなツールで、Wayback Machineから任意のWebサイトをダウンロードします。無料でオープンソース。私の選択!
  • ウォリック -メインサイトはダウンしているようです。
  • Wayback downloaderは、Wayback Machineからサイトをダウンロードし、Wordpressのプラグインを追加するサービスです。空いてない。

:私はまた、など、リンクを調整し、リソースをダウンロードし、PHPで、「ウェイバックダウンローダ」を書いた gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik

@ComicSans、リンクしたページで、アーカイブチームグラブとは ??
18

1
2018年10月、Wayback Machine Downloaderは引き続き機能します。
そのブラジル人の

それはアーカイブのチームによって生成さWARCファイル(通常はインターネットアーカイブのウェイバックマシンに供給)(のセット)は、参照意味@Pacerier archive.org/details/archiveteam
ニモ

13

これは、bashシェルスクリプトとを組み合わせてwget使用できます。

アイデアは、ウェイバックマシンのURL機能の一部を使用することです。

  • http://web.archive.org/web/*/http://domain/*保存されたすべてのページをhttp://domain/再帰的にリストします。ダウンロードするページのインデックスを構築し、Webページ内のリンクを検出するためのヒューリスティックを回避するために使用できます。各リンクには、最初のバージョンと最後のバージョンの日付もあります。
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pagehttp://domain/page年YYYYのすべてのバージョンをリストします。そのページ内で、バージョンへの特定のリンクを見つけることができます(正確なタイムスタンプ付き)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pagehttp://domain/page指定されたタイムスタンプで変更されていないページを返します。id_トークンに注意してください

これらは、特定のドメインからすべてをダウンロードするスクリプトを作成するための基本です。


7
代わりに実際にAPIを使用する必要がありますarchive.org/help/wayback_api.phpウィキペディアのヘルプページは編集者向けであり、一般向けではありません。そのため、このページはグラフィカルインターフェイスに焦点を当てていますが、これはこのタスクに取って代わり、不十分です。
ニモ

おそらくURL(などhttp://web.archive.org/web/19981202230410/http://www.google.com/)を取得しid_、「日付番号」の最後に追加する方が簡単でしょう。すると、のようなものが得られますhttp://web.archive.org/web/19981202230410id_/http://www.google.com/
-haykam

1
Pythonスクリプトもここで見つけることができます:gist.github.com/ingamedeo/...
アメデオBaragiola

4

この目的のために特別に設計されたツール、Warrick:https : //code.google.com/p/warrick/

Mementoプロトコルに基づいています。


3
私がこれを使用することができた限り(2017年5月)、archive.isが保持しているものを回復し、archive.orgにあるものをほとんど無視します。また、Google / Yahooキャッシュからドキュメントと画像を取得しようとしますが、まったく失敗します。Warrickは、Google CodeがシャットダウンしてからGitHubで数回クローン化されています。おそらく、より良いバージョンがいくつかあります。
グウィネスLlewelyn

0

これを簡単に行うことができますwget

wget -rc --accept-regex '.*ROOT.*' START

どこROOTがWebサイトのルートURLでSTARTあり、開始URLです。例えば:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

STARTURL のWebアーカイブのラッピングフレームをバイパスする必要があることに注意してください。ほとんどのブラウザでは、ページを右クリックして「このフレームのみ表示」を選択できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.