バックアップなしで失われたウェブサイトを回復しますか?


262

残念ながら、ホスティングプロバイダーは100%のデータ損失を経験したため、2つのホストされたブログWebサイトのすべてのコンテンツを失いました。

(はい、はい、完全なオフサイトバックアップを実行する必要がありました。残念ながら、すべてのバックアップはサーバー自体に保存されていました。講義を保存してください。ここで質問に集中してください!)

私は、WebクローラーのキャッシュからWebサイトを回復する、遅くて苦痛なプロセスを始めています。

Warrickなど、インターネットWebスパイダー(Yahoo、Bing、Googleなど)キャッシュからWebサイトを回復するための自動化されたツールがいくつかありますが、これを使用していくつかの悪い結果がありました。

  • 私のIPアドレスはすぐにGoogleから使用を禁止されました
  • 500エラーと503エラーが大量に発生し、「5分間待機しています...」
  • 最終的には、テキストコンテンツを手作業ですばやく回復できます

すべてのブログ投稿のリストを使用して、Googleキャッシュにクリックスルーし、個々のファイルをHTMLとして保存することで、幸運を得ることができました。ブログの記事の多くがありますが、存在しないこと、多くの、そして私は、私はより良いバックアップ戦略を持っていないため、いくつかの自責に値する把握。とにかく、重要なことは、この方法でブログの投稿テキストを取得できて幸運だったことです。また、インターネットキャッシュからWebページのテキストを確実に取得できます。これまでに行ったことに基づいて、失われたブログ投稿テキストとコメントをすべて回復できると確信しています

ただし、各ブログ投稿に伴う画像は証明されていますが…もっと難しいです。

任意の一般的なインターネットのキャッシュからのウェブサイトのページを回復するためのヒント、そして特に、場所はするウェブサイトのページからアーカイブされた画像を回復しますか

(また、バックアップの講義はありません。あなたは完全に、完全に、まったく正しいです!しかし、正しいことは私の差し迫った問題を解決していません...あなたがタイムマシンを持っていない限り...)


96
ジェフ・アトウッドのような誰かが自分自身で2つのウェブサイト全体を一気に失うことができたとき... 私は自分のバックアップ手順をレビューします、1つ:P

240
@Phoshi:JeffはCodi​​ng Horrorのバックアップに関する良い記事をいくつか持っています。早めに読んでください。

34
joshhuntがインターネットを1つ獲得します。このオファーは、他のオファーと組み合わせたり、交換したり、置換したりすることはできません。レインチェックはありません。
アダムデイビス

28
長さは一部の人は... SUに担当者を獲得するために、に行きます

26
あなたが「バックアップ」として行ったことを参照しないでください-それらのファイルが同じサーバー上にある場合、それらは決して「バックアップ」ではありません。

回答:


220

ここに暗闇の中で私の野生の刺し傷があります:すべての画像リクエストに対して304を返すようにWebサーバーを設定し、URLのリストをどこかに投稿し、すべての読者にポッドキャストを頼んで各URLをロードして画像を収穫することで回復をクラウドソーシングしますローカルキャッシュからロードします。(これは、HTMLページ自体を<img ...>タグで完全に復元した後にのみ機能します。質問は、あなたができることを暗示しているようです。)

これは基本的に、「読者のWebブラウザーのキャッシュから取得する」という凝った方法です。多くの読者とポッドキャストリスナーがいるため、最近Webサイトを閲覧した可能性が高い多数の人々を効果的に動員できます。しかし、さまざまなWebブラウザーのキャッシュから画像を手動で見つけて抽出することは難しく、多くの人がそれを試して成功するのに十分簡単である場合、アプローチ全体が最適に機能します。したがって、304アプローチ。読者に必要なのは、一連のリンクをクリックして、Webブラウザーに読み込まれる(または右クリックして名前を付けて保存するなどの)画像をドラッグして、メールで送信するか、あなたが設定した中央の場所、または何でも。このアプローチの主な欠点は、Webブラウザーのキャッシュがそれほど遠くまで戻らないことです。しかし、非常に古いイメージでさえも救助するために、過去数日間に2006年からたまたま投稿を読み込んだ読者は1人だけです。十分な聴衆があれば、何でも可能です。


52
最も創造的なアプローチのために+1。CHには多くの読者がいるため、実際に動作する可能性があります。

16
ここで実装しますか?diovo.com/2009/12/...
ジェフ・アトウッド

3
誰もが各リンクをクリックするのではなく、画像タグの静的ファイルをクロールし、それらすべてを画像の1つの巨大なページにコピーできると思います。diovo.comの実装は非常に印象的です。

2
うわー、それは邪悪な魔法のたわごとですI <3
アフマドアルフィ

4
実際、canvasAJAX を使用して画像を取得し、自宅に送信できるはずです。
トマーシュザト

65

私たちの中にはRSSリーダーであなたをフォローし、キャッシュをクリアしないものがいます。2006年にさかのぼるようなブログ投稿があります。私が見ることのできる画像はありませんが、あなたが今していることよりも良いかもしれません。


間違いなく+1。Google Readerはそうではありませんが、デスクトップベースのものは間違いないでしょう。

2
また、ブラウザのキャッシュを確認するように人々に依頼することもできます。Coding Horrorレトロスタイルを見る人は、画像の一部がキャッシュされているかもしれません。

2005年にGReaderでブログを投稿しましたが、残念ながら画像がなく、それらを一連のページとしてエクスポートすることはできません。 ..
グレンソルズベリー2009

うん、「あなたがそれを求めたら私が持っているものを送ります」という暗示がありました。私の答えにも。

3
RSSリーダーが多すぎると、画像は決して死なないと思います。私は私が知っている:(

62

(1)HTMLバックアップから不足しているすべての画像のファイル名のリストを抽出します。次のようなものが残されます。

  • stay-puft-marshmallow-man.jpg
  • internet-properties-dialog.png
  • yahoo-homepage-small.png
  • password-show-animated.gif
  • tivo2.jpg
  • michael-abrash-graphics-program

(2)それらのファイル名に対してGoogle画像検索を実行します。それらの多くは、他のブロガーによって「ミラーリング」されており、同じファイル名を持っているので、撮影に適しているようです。

(3)たとえば10枚以上の画像で成功した場合、これを自動化された方法で行うことができます。


彼が実際にこのような画像を取得した場合、非常に皮肉なことになります。
ハシム

51

移動して、Google画像検索と入力してsite:codinghorror.com、あなたは、少なくともあなたのすべての画像のサムネイルバージョンを見つけることができます。いいえ、必ずしも役立つとは限りませんが、数千の画像を取得するための出発点となります。

コーディングホラー画像

Googleはより大きなサムネイルを保存するように見え、いくつかの例:

GoogleとBing

Googleは左側、Bingは右側です。


2
ええ、最悪の場合、Googleのサムネイルを拡大する必要があります。Bingは大きなサムネイルを保存すると聞きましたが?
ジェフアトウッド

知りません; 私はビンビンのような男ではありません。Googleのように画像検索を行うかどうかさえ知りません。上記の投稿を見つけて更新します。
ジョージストッカー

18
これがあなたかどうかはわかりません。しかし、Imageshackには多くのブログ画像があるようです。 profile.imageshack.us/user/codinghorror
Nick Berardi

フルサイズの456個の画像のように見えます。これは、すべてを回復するための最善の策かもしれません。たぶん彼らはあなたにダンプを提供することさえできます。
ニックベラルディ

28
Googleサムネイルを開始点として使用し、tineye.comを使用して誰かがコピーをホストしているかどうかを確認します。
Sep332 09

40

ブログについて聞いて申し訳ありません。講義しない しかし、Imageshackであなたの画像のように見えるものを見つけました。彼らは本当にあなたのものですか、誰かがそれらのコピーを保持していますか?

http://profile.imageshack.us/user/codinghorror

フルサイズの456個の画像のように見えます。これは、すべてを回復するための最善の策かもしれません。たぶん彼らはあなたにダンプを提供することさえできます。


37

ジェフ、私はあなたのためにここに何かを書い

要するに、私があなたに提案するのは:

  1. すべての画像リクエストに対して304を返すようにWebサーバーを構成します。304は、ファイルが変更されていないことを意味します。これは、キャッシュが存在する場合、ブラウザがキャッシュからファイルを取得することを意味します。(クレジット:このSuperUserの回答

  2. Webサイトのすべてのページに、画像データをキャプチャしてサーバーに送信する小さなスクリプトを追加します。

  3. 画像データをサーバーに保存します。

  4. 出来上がり!

指定されたリンクからスクリプトを取得できます。


スーパーユーザーの回答はリンクされていません。
ナサニエル

@ナサニエル:修正済み
アレクサンダー

28

Wayback Machineで次のクエリを試してください。

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/*

これにより、archive.orgによってアーカイブされたcodinghorror.comからすべての画像が取得されます。これにより3878個の画像が返されますが、その一部は重複しています。完全ではありませんが、それでもなお良いスタートです。

残りの画像については、検索エンジンキャッシュのサムネイルを使用し、http://www.tineye.com/でこれらを使用して逆ルックアップを実行できます。それにサムネイル画像を与えると、プレビューと、Webで見つかった画像に密接に一致するポインタが表示されます。


1
今404を返しますか?
rogerdpack

Wayback Machineから自動的にバックアップを取得するツールを作成しました:github.com/hartator/wayback-machine-downloader
Hartator

26

dd(1)RAWディスクがどこかで利用可能な場合、推奨事項に+1 。(2)画像は単純なファイルでした。次に、法医学的な「データ彫刻」ツールを使用して、(たとえば)JPG / PNG / GIFのように見えるすべての信頼できる範囲を引き出します。この方法でワイプしたiPhoneで写真の95%以上を回復しました。

これには、オープンソースツール「foremost」とその後継の「scalpel」を使用できます。

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/


2
dd画像を取得したら、Photorecも使用できます。

一流のFedoraでyumを経由して提供されています

26

幸いなことに、将来の世代は大丈夫です。

この大きな岩の一部だけでさえ、科学者/言語学者は多くを理解しました。

ロゼッタストーン

数枚の写真が欠落している場合は、数千年後に把握するために誰かに任せてください。

うまくいけば、あなたは少し笑っています。:)


5

21

同様に、archive.orgもいつでも試すことができます。ウェイバックマシンを使用します。これを使用して、Webサイトから画像を復元しました。


3
少なくともCodingHorrorのキャッシュは多くないようです。ただし、blog.stackoverflowの画像は表示されます。

私はかつて、インターネットウェイバックマシンを使用してウェブサイトを再構築しますが...私は以来、数回を試してみましたが、それは本当に非常に多くのサイトをアーカイブしません
djangofan

それはここに2004年に戻ったように見えますweb.archive.org/webの * / codinghorror.com

robots.txtファイルがなかったのは良かったですね。:)
Synetech 2009

14

絶対に最悪の場合、あなたは物を取り戻すことができません。くそー。

縮小されたグーグルのものをつかみ、逆イメージ検索エンジンであるTinEyeに入れてみてください。うまくいけば、人々が作った重複やリホストをつかむはずです。


14

それはロングショットですが、あなたが考慮することができます:

  • 不足している写真の正確なリストを投稿する
  • すべての読者のインターネットキャッシュを使用して、検索プロセスをクラウドソーシングします。

たとえば、Nirsoft Mozilla Cache Viewerを参照してください。

代替テキスト
(ソース:nirsoft.net

単純なコマンドラインを使用して、まだあるかもしれない「blog.stackoverflow.com」画像をすばやく掘り下げることができます。

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

注:Chromeには同じキャッシュエクスプローラーがあります。

代替テキスト
(ソース:nirsoft.net

(15日間分のblog.stackoverflow.comの写真が必要です)

そして、Internet Explorer、またはOpera


次に、公開リストを更新して、読者がキャッシュで発見したことを報告する内容を反映します。


12

過去に、http: //www.archive.org/を使用して、キャッシュされたイメージをプルアップしました。それは一種のヒットまたはミスですが、私にとってはうまくいきました。
また、古いサイトで使用したスト​​ック写真を復元しようとすると、サムネイルしかなく、フルサイズの画像が必要な場合にwww.tineye.comが最適です。

これがあなたのお役に立てば幸いです。幸運を。


数分前にarchive.orgを見て、codinghorror.comの画像を探しましたが、クリックしたいくつかの投稿には何も表示されていませんでした。
ジョージストッカー

Archive.orgは、最初にインデックスを作成してから数か月後にデータをリリースします。
クリスチャン

10

これはおそらく最も簡単または完全な解決策ではありませんが、Evernoteなどのサービスは通常、テキストと画像の両方をアプリケーション内に保存するときに保存します。 ?


10

archive.orgで素晴らしい経験をしました。サイトからすべてのブログ投稿を抽出できなくても、定期的なスナップショットが保持されます。

代替テキスト

このようにして、各ページをチェックアウトし、作成したブログ投稿を確認できます。すべての投稿の名前を使用すると、archive.orgにない場合は、Googleのキャッシュで簡単に見つけることができます。アーカイブは画像を保持しようとしますが、Googleキャッシュは画像を保持します。最近キャッシュを空にしたことはないので、最近のブログ投稿でお手伝いできます:)


しばらく前に働いていた会社のウェブサイトからデータを取得しようとしました。それはテキストにとっては良いことでしたが、画像にとってはそうではありませんでした。しかし、YMMV
ChrisF

Googleウェブキャッシュには画像が保存されていないと思います。
ナサニエル


8

将来への提案:私はブログにWindows Live Writerを使用し、ブログに公開するだけでなく、投稿のローカルコピーをコンピューターに保存します。


さらに、Windows Live Writerを使用するのは常識です。

7

約5年前、すべてのデジタル写真を保存していた外付けハードドライブの初期化はひどく失敗しました。ddJPEG画像のように見えるものを復元するための基本的なツールを使用して、ハードドライブの画像を作成しました。それから私の写真のほとんどを手に入れました。

質問は、イメージを保持している仮想マシンのディスクイメージのコピーを取得できますか?



7

archive.orgと[Tor] [2]のようなリクエストアノニマイザーの組み合わせをお勧めします。アノニマイザーを使用することをお勧めします。これは、各リクエストにランダムなIPと場所が割り当てられ、その方法により、異常に多数のリクエストに対してarchive.org(Googleのように)によって禁止されることを回避できるためです。

幸運を祈ります、そのブログにはたくさんの逸品があります。


Jeffがarchive.orgへの寄付を希望していることを考えると、アノニマイザーを乱用することは絶対に容認できないわけではありません。しかし、私はまだあなたにそのキックを与えたいです。:-|

6

ウェイバックマシンにはいくつかあります。Googleキャッシュと同様のキャッシュにはいくつかあります。

最も効果的な方法の1つは、元のポスターをメールで送信して、助けを求めることです。

実際にインフラストラクチャに関する推奨事項があります。これはすべてクリーンアップされた後です。基本的な問題は、実際にはバックアップではなく、サイトの複製の欠如と監査の欠如です。プライベートメールフィールドの内容で私にメールを送ってくれた場合、後で戻ってきたとき、私はあなたと問題について話し合いたいです。


6

画像がFlickrやCDNなどの外部サービスに保存されている場合(ポッドキャストのいずれかに記載されているように)、そこに画像リソースが残っている可能性があります。

一部の画像は、Google画像で検索して[ 類似の画像を検索 ]をクリックすると見つかります。他のサイトにコピーがある可能性があります。


5

archive.orgは時々画像を隠します。各URLを手動で取得(または短いスクリプトを作成)し、次のようにクエリを実行します。

string.Format( "GET / * / {0}"、nextUri)

もちろん、それを検索するのはかなり面倒です。

ブラウザのキャッシュにあるかもしれません。もしそうするなら、どこかでホストします。


4

ユーザーのキャッシュをスクレイプしようとする304 Not Modified場合は、ブラウザーが使用するすべての条件付きGET(「If-Modified-Since」または「If-None-Match」)リクエストに応答するようにサーバーを設定できます。キャッシュされたマテリアルを再検証します。

画像などの静的コンテンツの初期キャッシュヘッダーがかなりリベラルである場合(数日または数か月キャッシュできるようにする場合)、しばらくの間、再検証リクエストを取得し続けることができます。それらのリクエストにCookieを設定し、キャッシュに対してスクリプトを実行して、まだ持っている画像を抽出するようユーザーに訴えます。

ただし、まだ存在しないインラインリソースを含むテキストコンテンツを作成し始めると、リバリデーターが404に達したときにキャッシュバージョンを消去することに注意してください。



4

明らかなことを指摘する危険があるので、画像用に自分のコンピューターのバックアップマイニングしてみてください。バックアップ戦略が偶然であり、多くのファイルのコピーが外部ドライブ、焼き付けられたディスク、およびzip / tarファイルにぶら下がっていることがわかっています。幸運を!


4

Snow LeopardのSafariキャッシュからこれらのファイルを回復することができました。

bad-code-offset-back.jpg
bad-code-offset-front.jpg
code-whitespace-invisible.png
code-whitespace-visible.png
coding-horror-official-logo-small.png
coding-horror-text.png
codinghorror-search-logo1.png
crucial-ssd-128gb-ct128m225.jpg
google-microformat-results-forum.png
google-microformat-results-review.png
kraken-cthulhu.jpg
mail.png
powered-by-crystaltech-web-hosting.png
ssd-vs-magnetic-graph.png

他の誰かが試してみたい場合は、Pythonスクリプトを作成して〜/ codinghorror / filenameに抽出します

これがお役に立てば幸いです。


3

ホスティングプロバイダーにバックアップがあるかどうかを確認できましたか(古いバージョンもあります)?


よく見えません。彼らのバックアッププログラムは、仮想マシンのハードドライブファイルをバックアップできなかったため、バックアップはありません。
ジェフアトウッド

2

このデータはどれくらい価値がありますか?相当額(数千ドル)の価値がある場合は、Webサイトのデータの保存に使用するハードドライブをホスティングプロバイダーに依頼することを検討してください(ハードウェア障害によるデータ損失の場合)。その後、ドライブをオントラックまたは他のデータ回復サービスに移動して、ドライブから何を取得できるかを確認できます。これは、ドライブ上の他の人の未回復データの可能性もあるため、交渉するのは難しいかもしれませんが、本当に気にするなら、おそらくそれを解決することができます。


私の知る限り、サーバーはVMでした。
スプラトネ

1
@splattneであっても、多くのデータを回復できる可能性はゼロではありません。

非常に専門的なサービスである必要があります。

2

これを聞いて非常に残念で、あなたとそのタイミングに非常に悩まされています-あなたの投稿のいくつかのオフラインコピーが必要で、サイト全体でHTTrackを行いましたが、外出する必要がありました(これは数週間前でした)やめました。

ホストが中途半端な場合-そして、私はあなたが良い顧客だと推測しているという事実によって...私は彼らにあなたにハードドライブを送るよう頼みます(私は彼らがRAIDを使用するべきだと推測しているように)

これは速いプロセスではないかもしれませんが、私はクライアントのために1つのホストでこれを行い、データベース全体を完全に回復することができました(...基本的に、ホストは使用しているコントロールパネルのアップグレードを試みて、それを台無しにしました。しかし、何も上書きされませんでした)。

何が起こっても-SOサイトのすべてのファンから幸運を祈ります!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.