スナップショットとRAIDは、オンサイトの優れたバックアップソリューションとしてカウントされますか?


19

バックアップを取る理由として考えられる2つの主な理由は、スナップショットとRAIDの両方をbtrfsと共に使用する場合に注意が必要と思われます。(ここでRAIDとは、RAID1または10を意味します)

  • データの偶発的な削除:スナップショットはこのケースをカバーします
  • ドライブの故障とビットの腐敗
    • 完全な障害:RAIDはこのケースをカバーします
    • 不良データを返すドライブ:RAID + btrfsのエラー修正機能がこのケースをカバー

オンサイトのバックアップソリューションとしては、これはうまく機能しているようで、別のデータストレージデバイスは必要ありません!

ただし、RAIDとスナップショットの両方が適切なバックアップとは見なされないと聞いているので、何か見落としているのではないかと思っています。

btrfsがまだ成熟した技術ではないことを除けば、私が見落としたことはありますか?または、私の考えは正しいですか、これは有効なオンサイトバックアップソリューションですか?


2
私たちはあなたと同じことをします。シャドウコピーを使用したRAID 5。ただし、毎晩Robocopyを使用してバックアップする2つのオフサイトUSBハードドライブもあります(ドライブは週に2回回転するため、1つは常にオフサイトになります)。これにより、災害復旧用のバックアップも提供されますが、小規模な組織では実際には必要ない長期アーカイブではありません。RAIDアレイが停止すると、スナップショットも失われるため、少なくともサーバー上のデータのオフサイトコピーを保持するようにアップグレードする必要があります。
オースティン ''危険 ''パワーズ14年

RAIDアレイが全体として故障する可能性があるかどうかを知りたい場合は、スレッジハンマーでヒットして、データの回復を試みてください。サイト全体を取り出さずにボックス全体を取り出すことができる、あらゆる種類の悪いものがあります。そうは言っても、オンサイトのバックアップが、オフサイトのバックアップからよりゆっくりと回復するのを助けるかもしれないだけの便利なものであるなら、原則として、それらはあなたが望むほど悪くなる可能性があります。
スティーブジェソップ14年

はい、すでにオフサイトバックアップと、より「従来の」オンサイトソリューションがあります。この質問をした理由は、btrfsとZFSの機能について読み、オンサイトバックアップの代替として適切かどうか疑問に思ったからです。
小太郎14年

回答:


42

いいえ、ちがいます。

ファイルシステムまたはRAIDボリュームが破損するとどうなりますか?または、サーバーが起動しますか?または誰かが誤って間違った配列をフォーマットしますか?

あなたが持っていたと思っていたすべてのデータ非現実的なバックアップを失います。実際のバックアップは、バックアップしているデータとはまったく異なるシステム上にあるのはこのためです。なぜなら、バックアップは、データ損失の原因となる問題のシステムで発生する何かから保護するためです。バックアップしているシステムと同じシステムにバックアップを保存すると、そのシステムでのデータ損失が「バックアップ」にも影響する可能性があります。


頻繁に遭遇するので、このソリューションはどうですか?ローカルスナップショット+別のサーバーへのリモートスナップショット(オンサイトまたはオフサイト)+両方のシステム上のRAIDは、従来のバックアップの代わりになりますか?
ewwhite

5
@ewwhite復元テストが行​​われ、データの完全なコピーがリモートシステムに存在すると仮定します。それは基本的にディスクからディスクへのバックアップです...そして、ディスクからディスクへのバックアップが大好きです。
HopelessN00b 14年

11

以下のためにオンサイトのバックアップ、スナップショットがあります、良い十分なものとすることは、受動的データとして存在するあなたが定期的に「輸出」どこか他のあなたのスナップショット、。

また、「出荷されたスナップショット」を復元できるかどうかを定期的にテストします。

これは、いくつかのサーバーのクイックバックアップを実装する方法です。データをZFSに保存し、ZFSスナップショットを取得し、ファイルシステム全体が再作成される別のサーバーにデルタを送信します(実際のサービスは実行されません)。

もちろん、最適なバックアップは常にオフサイトにあります。したがって、スナップショットを別のシステムに「出荷」した後、スナップショットの「テープアウト」を定期的に実行します。

したがって、私のシステムでは、スナップショットデルタを受信するサーバーは、すべてのZFSプール(以前のスナップショットを含む)をテープに定期的にダンプします。

そしてもちろん、テープアウトをテストして、復元できることを確認します。

注:静止ディスクアクティビティ中にスナップショットを作成し、できれば一貫性を確保するためにデータベース(存在する場合)と調整してください。そうでなければ、治療法は病気よりも悪いかもしれません。そのため、NetAppとEMCの「ライブスナップショット」機能は非常に便利です。LUNを使用するデータベースがスナップショットを実行しても安全であると示されるまで、LUNのスナップショットを延期します。


ZFSスナップショットをテープにダンプする方法について詳しく説明していただけますか?
ewwhite 14年

@ewwhite .zfs/snapshotsディレクトリをいつでもバックアップしたり、スナップショットのいずれかを別の場所にマウントしてテープアウトしたりできます。したがって、異なるスナップショット用の個別のバックアップです。
ペポルアン14年

私は実際にzvolsでこれを行っています...だから、.zfsディレクトリがありませんcd
ewwhite 14年

@ewwhiteああ、なるほど...その場合、あなた使うことができるかもしれませんしzfs send $SNAPSHOT_NAME > $YOUR_TAPE_DEVICE、後でを行いますzfs receive $RESTORE_NAME < $YOUR_TAPE_DEVICE。しかし、私は正直に...けれども、zvolsのバックアップと経験を持っていない
pepoluan

8

HopelessN00bが言ったこと。いや

適切なバックアップは、バックアップされるデバイスとは別のデバイスにあります。2台以上のドライブを失うとどうなりますか?サーバールームが焼失するとどうなりますか?誰かが誤ってアレイを破壊するとどうなりますか?

(Anecdoteアラート:最新のFedoraを自動インストールするようにPXEを設定した人のことを聞いたことがあります。UPSに障害が発生しました。ポイント?気まぐれなことが起こる。幸いなことに、彼は適切なバックアップを持っていた。)

できれば、データのコピーが少なくとも3つあり、1つはデータセンターが焼損した場合に備えて完全にオフサイトに保存してください。


6

適切なバックアップでは、バックアップジョブを作成する最初の段階としてスナップショットを使用するため、適切に実装されたスナップショットをストレージでサポートする必要があります。ただし、プライマリバックアップにスナップショットを使用することはお勧めできません。理由:

1)スナップショットとバックエンドストレージは失敗する可能性があります。したがって、実際のバックアップでは個別のスピンドルセットを使用する必要があります。そうしないと、プライマリワーキングセットとバックアップデータの両方が同時に失われる可能性が高くなります。

2)スナップショットは、使用可能なスペースを「噛み砕く」。現在のホットデータに高価で高速なストレージを使用し、一部の安価で低速のストレージへのアイスコールドデータであるスナップショットとバックアップのオフロードを行うのは理にかなっています。1)BTWで非常にうまく機能します。

3)通常、スナップショットはプロセス全体の速度を低下させます。ほとんどのシステムはコピーオンライトを使用し、このアプローチは断片化を引き起こします。Redirect-on-Writeは高速ですが、多くのスペースを消費します。スナップショットを適切に実装しているベンダーはほとんどありません。NetApp with WAFLおよびNimble Storage with CASL(私はそれらのいずれとも提携していません)。ほぼ全員が問題を抱えています。たとえば、Dell Equallogicは1バイト変更ごとに15 MBのページ更新(および無駄)をトリガーします。それは高価です。


6

はい、そうです。バックアップを保存するのに最適な方法です。他に何も必要ありません、完全性チェックを行うことさえも無駄な時間です。

ただ確認するために-私はより多くのアドバイスを与える前に...あなたは私の競争相手のために働いていますよね?本当にそうですか?いや?ああ。

申し訳ありませんが、NUTS。いいえ、まったくありません。すまん。

問題は、(a)システムおよび(b)オペレーティングシステムレベルで発生するエラーに対して完全にオープンであることです。基本的に、誰かがデータを削除するのを防ぐだけです。いいね これはよく発生するエラーです。

保護していないのは:

  • マシンを一掃する電源スパイク。そこに行って、それを見ました。
  • ディスクにsh **を書き込んでいる欠陥のあるRAIDコントローラーまたはメモリー-何でもあり

そして、他のものの長いリスト。

これは、当然ですが、競合他社で働いていない限り、常にバックアップを作成してください。

  • 別のコンピューターで
  • 少なくとも電力スパイクから隔離すること(USVを使用している場合でも)。

これがテープが揺れる理由です-それらは接続されておらず、火災や洪水の短いものはそれらを傷つけません。電力スパイク-テープリーダーとおそらくロボットに行きますが、リーダーにないテープは影響を受けません。

BESTはオフサイトでのバックアップになります(火事や洪水のようなものについては既に言及しましたか?)そのお金を節約します)。

今、あなたは「ああ、洪水は決して起こらない」と思うかもしれません。必ず確認してください。こちらは、09.09.09のボーダフォンデータセンターの洪水のビデオです。私はあなたが問題がインサイト/コンピュータバックアップのどこにあるかを理解するだろうと確信しています:

http://www.youtube.com/watch?v=ttcQy3bCiiU


ハリケーン・サンディの写真: theverge.com/2012/11/17/3655442/...
キャサリンVillyard

4

レッスンは、互いに30分以内に失敗し、2つのRAID-1ドライブから学習:RAIDはないではない任意の方法、形状又は形態で、バックアップ機構。

RAIDは、ハードウェア障害の場合にダウンタイムを短縮する可用性メカニズムですが、ウイルス、データの削除/変更、または単純な壊滅的なハードウェア障害の場合にはまったく役に立ちません。


1
以下の場合には特定のクラスのハードウェア障害。RAIDカードが故障すると、コンテナはなくなります。
mfinni 14年

3

多くの経験豊富な管理者は、バックアップの3-2-1ルールと呼ばれるものを使用します。

  • プライマリソースを含め、データのコピーを少なくとも3つ保持する必要があります。つまり、単一のバックアップで不十分であり、同じ物理システム内のコピーはカウントされません。

  • 少なくとも2つの異なるバックアップ方法を使用する必要があります。

  • データの少なくとも1つのオフサイトコピーが必要です。

スナップショットは3つの部分すべてに違反します。

  • 単一の物理マシンのみを使用します。PSUの障害など、マシン全体に影響を与えるものはすべて、すべてのデータを取り込む可能性があります。

  • バックアップには単一の方法のみを使用しています。何か問題がある場合は、危機的な状況でバックアップを復元するときにのみ見つけることができます。

  • オフサイトにバックアップはありません。洪水と火災は、あなたに起こるまで他の人にのみ起こります...

したがって:

  • LAN 上の別のマシンに少なくとも1つのバックアップが必要です。

  • スナップショットを使用して生成されないバックアップが少なくとも1つ必要です。おそらく、古き良きインクリメンタルtarアーカイブが適切なのでしょうか?またはrsyncベースのコピー?

  • 現在の場所から可能な限り離れた場所に少なくとも1つのリモートバックアップが必要であり、間違いなく同じ建物内にある必要はありません。

ブロックレベルのスナップショットには、マシンのプラグを抜いてディスクにコピーするのとほぼ同じ一貫性の保証があることも指摘しておく必要があります。一般に、fsck復元後に実行するか、ジャーナルが十分であることを期待する必要があります。

ファイルシステムレベルのスナップショットは優れているはずですが、ファイルの一貫性は保証されません。多くのアプリケーション(データベースサーバーが思い浮かぶ)では、ライブインスタンスのファイルのコピーは、一貫性のない状態になる可能性があるため、まったく役に立たないことがあります。独自のアプリケーションレベルのバックアップメカニズムを使用して、クリーンコピーの存在を確認する必要があります。これには、3-2-1ルールも適用されます。

最後に、現時点では現在のデータのコピーについてのみ話していることに注意してください。しばらく検出されないままになった障害(または、セキュリティ違反)から保護するには、かなり前にデータの過去のコピーをいくつか保持する必要もあります。


btrfsスナップショットが一貫性の保証という点でZFSスナップショットのようなものであると仮定すると(そして、btrfsがZFSからどれだけインスピレーションを得ているのか、なぜそうならないのかはわかりません)、スナップショットはディスク上の瞬間を表します-時間データ。そのため、スナップショットにロールバックするとファイルシステムは一貫した状態になりますが、データがRAMに保持され、定期的にフラッシュされるだけで、そのデータがディスク(データベースサーバーソフトウェアを参照)の意味を理解するために必要な場合、それらの特定のファイルは、ロールバック後(または前)に一貫性のない状態になる可能性が非常に高くなります。
CVn

2

それ自体では、バックアップソリューションではありません。特定の障害シナリオでダウンタイムを削減または削除しますが、他の多くのユーザーからはまったく保護さません。

もちろん、より丸みを帯びた可用性+バックアップソリューションの非常に貴重な部分になる可能性があります。

  • 同じハードウェア上のRAIDとスナップショー
  • 他のハードウェア上のオンサイトコピー(覚えておいてください:ボックス全体、コントローラー、ドライブ、およびすべてを一度に取り出す障害モードがあります)
  • 半切断されたリモートコピー
  • そしてもちろん、真の災害に対する適切なオフライン+オフサイトのコピー

また、バックアップを定期的にテストしてください。バックアップが機能していないことを発見する最悪の時期は、バックアップから何かを取得する必要があるときです...

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.