ストレージサーバーをどのようにバックアップしますか?


14

私は、いくつかの他のサーバー(すべてLinuxベース)のライブNASとして使用される非常に大きなストレージサーバーの実装を検討しています。

非常に大きいということは、4TBから20TBの使用可能スペースを意味します(実際に20TBにすることはまずありませんが)。

ストレージサーバーは、データのセキュリティとパフォーマンスのためにRAID 10になりますが、オフサイトバックアップを含むバックアップソリューションが必要です。

私の質問は次のとおりです。どのくらいの量のデータをバックアップしますか?

ポータブルハードドライブを接続してファイルを転送するだけではいけません。現在、これほどのストレージ容量を持つ他のデバイスはありません。

2番目のオフサイトストレージサーバーに予算を入れる必要がありますか、それともより良いソリューションがありますか?


5
バッキングがオフラインであることについて、いつものコメントを残しておきます。バックアップシステムが常に「ライブでオンライン」であることに本当に緊張しています。攻撃者が実稼働システムとバックアップを取得できる場合、実稼働システムのトラッシュを終了した直後にバックアップをトラッシュできます。
エヴァンアンダーソン

@Evan両方が欲しいのですが、テープからの復元には何時間もかかりますが、ローカルディスクまたは直接接続されたディスクからの復元は数分でできます。
トムオコナー

@Tim O'Connor:D2D2Tは手に入れることができれば最高です。ディスクまたはテープから個々のアイテムを復元するのは非常に高速です。ディスクベースのバックアップは、リストアが高速であるという評判がありますが、ほとんどの人は、「B2Dメディアから直接データにアクセスする」ことを「リストアする」のではなく、考えています。ディスクベースのバックアップシステムから数TBのデータを、たとえば火災で燃え尽きて交換用のSANに復元する必要がある場合、そのデータをコピーするのに「数分」はかかりません。データ転送速度に関して、ディスクとハイエンドテープは非常に似ています。
エヴァンアンダーソン

回答:


13

サイズの大きいデータを処理する方法は多数あります。それの多くは、あなたの環境とどれだけのお金を使うかによって異なります。一般に、いくつかの全体的な「サーバーからデータを取得する」戦略があります。

  • イーサネット経由ボックスに記載されているように、データは処理のためにSome Where Elseにストリーミングされます。20TBは、1GbEを超えるコピーに時間がかかりますが、それは可能です。ハードウェアが役立ちます(10GbEリンク、場合によってはNICボンディングなど)。
  • ストレージサブシステム経由ファイバーチャネルを使用している場合は、FCネットワーク上の別のデバイスに送信します。SASがある場合は、SAS接続デバイスに送信します。一般的にイーサネットよりも高速です。
  • 別のディスクアレイに送信する同じサーバーに接続されている別のストレージの塊に送信します。

それが100Kmビューです。ズームインを開始すると、さらに断片化されます。既に述べたように、LTO5は、この種の高密度負荷用に設計された特定のテープテクノロジーです。特にGlusterFSやDRBDなどを使用してそこにデータを取得できる場合は、別の同一のストレージアレイが適切なターゲットです。また、バックアップローテーションが必要な場合、またはアレイに障害が発生した場合に実行を継続する機能のみが、配置する内容に影響します。

100Kmの表示方法に決まったら、ソフトウェアに入ることが次の大きなタスクになります。これに影響を与える要因は、最初にストレージサーバーにインストールできるものです(NetAppである場合、ストレージを備えたLinuxサーバーは、ストレージを備えたWindowsサーバーとまったく同じです)。 、どのハードウェアを選択するか(たとえば、すべてのFOSSバックアップパッケージがテープライブラリを適切に処理できるわけではありません)、必要なバックアップ保持の種類。

どのような災害復旧が必要なのかを本当に理解する必要があります。単純なライブレプリケーションは簡単ですが、先週から復元することはできません。先週から復元する機能が重要な場合は、そのようなことを考慮して設計する必要があります。法律により(米国およびその他の地域では)、一部のデータを7年以上保存する必要があります。

簡単な複製が最も簡単です。これがDRBDの目的です。初期コピーが完了すると、変更が送信されるだけです。2番目のアレイがプライマリDRBDの近くにない場合、複雑な要因はネットワークの局所性です。少なくとも最初と同じくらいのストレージスペースを持つ2番目のストレージサーバーが必要になります。


テープバックアップについて...

LTO5は、圧縮なしで1.5TBのデータを保持できます。これらのモンスターに餌をやるには、ファイバーチャネルまたは6Gb SASの非常に高速なネットワークが必要です。強打で1.5TB以上をバックアップする必要があるため、オートローダーを調べる必要があります(ここに例があります:link、HPの24スロット1ドライブオートローダー)。それらをサポートするソフトウェアを使用すると、バックアップ中にテープの変更を処理します。彼らは素晴らしいです。オフサイトに送信するにはテープを引き出す必要がありますが、バックアップが必要なときにテープを一晩中ロードして自分でテープをロードするよりも、見た目が良いです。

テープが「レガシー、ew」のヒビゲージーを提供する場合、仮想テープライブラリの方が速度が向上する可能性があります(Quantum:linkのようなもの)。これらは、ソフトウェアをバックアップするためのテープライブラリのふりをしながら、実際には堅牢な(希望する)重複排除技術を使用してディスクに保存します。あなたがそのようなことを好めば、より洗練されたものはあなたのために仮想テープを実際のテープにコピーします。それはオフサイトの回転に非常に便利です。


仮想テープでさえいじりたくないが、ディスクへの直接バックアップを行いたい場合は、その20TBを処理するのに十分な大きさのストレージアレイと、必要な大量の変更データが必要になります保持するために。異なるバックアップパッケージは、これを異なる方法で処理します。重複排除技術の中には本当に素晴らしいものもあれば、ハッキーなものもあります。私は個人的にこの分野のFOSSバックアップソフトウェアパッケージの状態を知りません(私はBaculaのことを聞いたことがあります)が、それで十分かもしれません。多くの商用バックアップパッケージには、多くのメリットがあるスループットを向上させるために、バックアップするサーバーにローカルエージェントをインストールします。


長く考え抜かれた答えをありがとう。あなたは熟考の:-Pに私をたくさん与えてくれた
アンドリューEnsley

9

LTO-5ジュークボックス?そのアレイをバックアップするには3〜15本のテープが必要になりますが、これはそれほど大きな数字ではありません。ジュークボックスがテープの交換を行い、適切なバックアップソフトウェア(バキュラなど)がどのファイルがどのテープにあるかを追跡します。

また、その期間中にFSが変更される可能性が非常に高いため、ファイルシステムのバックアップに必要な時間も考慮する必要があります。最良の結果を得るには、スナップショットをサポートするファイルシステムが非常に役立つので、ライブファイルシステムではなく、瞬時のスナップショットを作成し、それに対してフルバックアップまたは増分バックアップを実行できます。


1
私はテープシステムに精通していません。増分バックアップを行う方法はないと思います。また、テープドライブを1つずつ手動で変更するのに数時間かかりませんか?私はそのような時間を月に一度しか持たないので、それは理想的ではありません。また、1か月分のデータを危険にさらしたくないのです。何か不足していますか、それともテープバックアップシステムの不便/リスク/制限が受け入れられているだけですか?
アンドリューエンスリー

4
最新のテープバックアップシステムは高度に自動化されており、ロボットです:)
フィーバス

3
はい、通常、テープバックアップでは増分バックアップが可能です。優れたバックアップ戦略は、フルバックアップ(長時間、低速、大量のテープ)を毎月または半年ごとに行い、その間に毎日増分または差分バックアップを行うことです。
ブレント

テープロボットは手頃な価格で、多くのテープを保持しています。バックアップを行う限り、なぜ増分を行う方法がないのでしょうか?最後に、ほとんどの人は、営業時間外にバックアップを実行します。これらがない場合は、仕様の重要な部分です。
Slartibartfast

ええ、本当に休み時間はありません。システムを利用できなくても許容できる時間(土曜日の午前4時など)がありますが、影響を受けるシステムは何百人ものユーザーによって24時間年中無休で使用されます。
アンドリューエンスリー

5

テープには時間がかかり、シーケンシャルアクセスであるため、ディスクへのバックアップを検討する必要があります。復元には永遠に時間がかかります。

間違いを活用する差分または増分バックアップ-あなただけのために理にかなってどんな頻度で変更をバックアップ。

おそらく理想的なソリューションは、別の場所2番目の同じサイズのサーバーを持ち、増分バックアップが定期的に送信され、メインサーバーが停止した場合にすぐに交換できる可能性があります。ただし、別のオプションとして、場所にあるリムーバブルドライブを使用することもできます。その後、リムーバブルドライブはオフサイトに保管されます。

大量のデータを扱う場合は、バックアップを小さなバックアップジョブに分割することも意味があります。毎日すべてをバックアップできない場合は、バックアップをずらして、セットAが1日バックアップされるようにします。次にBを設定します。

常に復元手順について考えてください。数百ギガのバックアップジョブからファイルを復元する必要があり、バックアップインデックスを再構築して復元するのにかなりのメモリと時間がかかりました。最終的には、1日で完了できず、メインのバックアップサーバーが夜間のジョブを続行できるように、専用の復元サーバーを構築する必要がありました。

-追加-

また、複数のユーザーに対して同じ情報を複数回バックアップしないことで、大量のスペースを節約できる重複排除テクノロジーについても考えてください。多くのバックアップソリューションまたはファイルシステムは、その機能の一部として重複排除を提供しています。


+1 thinking about the restore procedure。アーメン!
スティーブン

たくさんの素晴らしいヒント。ありがとう。私はやるべきことがたくさんあります。
アンドリューエンスリー

2
賛成票を投じたいのですが、テープについて言及されていません。オフサイトストレージと組み合わせた重要な保持期間が必要な場合、テープは、その量のデータのバックアップ体制の重要な部分になる可能性が非常に高くなります。リムーバブルハードディスクドライブと比較して、長期的なオフサイトストレージ用のLTO-5カートリッジのコストは、非常に魅力的です。テープカートリッジもアーカイブストレージ用に設計されていますが、リムーバブルハードディスクドライブは通常そうではありません。
エヴァンアンダーソン

@エヴァン:公平を期すために、彼は最初の文でテープに言及しました。
アンドリューエンスリー

2

最初に、保護するリスクを列挙します。いくつかの一般的なリスク:

  • 災害:サイト全体に非常に不幸なことが起こります。
  • 人為的エラー(これは_all_the_time_に発生するエラーです):
    • 誰かが、製造元が意図していない方法でストレージサーバーの「ホットスワップ」機能を実行することにしました。
    • 誰かがデータを静かに破壊するプロセスを実行します。このプロセスは、問題に気付くまでの数ヶ月間、確実にバックアップされます。
    • 誰かが1時間で期限が切れ、数千ドルの価値がある重要なレポートを削除します。

次に、次のようなさまざまなリスク回避ソリューションのコストを評価します。

  • オフサイトのオンラインバックアップ(リモートミラー):災害からの安全、一部(すべてではない)のヒューマンエラー(まだオンラインです)。
  • オフサイトのオフラインストレージ(テープ):災害から安全で、データを迅速に回復するのが困難です。
  • オンサイトのオンラインバックアップ(ミラー):人的エラー、ハードウェア障害、災害に対して脆弱です。
  • オンサイトのオフラインバックアップ(テープチェンジャーのテープ):ほとんどの人的エラー、ほとんどのハードウェア障害から安全です。

次に、ローテーション戦略を評価します(どれだけさかのぼって回復できるようにしたいのか、どれだけのデータを失う余裕があるのか​​)。

次に、データの価値を選択します。


いい分解。私はすでにこれをほとんどの部分で評価し、オフサイトのオンラインバックアップオプションに着陸しました。バックアップの目的は主に、明らかな人的エラーに加えて災害から保護することです。ラックは湾岸から2マイル以内にあるため、ハリケーンが心配です。頻繁に整合性チェックを行い、人為的エラーから保護するために最善を尽くす必要があります。あなたの答えは、私がこの結論について気分を良くするのに役立ちました。ありがとう。
アンドリューエンスリー

お手伝いできてうれしいです。選択したソリューションに関するコメント:これは言うまでもありませんが、バックアップサイトは別の状態か、ハリケーンの影響を受けやすい場所にある必要があります。長い「テール」(過去の広範囲の日付からのバックアップ)を作成することにより、破損の懸念を軽減できます。オンラインバックアップでは、データを復元するのではなく誤って削除する危険性も考慮する必要があります。最後に、復元プロセスを常にテストします。
Slartibartfast

2

1GBで接続された2つの異なる建物に2つの同様の12 TBシステムがある顧客がいます。1つは運用システムです。優れたrdiff-backupユーティリティを使用して、他のバックアップに増分バックアップ(毎日のスナップショットを使用)します。rdiff-backupは、標準の配布リポジトリで利用可能でなければなりません。


1

オフサイトのオンラインバックアップ(リモートミラー)

sshでrsyncを使用します(変更のみ)-最初のバックアップはローカルで実行する必要がありますが、変更後はバックアップが簡単になります

変更したバージョンを保持する必要がある場合-rdiff-backup

http://www.nongnu.org/rdiff-backup/

Linuxのbtrfsファイルシステムは有望に聞こえますが、まだ重い開発中です


私をrdiffに向けてくれてありがとう。私はすでにrsyncを使用していますが、これはそこからの完璧なステップアップのようです。
アンドリューエンスリー

1

戦略を計画する前に、実際の「コンテンツ」とその頻度を確認してください。多くの場合、正当な理由もなく、同じデータを毎週何度も繰り返しテープに送ります。

一部のベンダーの重複排除テクノロジーでは、スナップショットを使用して個々のファイルの復元からユーザーを保護できますが、保護のために常にオフサイトが必要になります。


このシステムは、フォームを入力して情報を更新する数千人、場合によっては数万人のユーザーによって使用されます。これは非常に動的なデータです。私は質問でそれを言及すべきでした。
アンドリューエンスリー

私の場合は、十分なオーバーヘッドまたはスナップショット機能を備えたシステムを設計するので、災害でない限り、実際のバックアップに移動する必要はありません。
SpacemanSpiff

同意する。前にも言ったように、ドライブはRAID 10になりますので、ハードドライブに障害が発生した場合に対応し、ローカルバックアップ/スナップショットも用意します。オフサイトバックアップは、流星がコロケートに衝突したり、誰かが誤ってストレージサーバーでrm -rf / *を実行したりするような最悪のシナリオ用です。
アンドリューエンスリー

まあ、容量に関するオーバーヘッドについて言及していました。RAID10はもちろん最高の冗長性を備えていますが、パフォーマンスがそれほど必要ではなく、スナップショット領域を増やすために余分なスペースを使用できる場合はRAID6を使用します。余裕のあるスナップショットがあればあるほど、ファイルの復元に必要な「バックアップ」は少なくなります。
SpacemanSpiff
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.