20 TBを超えるデータをバックアップする方法


86

私が勤務している会社には、写真セッションの保存に使用されているNASサーバーがあります。各セッションは約100GBです。このサーバーは過去数年にわたって10 TBを超えるデータを蓄積しており、写真撮影の量を指数関数的に増やしています。来年末までに、このNASに20 TB以上のストレージが保存されると予測しています。現在、Symantec BackupExecでLTO-5テープを使用して、このサーバーをテープにバックアップしています。このサーバーのサイズが大きくなったため、このサーバーの完全バックアップは一晩で完了しません。この量のデータをバックアップする方法について誰か提案はありますか?テープにバックアップする必要がありますか?より良いかもしれない他のオプションはありますか?


36
毎晩フルバックアップを実行するのはなぜですか?週に一度フルバックアップを実行し、週の残りの6日間に増分バックアップを実行してみませんか?
joeqwerty

9
それは私たちがやっていることです、申し訳ありませんが、私はそれを言及しませんでした...毎週のフルは完了していないものです。
イエスフィダルゴ

6
毎週のフルは一晩で完了する必要がありますか?十分に大きいデータセットの場合、週刊誌が24時間以上かかることは珍しくありません。
ステファンLasiewski

2
どのタイプのNASを使用していますか?
ewwhite

6
写真撮影の増加は指数関数的ですか?
ヘリット・

回答:


114

一歩下がって、「NASに20TBあるのでバックアップする必要がある」と考えるのをやめる必要があります。データの性質を考慮したストレージ戦略を開発します。

  • それはどこから来て、どのくらいの新しいデータを取得していますか?(質問にこれがあります)
  • データを取得したらどのように使用されますか?人々は写真を編集していますか?オリジナルを保持し、編集されたバージョンを生成しますか?
  • すべてのデータを保持するのにどれくらいの時間が必要ですか?人々はまだ2年前から写真に変更を加えていますか?

最後の2つの質問への回答に応じて、おそらく根本的に異なるバックアップシステムよりも多くのアーカイブシステムが必要になります。

静的なデータ(「念のため」に保持する2年前の写真など)は、毎晩バックアップする必要はありません。また、毎週、アーカイブする必要もありません。あなたが実際に行うことはより複雑かもしれませんが、概念的には、すべての古い写真をテープに書き込むことができ(複数のコピー!)、それ以上バックアップされません。

あなたのコメントに基づいて、いくつかの追加の考え:

  • 各撮影のオリジナルをそのままにしてコピーを作成し、オリジナルの写真の少なくとも一部が不鮮明であると仮定すると、バックアップする必要があるデータの量を半分に削減できる場合があります。

  • それでも時間内に完全バックアップを完了できない場合は、一般的な高速化方法として、まずディスクからディスクへのバックアップを行い、次にバックアップセットをテープにコピーします。


1
元の撮影はそのまま保存され、その後、写真撮影の別のコピーが編集に使用されます。データは約2年保持する必要がある場合があります。
イエスフィダルゴ

20
+1そうですね。一般に、バックアップとアーカイブの違いがあまり理解されていないことに驚いています。私は自分のシステムとメールや文書などの一時的なデータの完全および増分バックアップを行いますが、写真をアーカイブします(1.2TBおよび成長中:-)。ディスクからディスクへの提案に対しても+1を提供できればと思います。
元Umbris

8
+1 NASのデータの80%が2回以上使用されることはないと思います。
ステファンLasiewski

+1ここでの最良のオプションは、毎日および毎時間のディスク間デルタ転送を行って変更をキャプチャし、その後、週単位または半週単位でフルバックアップまたは増分バックアップをアーカイブまたはオフサイトプロバイダー/場所に発送することです。以前は、DRシナリオでのデータ損失の量を減らすために、SQLファイルのデルタバックアップを15分ごとに取得していました。
ブレントパブスト

12

次の2つのオプションがあります。

オプション1:

  1. 別のNASを購入する
  2. ユーザーにROがnew_NASにアクセスできるようにします
  3. 2年以上前のすべてのファイルをnew_NASに移動します
  4. いつものようにold_NASをバックアップしてください
  5. 6か月ごとに2年以上前のファイルをnew_NASに移動します

オプション2:

  1. 別のNASを購入する
  2. rsync1時間ごとに実行:old_NAS-> new_NAS

    または、rsync +を使用してファイルの変更でデルタを保持するrdiff-backupなどを使用することをお勧めします(古いバージョンのファイルを復元できます)

    rdiff-backup  user1@old_NAS::/source-dir    user2@new_NAS::/dest-dir
    
  3. 6か月ごとに次のような古いファイルを削除します。

    rdiff-backup --remove-older-than 2Y    old_NAS::/dest-dir
    

2

バックアップを一晩で完了する必要があるのはなぜですか?ファイルサーバーのパフォーマンス?バックアップソフトウェアの帯域幅を制限して、日中の影響を制限できる場合があります。または、NASのインターフェイスを専用にしてテープドライブと通信し、他のトラフィックへの影響を制限します。

週末にフルダンプを実行し、その週に増分のみを実行できますか?週末に誰もいないときにテープを交換することが問題である場合、安価なテープライブラリ/オートチェンジャは、誰かにテープを交換するよりもはるかに安くなります。

バックアップウィンドウ内で完了するのに十分なほど小さい複数のグループにデータをセグメント化できますか?

NASには約50 TBのデータがあり、2つのテープドライブを使用して全体の完全なダンプを取得するのに1週間以上かかります(1つのボリュームには多くの小さなファイルが含まれているため、1週間ほどかかります)。私たちが行うことは、データを2番目のNASに複製することです。セカンダリNASはオンサイトにありますが(プライマリとは異なるデータセンターにあるため)、オフサイトバックアップのためにデータをテープにスプールします。そのセカンダリNASからバックアップを実行するので、バックアップによってだれもが遅くなることはありません。

セカンダリNASを十分に離れた場所に配置できる場合、それはバックアップであり、テープは不要です。


1

私は各撮影セッションのサイズについて疑問に思っています、それは本当に100GB /セッションですか?あなたの会社は毎月何回セッションをしますか?

頻繁に使用されないなど、ほとんどの場合古いセッションを保存しており、おそらく頻繁にその情報を回復する必要はないので、そのタスクを処理するために、ある会社のサービスを使用することをお勧めします。

たとえば、Amazon Glacierのようなオンラインサービスを使用してこれらの20 TBを保存すると、1か月あたり200ドル以上のコストがかかります。これらのアーカイブを頻繁に取得する必要がある場合、または完全にリカバリする必要がある場合は、時間/コストの制約に直面します。「確実に保存する」ためにそれらのものを保存するだけなら、おそらくサードパートを使用すると、人生が楽になります(さらに、別のNASやテープなどを購入するよりも安くなります)


1
セッションごとに100 GBは少し高く聞こえますが、不合理ではありません。通常、32 GB以上のセッションがあり、以前は仕事をしていましたが、機器は中層でした。
トムマーセナル

1

full backups of this server are not completing overnight
次に、増分バックアップを試してみますか?xx日ごとに1つの完全バックアップ、残りは増分。

ハードディスクは安価で、テープよりも高速で、バックアップに使用できます。

また、クラウドバックアップに代わる優れた選択肢があるため、より高速なテープを追加し続ける必要はありません。
例えば:


コメントを見てください。完了していないのは毎週のフルです。さらに、20TBのデータのクラウドバックアップ...をお勧めしません。Amazon Glacierの「安い」オプションの費用は1年あたり約2500ドルで、そのすべてのデータの取得には約36,000ドルかかります。
HopelessN00b

それは実際にはたくさんありません。
Sirex

1
20TBの比較的安全で完全にメンテナンスフリーのストレージに2400ドル/年で十分な場合は、意見の問題だと思います。電力消費、冷却、故障したハードウェア、SLAがなく、ラックスペースを占有しません。また、ほとんどのシステムと同様に、約0回の完全復旧操作が必要です。そして、回復が必要な場合、価格は36000ドルよりも1800ドルに近くなります(その番号の取得元はわかりません)。
テッドハンセン

氷河の場合、$ 36Kはかなり近いです。20TBの取得コストについては、おおよそ42万ドルと計算します。まだまだたくさんありません。帯域幅はより大きな問題です。
Sirex

1

これに対する最善の解決策は、給与データを使用して行うことであると考えています。

  • 最初は、毎日バックアップされる残りのサーバーデータと共に保持されます。これらのバックアップの保存期間は13か月です。

  • データを変更する必要がなくなると(2支払い期間後、IIRC)、データは(スクリプトを介して)通常のバックアップから除外されたアーカイブボリュームに保存されます。

  • アーカイブボリュームは毎年テープにバックアップされ、テープは無期限の保存のためにCintasに送られます。

これにより、不変のデータへの簡単なオンラインアクセスが可能になります(したがって、会計士が何かを見たいときにテープを呼び出す必要はありません)。 、バックアップシステムを壊すことなく。同じ種類のセットアップのように聞こえますが、タイムリーにこのデータにアクセスする必要に応じて、オンラインに保持するデータの量を調整したい場合があります-20TBのエンタープライズグレードのストレージははるかに高価ですオフサイトの格納域に保存する2つまたは3つのLTO5テープセットにアーカイブするよりも。


0

たぶん、あなたはあなた自身のBackblaze Podを構築することができます:135Tb for 7384 $
詳細についてここをクリックしてください:Backblaze Pod構築情報

必要な部品を購入して、自分で組み立てることができます。

たぶん、それらを3つ構築し、2つのオンサイトと1つのオフサイトを維持できます。次に、1つのポッドを「オンラインデータ」として使用し、2番目のオンサイトポッドを最初のポッドのバックアップとして使用し、3番目のオフサイトポッドを緊急オフサイトバックアップとして使用できます。

各ポッドに135Tbのストレージを使用すると、変更の履歴を保存することも考えられます...
135Tb / 20Tb = 19完全バックアップコピー
または、10個の完全バックアップと、とんでもない量の差分バックアップを保持できます。

当然、オフサイトのバックアップが必要な場合は、何らかの大きな帯域幅が必要になります... :-)


5
あなたのデータと仕事があなたにとって重要であるなら、あなたはあなた自身のbackblazeポッドをゼロから構築しようとするべきではありません。すべての卵を本当に大きなかごに入れていることに気付くまで、それは良い考えのようです。さらに悪いことに、そのバスケットは完全に統合された全体としてテストされていません。バックブレイズシークレットソースは、多くのポッドでソフトウェアを複製することで、ポッド全体がシームレスに失敗することを可能にします。代わりに、supermicroストレージサーバー、centos、xfs、およびrdiff-backupをお勧めします。
バガブー

-1

同僚がSynology 8ディスクNASを購入しました。ハイブリッドRAIDを実行します。彼は数週間前に89ドルで8個の3TB Seagate BarracudaをNewEggから購入しました。運用NASからGigaBit経由でこの新しいNASにミラーを再同期できます。差分を転送するだけなので、転送にかかる時間は短くなります。その後、バックアップNASを使用して、完全または増分を実行できます。あなたの費用は、バックアップNASの出先で2000ドル未満になります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.