10 TBのファイルを米国から英国のデータセンターに転送します


96

あるデータセンターから別のデータセンターに、米国から英国にサーバーを移行しています。私のホストは、毎秒11メガバイトを達成できるはずだと言いました。

オペレーティングシステムは、両端がWindows Server 2008です。

私の平均ファイルサイズは約100 MBで、データは5つの2 TBドライブに分割されています。

これらのファイルを転送するための推奨される方法は何ですか?

  • FTP
  • SMB
  • Rsync / Robocopy
  • その他?

これらはいずれにせよパブリックファイルなので、セキュリティについてあまり気にしませんが、総転送時間を最小限に抑えるためにフルの11 MB / s転送速度をプッシュできるソリューションが必要です。


19
11 MB / sまたは11 Mb / s?
WIM

14
データをバイナリパンチカードに転送し、伝書鳩を使用します:)
enterzero

9
詳細を提供する必要があります。いくつの伝書鳩が必要だと思いますか?作品を見せてください。
エヴィクジェームズ

18
@Evikヨーロッパ人またはアフリカ人?
WIM

8
余談ですが、Wolfram Alphaは、「11 TB / sで10 TB」という計算を行う最も便利な方法です。wolframalpha.com/input/?i=10+TB+at+11MB%2Fs
フグ

回答:


173

代わりに、海を渡ってハードドライブを出荷します。

11 Mbpsで完全に使用されている場合、10 TBを転送するのにわずか90日しかかかりません。


11 Mbpsの= 1.375 MBpsの= 116.015ギガバイト/日

10240 GB / 116.015 GB /日= 88 .3


42
スニーカーネット +1 。また、TCP / IPのオーバーヘッドを忘れていました。理想的な状況では、100日程度です。
クリスS

43
ある賢明な人は、かつて「高速道路を下るテープでいっぱいのステーションワゴンの帯域幅を過小評価しないでください」と言いました。この式は非常に真実であり、ボートのステーションワゴンを変更しても実質的に変更されません。(bpfh.net/sysadmin/never-underestimate-bandwidth.html
ロブモアレ

5
ドライブではなく、テープまたはブルーレイディスクを出荷することをお勧めします。ドライブを使用する場合は、万が一に備えてオリジナルが安全に保管されていることを確認してください。10 TB = 410のシングルレイヤーのブルーレイディスクがあるため、私は自分でドライブに行きます(Ultrium 4ドライブを使用していない場合)。
アレン

9
私が11Mbpsとタイプしたことに気付いたが、実際に私が意味していたのは11MB / sだった。私はこれがかなり大きな違いをもたらすと思う、私の計算はおよそ11-14日までそれを持っています...これは正しいですか?
ポール・ヒネット

18
公式ディスクがまだ動作している間に10TBのバックアップを監督する人を送ることはまだ信じられており、セットアップが完了したら、rsyncを実行して、変更のために新しいサーバーを更新できます。約1日でマシンが稼働します。
ロイックフォール-ラクロア

26

rsyncと言えば、11 MB / sで10〜14日を見ることができ、中断されても、rsyncは前回停止したところから簡単に開始します。

11 Mbpsで、上記のようにハードディスクを出荷します:)


1
あなたの見積もりは、他の人が投稿したものとは非常に大きく異なります(そして誰が正しいのかわかりません)。それらの数値に到達するための方法論を提供できますか?
ジョンガーデニアス

9
違いは、OPが11 Mbpsを間違えたためです。実際、彼は11 MBpsを意味していました。これは8倍高速です。ところで、中断の場合に10 TBのrsyncを再起動するには、おそらくしばらく時間がかかりますよね?時間以上ですか?
フランクファーマー

@FrankFarmer:rsyncの再起動を心配しません。30Mbpsの無線回線で約20TBのオフサイトコピーを保持していますが、再起動は数秒の範囲内です。最初のコピーには数週間かかりましたが、夜間の更新は通常数時間です。
ハビエル

@FrankFarmer-rsyncは非常にうまくスケールしているようです。田舎のADSL1回線で2 TBを持っていますが、これはスニーカーネットで初期化されましたが、何も変更がない場合は毎晩rsyncに5分かかります。
フレキソ

6
rsyncの再起動時間statは、合計データではなく、ファイルの数(主に時間から)に比例します。大きな待ち時間はないはずです(せいぜい数分)。しかし、rsyncの私の経験は5TBを少し下回ります。
デロバート

15

もちろん、Rsync。

少なくとも休憩の後はいつでも続行でき、痛みはありません。


7
100%の使用率でコピーするのに3か月以上。申し訳ありませんが、それはその量のデータを転送するひどい方法です。
クリスS

@ChrisSに同意する必要rsyncがあります。大きなファイルをコピーするだけでは効率的ではありません。私のもののために、私はtarオーバーnetcatまたはssh最初の転送に使用することになりました。それははるかに高速で、すぐに転送を開始しrsyncますが、すべてのファイルを最初にスキャンしますが、これには時間がかかります。これが中断された場合でも、rsync後で使用できます。実際、tarとにかくすべての許可、ソケットファイルなどが正しいことを確認するために、とにかくこれを行うことがあります。
マーティンシャーラー

1
OPが11Mbではなく〜100Mbの接続を持っていることを修正した後、rsyncはさらに意味があります。言及する最初の+1。
クリスS

12

テープでいっぱいのステーションワゴンの帯域幅を過小評価しないでください

-トラッド。

あなたの場合、ディスクまたはテープは宅配便で送られますが、原則は引き続き適用されます。遅延を気にしない場合、これは、ネットワーク帯域幅よりもはるかに安価で、妥当な時間内に10TBのデータを転送できます。


ジェフアトウッドは...彼の昔のコーディングホラーポストの一つに番号を走ったcodinghorror.com/blog/2007/02/the-economics-of-bandwidth.html
tardate

10

rsyncを使用する必要があります。送信前にデータを圧縮し重複を排除します。また、部分的な転送を再開することもできます。これは、大規模な転送には非常に重要です。

10 TBを転送しない可能性があります。ログやテキストなどの場合は、1 TB未満になる可能性があります。おそらく1 TB未満です。

rsyncよりも優れた圧縮を行うツールがあり、より多くの一致を見つける可能性があります。lrzipなどを使用できます

圧縮率が低く、文字通りの重複を含まない特定の種類のデータがあります。たとえば、ビデオやその他のメディアです。これらの場合、FTPとrsyncはほぼ同じ努力をしています。


3
RSyncはデータを重複排除しますか?ファイルレベルでのみこれを行うと思います。つまり、この場合、重複排除はほとんど役に立ちません。
devicenull

6

これはすでに受け入れられていることは知っていますが、より多くの帯域幅を取得できるデータセンター/プロバイダー/ホストにディスクを持ち込むことを検討しましたか?おそらくいくらか費用がかかりますが、10240Gbをバックアップディスクにコピーして送信するには、時間とお金(2 xお金)の両方がかかります。

また、輸送中にディスクが破損しないことを確認します。


この回答は、受け入れられた回答とどう違うのですか?
クリスS

2
@Chrisこの回答は、ディスクを同じ大陸のより大きなパイプに輸送することを提案しています。
アレックスジャスミン

5

11Mbps?これはここにあるかなりの制限です。あなたの状況では、私は単に:

  • データを複製する
  • 圧縮する
  • 少なくとも10倍以上の帯域幅で両端にサーバーをレンタルします(同じデータセンター内、またはあなたの近くのデータセンター内の端)。
  • ファイルを転送する
  • データを新しいサーバーに適用します。

帯域幅を増やす解決策が本当にない場合...物理ドライブの出荷はずっと速くなります。

私の苦痛な経験から、ハードドライブはメールを壊す傾向があります... USBフラッシュドライブは、頻繁なデータ転送のためのより良いソリューションです。あなたの場合、それらのいくつかが必要になります:)したがって、複数のハードドライブにデータのコピーを2つ送信してください。

持っているデータの量を考慮すると、同じハードウェア/ソフトウェアを反対側に接続してドライブを接続する場合、RAID 5またはRAID 6アレイからドライブを送信することもできます。ただし、その場合は、ドライブの順序そしてそれらのシリアル番号は、再構成するときに混乱しないようにします。


1
申し訳ありませんが、11Mbpsは誤ったタイプで、11MB / sです...上記のコメントの1つで言及しました。
ポール・ヒネット

4

この場合、「ハードドライブを使用して出荷する」という答えに同意する必要がありますが、ここでは、大量のファイルを初めてコピーする必要があるときに使用するコピーソリューションを示します。

一方でrsync同期して二つのデータストレージを保つために良いですが、それは最初の転送のために不必要なオーバーヘッドのかなりを紹介します。私は最速の方法tarがパイプされることであると考えましたnetcat。受信サイトであなたも使用することができますnetcat聞く抽出したパイプ着信データモードtar。利点は、tarすぐにnetcat送信を開始し、余分な高レベルのプロトコルオーバーヘッドなしでプレーンTCPストリームとして送信することです。これは、できるだけ速くする必要があります。ただし、中断した転送を最後の位置から再開することは簡単ではありません。

また、適切なtarオプションを使用するか、パイプに圧縮ツールを追加することにより、転送用のデータを圧縮することも簡単に可能です。netcat暗号化されていない日付を送信することに注意してください。これがオプションではない場合、ssh代わりに暗号化された接続を使用できます(tar <options> | ssh <target> -c 'tar -x <options>')。

すべてのデータが転送さrsyncれる場合、その間に更新されたすべてのファイルが確実に同期されるように使用できます。また、IIRC tarはそうでなければ失われるソケットを作成しませんが、とにかくデータセンターデータには実際には使用されません。


欠点は、中断に寛容ではないことです
ジョエル

3

IPoACを検討しましたか?

1羽の鳩は、約1時間で数十ギガバイトのデータを運ぶことができます。これは、失われたドライブを考慮した場合でも、平均帯域幅ベースで現在のADSL標準と非常に有利です。


21
ハトは、OPで記述された距離で信号損失を被ります。
ロイティンカー

@RoyTinker Cleared IPoACは、ウィンドウ処理プロセスを使用して実装する必要があります。
ジェームズバーネット

3

繰り返しますが、最初の提案はドライブを出荷することです。

2番目の提案は、SSHではなくrsyncをrsyncdに使用することです。私は多くのことを試しましたが、通常は最速です。圧縮を有効にしてください。また、rsyncバッファーサイズの増減を見て、最適な転送速度を取得してください。また、MTUサイズ増やすのに役立つ場合があります。これは、途中のルーターがパケットを断片化しない場合にのみ役立ちます。それらを行うかどうかを判断する方法があります。

残念ながら、常に最良の設定はありません。状況に応じて最適なものを見つけるために実験する必要があります。


2

サーバーはWindows 2008を実行していると述べましたが、Microsoft DFSは適していますか?下端には、接続から可能な限り多くの帯域幅を取得しようとする魔法があり、圧縮と重複排除(IIRC)も備えています。

ハードドライブ、DVD、またはBluRaysの方が高速になります...私の計算は11 MB / sで11日間です...


1

これにはトレントを使用できます。

一方でプライベートトレントを作成し、他方でクライアントを使用します。

暗号化が設定されていますが、要件を確認する必要があります。


1
1対1のトレント関係は、1対1のファイル転送よりも優れています。2つのサイト間に限定されたパイプがある場合、理想的には地理的に分散された異なるパイプに複数のシーダーが必要です。
ジェレミー

@Jeremy-スループットの点では良くも悪くもありません。信頼性(より簡単な一時停止/再開)の点で優れている可能性があり、このサイズのxferが重要になる可能性があります
ジョエル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.