Amazon S3でRSYNCを使用する[終了]


39

Amazon S3を使用して〜100 GBサーバーイメージ(Acronisバックアップツールで作成)をバックアップすることに興味があります

明らかに、このS3への毎晩のアップロードは、帯域幅とコストの点で高価です。S3でrsyncを使用することを検討しており、s3rsyncに遭遇しました。 これや他のユーティリティを使用した経験がある人はいないだろうか?


1
s3rsyncについて気付いたことの1つは、現在10 GBのバケットサイズに制限されていることです(FAQを確認してください)。複数のバケットを使用できますが、データを10GBのチャンクに分割する必要があります。
ダナ

回答:


35

最近Googleでこのスレッドに出くわしましたが、質問が出されてから状況が少し変わったようです。ここで提案されているソリューションのほとんどは、もはやメンテナンスされていないか、商業化されています。

FUSEと他のいくつかのソリューションで作業することに不満を感じた後、Pythonを使用してS3およびGoogle Storage向けに独自のコマンドラインrsync「クローン」を作成することにしました。

GitHubでプロジェクトをチェックアウトできます:http : //github.com/seedifferently/boto_rsync

私が最近気づいた別のプロジェクトは「重複」です。それはもう少し精巧に見え、ここで見つけることができます:http : //duplicity.nongnu.org/

お役に立てれば。

更新

AWSのPythonチームは、クラウドサービスのボトベースのCLIプロジェクトに一生懸命取り組んできました。含まれているツールには、boto-rsyncによって提供される機能のほとんどを複製する(多くの点で置き換えられる)S3のインターフェイスがあります。

https://github.com/aws/aws-cli

特に、syncrsyncとほぼ同じように機能するようにコマンドを構成できます。

http://docs.aws.amazon.com/cli/latest/reference/s3/sync.html


多大な貢献!ありがとう、すぐにコードを試してみます。python / djangoを学ぶための必読事項はありますか?乾杯
iainlbc

S3cmdおよびS3syncと比較して、プログラムにはどのような利点/違いがありますか?
ジェームズマクマホン

@JamesMcMahon s3cmd / s3syncはS3用のよりフル機能のCLI(バケットの管理、リストの内容など)であり、boto-rsyncは厳密にrsyncを模倣する試みです。
セス

s3fsヒューズがあります:github.com/s3fs-fuse/s3fs-fuseは非常にうまく機能し、rsyncと組み合わせることができますが、どの程度効率的かはわかりません。
スタニスラフ

「rsyncとほぼ同じように機能するようにsyncコマンドを構成する方法」を説明できれば素晴らしいでしょう。
trusktr

10

また、無料のS3cmdS3syncでも幸運でした


+1 for S3cmd -.-
fnkr 14年

制限することを心に留めておくのが良いようS3cmdが大きいfilenumbersの問題(> 300Kのファイル)..それワーキングメモリの100kのファイルあたりギガ程度食べるがあります...
Tuxie

7

アクロニスのイメージの作成方法によっては、どのような種類のrsyncによって帯域幅が節約されるかはわかりません。アクロニスのイメージは単一のファイルであるため、rsyncは変更されたもののみをバックアップするためにそれらの内部を読み取ることができません。また、どの種類のサーバーイメージを作成しているのかわかりませんが、100GBと言ったので、フルになりますか?増分イメージは、夜間のイメージサイズを大幅に削減し、帯域幅を節約します。また、テープメディアなど、S3以外の別の場所にイメージを保存し、オフサイトに保存することもできます。


4
いいえ、rsyncはそのようには動作しません。どんなファイルタイプでも動作し、同期するファイルの内部に関する知識は必要ありません。代わりに、ファイルのチャンクのハッシュを比較し、異なるチャンクのみを転送します。 en.wikipedia.org/wiki/Rsync
アランドネリー

2
画像内のファイルを少しでも変更すると、圧縮によりファイル全体が変更されるため、どのチャックも一致しません。圧縮をオフにしても、画像内のファイルは順序を変更でき、同じチャンクを見つけるだけでなくローリングベースで一致するため、rsyncがうまくいくかどうかはわかりません。
ジェームズライアン

4

S3rsyncを試したことはありません。

オフサイトバックアップに重複を使用しています。S3での増分バックアップをサポートしていますが、ファイルの変更により新しいファイル全体を再度アップロードしなければならないAmazon S3ストレージプロトコルにより、実際に帯域幅を節約することはできません。とにかく重複は最後の増分バックアップからの差分のみをアップロードします。

Duplicityを使用すると、S3syncのように別のサーバーを経由する必要はありませんが、データを暗号化する場合は、S3syncを試してみる価値があります。


1

S3には、AWS Import / Exportと呼ばれるアドオンサービスもあります。これにより、最初の100Gbデータセットを含むUSBドライブを送信でき、データセンターでいくつかのバックエンドツールを使用してS3クラウドにロードします。100Gbが稼働すると、毎晩差分バックアップを行うだけで、変更されたすべてをバックアップできます。

このサイトはhttp://aws.amazon.com/importexport/です

データの大部分がかなり静的な場合、これは良いオプションです。100Gbのデータ全体が毎日変化している場合、これはあまり役に立ちません。


3
どのようにして128GBフラッシュドライブを「ロード」すると仮定しますか?世界最大のUSBハブ、床から天井までのUSBコネクタのパッチパネル、顧客が提供するフラッシュドライブでいっぱいの3/4、すべてが単一のブレードサーバーの背面にあることを想像します。
ポール

なんてイメージ!! 現実には、おそらく世界最大のUSBハブがPCに接続されているデータセンターの暗い隅にいる貧しい人がいるでしょう。)
monkeymagic

0

minioクライアント、別名「mc」を試すことができます。mcは、Amazon S3互換のクラウドストレージとファイルシステムで動作する最小限のツールを提供します。

mcは以下のコマンドを実装します

  ls        List files and folders.
  mb        Make a bucket or folder.
  cat       Display contents of a file.
  pipe      Write contents of stdin to one or more targets. When no target is specified, it writes to stdout.
  share     Generate URL for sharing.
  cp        Copy one or more objects to a target.
  mirror    Mirror folders recursively from a single source to many destinations.
  diff      Compute differences between two folders.
  rm        Remove file or bucket [WARNING: Use with care].
  access    Manage bucket access permissions.
  session   Manage saved sessions of cp and mirror operations.
  config    Manage configuration file.
  update    Check for a new software update.
  version   Print version.

ミラーコマンドを使用して操作を行うことができます。「localdir」はローカルディレクトリおよびS3 [Amazon S3のエイリアス]であり、「remoteDir」はS3上のバケットの名前です。

$ mc mirror localdir/ S3/remoteDir

同じためにcronjobを書くこともできます。また、ネットワークの怒りの場合には、とにかく「$ mcセッション」を使用して、その特定の時間からアップロードを再開できます。

PS:私はminioプロジェクトに貢献しており、あなたのフィードバックと貢献を得たいです。それが役に立てば幸い。


-1

新しいJungle Disk Server Edition(ベータ版)は役に立つかもしれません。ブロックレベルの重複排除機能があるため、Acronisイメージに共通のものがある場合は、バックアップに必要な量が大幅に削減されます。この機能はサーバーのバックアップに最適です。リリースノートをご覧ください。

私はベータ版を2週間テストしてきましたが、最終版で修正されると確信しているGUIの小さな問題は別として、製品に興奮しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.