私は地球物理学の博士課程の学生であり、大量の画像データ(数十GB、数万のファイル)を扱っています。私はプロジェクトの歴史を十分に知ってsvn
おりgit
、大切にし、簡単に連携し、ディスクの破損から保護する能力を備えています。私は見つけることgit
も一貫性のあるバックアップを持つために非常に役立つが、私はそのgitのが効率的に大量のバイナリデータを扱うことができない知っています。
修士課程の研究では、同様のサイズのデータセット(画像も)に取り組み、さまざまなサーバー/デバイスでさまざまなバージョンを追跡するのに多くの問題がありました。ネットワーク上で100GBを差分するのは本当に面白くなく、多くの時間と労力がかかります。
科学の他の人たちも同様の問題を抱えているようですが、良い解決策を見つけることができませんでした。
私は研究所のストレージ設備を使いたいので、「ダム」サーバーを使用できるものが必要です。また、可能な限りネットワーク上で数百GBの転送を避けたいので、ポータブルハードディスクに追加のバックアップを作成したいと思います。したがって、複数のリモートロケーションを処理できるツールが必要です。
最後に、他の研究者が使用できるものが本当に必要なので、それは非常に単純である必要はありませんが、数時間で学習できるはずです。
私は多くの異なるソリューションを評価しましたが、法案に合うものはありません:
- SVNはやや非効率的であり、スマートサーバーが必要です
- hg bigfile / largefileは1つのリモートのみを使用できます
- git bigfile / mediaはリモートを1つしか使用できませんが、あまり効率的でもありません
- 屋根裏部屋にはログや差分機能がないようです
- bupは本当に良さそうですが、動作するには「スマート」サーバーが必要です
私は試してみましたがgit-annex
、これは私がそれを行うために必要なすべてのことを行います(そしてそれ以上)私はこれを数日間使用しましたが、頭を動かすことができなかったので、他の同僚が興味を持っているとは思いません。
研究者は大規模なデータセットをどのように扱い、他の研究グループは何を使用していますか?
明確にするために、私は主に、この特定のデータセットだけでなく、他の研究者がこの状況にどのように対処するかに興味があります。ほとんどの人がこの問題を抱えているはずですが、それを解決した人は誰も知りません。元のデータのバックアップを保持し、このバージョン管理機能をすべて忘れる必要がありますか?それは他のみんながやっていることですか?