データサイエンス version-control

Pythonを使用した再現可能なデータサイエンスのためのツールとプロトコル

Pythonを使用したデータサイエンスプロジェクトに取り組んでいます。プロジェクトにはいくつかの段階があります。各ステージは、データセットの取得、Pythonスクリプト、補助データ、構成およびパラメーターの使用、および別のデータセットの作成で構成されます。コードをgitに保存し、その部分をカバーします。私は聞いてみたい：データバージョン管理のためのツール。ステージと実験を再現できるツール。そのようなプロジェクトのプロトコルおよび推奨ディレクトリ構造。自動化されたビルド/実行ツール。

50 python tools version-control

大量の（バイナリ）データのバージョン管理を処理する方法

私は地球物理学の博士課程の学生であり、大量の画像データ（数十GB、数万のファイル）を扱っています。私はプロジェクトの歴史を十分に知ってsvnおりgit、大切にし、簡単に連携し、ディスクの破損から保護する能力を備えています。私は見つけることgitも一貫性のあるバックアップを持つために非常に役立つが、私はそのgitのが効率的に大量のバイナリデータを扱うことができない知っています。修士課程の研究では、同様のサイズのデータセット（画像も）に取り組み、さまざまなサーバー/デバイスでさまざまなバージョンを追跡するのに多くの問題がありました。ネットワーク上で100GBを差分するのは本当に面白くなく、多くの時間と労力がかかります。科学の他の人たちも同様の問題を抱えているようですが、良い解決策を見つけることができませんでした。私は研究所のストレージ設備を使いたいので、「ダム」サーバーを使用できるものが必要です。また、可能な限りネットワーク上で数百GBの転送を避けたいので、ポータブルハードディスクに追加のバックアップを作成したいと思います。したがって、複数のリモートロケーションを処理できるツールが必要です。最後に、他の研究者が使用できるものが本当に必要なので、それは非常に単純である必要はありませんが、数時間で学習できるはずです。私は多くの異なるソリューションを評価しましたが、法案に合うものはありません： SVNはやや非効率的であり、スマートサーバーが必要です hg bigfile / largefileは1つのリモートのみを使用できます git bigfile / mediaはリモートを1つしか使用できませんが、あまり効率的でもありません屋根裏部屋にはログや差分機能がないようです bupは本当に良さそうですが、動作するには「スマート」サーバーが必要です私は試してみましたがgit-annex、これは私がそれを行うために必要なすべてのことを行います（そしてそれ以上）私はこれを数日間使用しましたが、頭を動かすことができなかったので、他の同僚が興味を持っているとは思いません。研究者は大規模なデータセットをどのように扱い、他の研究グループは何を使用していますか？明確にするために、私は主に、この特定のデータセットだけでなく、他の研究者がこの状況にどのように対処するかに興味があります。ほとんどの人がこの問題を抱えているはずですが、それを解決した人は誰も知りません。元のデータのバックアップを保持し、このバージョン管理機能をすべて忘れる必要がありますか？それは他のみんながやっていることですか？

46 bigdata databases binary version-control

タグ付けされた質問 「version-control」

タグ付けされた質問「version-control」