データサイエンスパイプラインとモノリティックモデルblob

通常、DevOpsの重要なトピックの1つは、ソフトウェアアーティファクトの自動作成と配信をどのように処理するかです。

データサイエンスの台頭により、新しいタイプのアーティファクトが存在します。たとえば、訓練されたニューラルネットや他の機械学習モデルを表すモノリティックバイナリブロブです。このようなblobはサイズが数GBになる可能性があり、その作成は組織をCI以前の時代に戻す標準化されたAFAIKにはまだなっていません。それにもかかわらず、彼らは自分のバージョンと関連するトレーニングデータのコレクション（コーパス）を持っています。これらは急速に成長する傾向があります。

DevOpsメソッドを使用してこの新しい課題に対処するためのベストプラクティスは何ですか？

— ピーター・ムリシキン
ソース

Javaコンテキストで大きなblobとuberjarの違いがわかりません。同じ慣習が適用され、アーティファクトのサイズが関係する理由はほとんどありません。

— テンシバイ2017

こんにちは-2 GB以上のUber jarを使用すると、マイクロサービスアーキテクチャのストーリーを伝えることができるかと思いましたが、モデルのブロブがそこから始まるので、8 GBはすぐには珍しくありません。

— Peter Muryshkin 2017

つまり、350GoのdBスナップショットは5Mo jarと同じ資産ではありません。とにかくどこかに保存する必要があり、アーティファクトリポジトリでそれを処理できます

— Tensibai

私が同意する-結果として得られるプログラムが大きいからといって、それが他のすべてのようにコンパイル、バージョン管理、および保存されていないことを意味するわけではない（おそらくいくつかのストレージの課題はあるが）。そのため、「組織を「CIの前の時代」組織がそれを考えている場合、彼らがDevOps / CIを実際に理解しているかどうかはわかりません。

— James Shewey 2017

回答:

個人的には、アーティファクトリポジトリ（アーティファクトを管理するための推奨されるDevOpsツール）が、トレーニング済みのニューラルネットやその他のアーティファクトに適用できない理由はありません。

アーティファクトのサイズには、特定のアーティファクトリポジトリの上限がある場合がありますが、そのような場合、それは技術的またはポリシー上の制限であり、基本的/主要な制限ではありません。

これらのアーティファクトを生成するプロセスにDevOps手法を適用することに関しては、アーティファクトが次の条件を満たしている限り、それらのすべてを同等にうまく適用できるとは限りません。

変更のバージョン管理をサポートするある種の仕様から作成されます（ソフトウェアのソースコードに相当）
反復可能で自動化可能なプロセスを介して構築されています
ある種の反復可能で自動化可能な検証（QAと同様）を使用して検証され、最終的にいくつかのサポートデータ（この場合はトレーニングデータ、DBスナップショットに相当）を使用して検証されます

補足：モノリシックソフトウェアコードの配信は依然として重要であり、すべてをマイクロサービスに分割できるわけではないため、DevOpsの方法論（少し注意して）で完全に保守可能です。DevOpsを適用できないようにするために、サイズは十分に重要ではありません。

— ダンコルニレスク
ソース

完璧な答え。私はすべての重いモデルを保管し、git lfs必要に応じてプルします[サーバーレスパラダイム] :)

— Dawny33

@ Dawny33ですが、git lfsから離れることを検討しますか？

— Peter Muryshkin 2017

@ J.Doeこれまでのところlfsで良い。私が本当に良いより良い代替案を見つけたら、おそらく動くでしょう。

— Dawny33

それで、アーティファクトリポジトリの使用を提案しているのに、なぜ「完全」であると答えるのかわかりません。@ Dawny33

— Peter Muryshkin 2017

DVCは、より優れた代替手段と見なすことができますgit-lfs

— Shcheklein

データサイエンスプロジェクト用のオープンソースバージョン管理システムであるDVCを検討することをお勧めします。

それが完全に処理する基本的なものの1つは、データファイル（コードと共に）の管理です-入力、出力（モデル）、中間結果。意味的には似てgit-lfsいgit-lfsますが、100GBのようなファイルを管理でき、さらに重要なのは独自のストレージ/フォーマットに依存しないことです。完全にオープンソースであり、S3、GCPクラウドストレージ、SSH、FTPなどのデータファイルを保持するサーバーとして、あらゆるネットワークストレージと互換性があります。

— Shcheklein
ソース