回答:
最初に、確立するさまざまなDVCリモートを追加できます(たとえば、それぞれを別のGCバケットを指すdata
andと呼びます)。ただし、プロジェクトのデフォルトとしてリモートを設定しないでください。この方法では、(リモート)オプションがないと機能しません。models
dvc push
-r
その後、各プッシュする必要があるだろうDVC-ファイルをのような、適切なリモートに個別にdvc push -r data data.csv.dvc
、dvc push -r data features.dvc
とdvc push -r models model.pkl.dvc
。
特定のファイル/ディレクトリをデフォルトで特定のDVCリモートにマップする機能をリクエストする場合は、https://github.com/iterative/dvc/issuesで問題を開くことができます。
更新:同様のものが既に存在しています(リモートにプッシュできるファイルの種類を指定するを参照)。
はい、Gitサブモジュールなしで複数のリモートを使用できます。
外部リポジトリからのデータアーティファクトを使用するための別のコマンドがあります。dvc import http://your-repo datadir
このコマンドは、データをリポジトリに持ち込み、元のリポジトリへの接続を維持します(異なるリモートでのデータの重複を避けるため)。
あなたのケースでは、1つのリポジトリを独自のデータリモートを持つデータセットに使用できます。2番目のリポジトリは、データセットプロジェクトをインポートするコードとモデルに使用でき、モデルと出力はすべて別のデータリモートに送信されます。
ではimport
、dvc push -r myremote
必要ありません。デフォルトdvc push
では、適切なリモートでデータを同期します。
編集:data-remote / S3フォルダーを持つデータセットに対して1つのGitリポジトリを使用し、コード、モデル、および別のdata-remote / S3フォルダーを持つ別のリポジトリからインポートします。