実験の実行と結果の記録


11

私はハンズオンリサーチャーであり、実行可能なソリューションをテストするのが好きなので、多くの実験を実行する傾向があります。たとえば、ドキュメント間の類似性スコアを計算している場合、多くのメジャーを試してみたいと思うかもしれません。実際、いくつかのパラメーターの効果をテストするために、各測定で複数の実行が必要になる場合があります。

これまでのところ、入力に関する多くの情報を含むファイルに結果を書き込むことにより、実行の入力とその結果を追跡してきました。問題は、ファイル名に入力情報を追加しようとしても、特定の結果を取得することが難しい場合があることです。結果へのリンクを含むスプレッドシートを使用してみましたが、大きな違いはありません。

実験の記録のためにどのツール/プロセスを使用しますか?


1
タグのベストプラクティスを追加したかったのですが、評判ポイントが150ないため追加できません。正直なところ、新人がどのようにしてこのようなルールをすべて備えたサイトに効果的に貢献できるのか理解できません。回答がわかっている質問がたくさんありますが、回答がすでにある場合は、回答することも、賛成投票することもできません。
マシンの知恵

これは一般的なプログラミングの質問のほうが多いと思うので、StackOverflowの方がいいかもしれません。あなたがやろうとしていることのスニペットを含めることができ、なぜ遅いのか、提案された最適化を求めることができます。
Sean Owen

実際には、opendata.stackexchange.comの方が適していると思います。
Emre、2014年

1
私は最近、これに役立つ製品の市場をざっと見て、私の発見を共有したいと思います。データサイエンスチームがPythonとRで行われた分析を共有するのに役立つ2つのSAAS製品があります。どちらにもIDEのようなIPythonノートブックがあり、ジョブを実行および共有するための多くの機能を備えています。[Domino Data Lab] [1]と[Sense.io] [2] [1]:dominodatalab.com [2]:sense.io
machine-wisdom

ジョブの実行を追跡するHadoop用の機械学習環境もあります。[h2o.ai] [3]。これは、データチームの作業を合理化するためのツールであることを意図していませんが、いくつかの注意深い命名規則を使用すると、非常に役立ちます。これは[3]に最もよく適合します:h2o.ai
machine-wisdom

回答:



5

私は最近同様の問題に遭遇しました:すべてが何であるかを前もって知らずに、大規模なデータセットからさまざまな機能を抽出する方法。(平均値を繰り返し計算する場合でも、計算コストがかかります。)さらに、さまざまな機能セットに基づいて予測をどのように管理しますか?つまり、新しい機能を追加した場合、どのモデルで新しい機能をトレーニングするかを知るにはどうすればよいですか?それはすぐに巨大な混乱に雪だるま式に動くことができました。

私の現在の解決策は、ローカルのNoSQLデータベース(MongoDB)ですべてを追跡することです。たとえば、コレクションがありfeatures、その各エントリには名前、機能の計算方法の説明、抽出を実行したpythonファイルなどがあります。

同様に、コレクションにmodelsはデータで実行されるモデルが含まれます。各エントリには、名前、モデルのトレーニングに使用された機能のリスト、その最終的なパラメーター、保持されたテストセットの予測値、モデルの実行方法のメトリックなどが含まれる場合があります。

私の見解では、これには多くの利点があります。

  • 予測を保存することで、後でアンサンブル予測で使用できます。
  • 使用された機能を追跡しているので、さらに機能を抽出するときに再トレーニングが必要な機能がわかります。
  • モデルの説明を保存することで、自分が何を試したのかを常に知ることができます。「grid-search CVによって設定された正則化パラメーターを使用してLASSOを試したことがありますか?」私はいつでもそれを調べて、どれほど成功したかを見ることができます。

あなたの質問から、このアプローチを問題のワークフローに適合させることができるように思えます。Mongoまたは選択した別のデータベースをインストールしてから、各実験の実行、その入力、その結果、およびプロジェクトの過程で追跡したいその他すべてのものを保存します。少なくとも、これはスプレッドシートよりもはるかに簡単にクエリできるはずです。


私は賛成票を投じたいのですが、許可されていません。
マシンの知恵
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.