タグ付けされた質問 「experiments」

2
実験の実行と結果の記録
私はハンズオンリサーチャーであり、実行可能なソリューションをテストするのが好きなので、多くの実験を実行する傾向があります。たとえば、ドキュメント間の類似性スコアを計算している場合、多くのメジャーを試してみたいと思うかもしれません。実際、いくつかのパラメーターの効果をテストするために、各測定で複数の実行が必要になる場合があります。 これまでのところ、入力に関する多くの情報を含むファイルに結果を書き込むことにより、実行の入力とその結果を追跡してきました。問題は、ファイル名に入力情報を追加しようとしても、特定の結果を取得することが難しい場合があることです。結果へのリンクを含むスプレッドシートを使用してみましたが、大きな違いはありません。 実験の記録のためにどのツール/プロセスを使用しますか?

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
データ分析をデバッグする方法は?
私は偵察がかなり典型的であるという次の問題に遭遇しました。 数百万行という大きなデータがあります。たとえば、いくつかのサブクエリで構成されるSQLクエリなど、重要な分析をいくつか実行します。たとえば、プロパティXが時間の経過とともに増加しているという結果が出ました。 これにつながる可能性のある2つの可能性があります。 Xは確かに時間とともに増加しています 分析にバグがあります 2番目ではなく1番目が発生したことをテストするにはどうすればよいですか?中間結果は何百万行にも及ぶ可能性があるため、ステップワイズデバッガーが存在しても、役に立ちません。 私が考え得る唯一のことは、テストしたいプロパティを持つ小さな合成データセットを何らかの方法で生成し、ユニットテストとして分析を実行することでした。これを行うためのツールはありますか?特に、SQLに限定されません。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.