タグ付けされた質問 「binary」

9
大量の(バイナリ)データのバージョン管理を処理する方法
私は地球物理学の博士課程の学生であり、大量の画像データ(数十GB、数万のファイル)を扱っています。私はプロジェクトの歴史を十分に知ってsvnおりgit、大切にし、簡単に連携し、ディスクの破損から保護する能力を備えています。私は見つけることgitも一貫性のあるバックアップを持つために非常に役立つが、私はそのgitのが効率的に大量のバイナリデータを扱うことができない知っています。 修士課程の研究では、同様のサイズのデータ​​セット(画像も)に取り組み、さまざまなサーバー/デバイスでさまざまなバージョンを追跡するのに多くの問題がありました。ネットワーク上で100GBを差分するのは本当に面白くなく、多くの時間と労力がかかります。 科学の他の人たちも同様の問題を抱えているようですが、良い解決策を見つけることができませんでした。 私は研究所のストレージ設備を使いたいので、「ダム」サーバーを使用できるものが必要です。また、可能な限りネットワーク上で数百GBの転送を避けたいので、ポータブルハードディスクに追加のバックアップを作成したいと思います。したがって、複数のリモートロケーションを処理できるツールが必要です。 最後に、他の研究者が使用できるものが本当に必要なので、それは非常に単純である必要はありませんが、数時間で学習できるはずです。 私は多くの異なるソリューションを評価しましたが、法案に合うものはありません: SVNはやや非効率的であり、スマートサーバーが必要です hg bigfile / largefileは1つのリモートのみを使用できます git bigfile / mediaはリモートを1つしか使用できませんが、あまり効率的でもありません 屋根裏部屋にはログや差分機能がないようです bupは本当に良さそうですが、動作するには「スマート」サーバーが必要です 私は試してみましたがgit-annex、これは私がそれを行うために必要なすべてのことを行います(そしてそれ以上)私はこれを数日間使用しましたが、頭を動かすことができなかったので、他の同僚が興味を持っているとは思いません。 研究者は大規模なデータセットをどのように扱い、他の研究グループは何を使用していますか? 明確にするために、私は主に、この特定のデータセットだけでなく、他の研究者がこの状況にどのように対処するかに興味があります。ほとんどの人がこの問題を抱えているはずですが、それを解決した人は誰も知りません。元のデータのバックアップを保持し、このバージョン管理機能をすべて忘れる必要がありますか?それは他のみんながやっていることですか?

3
Python機械学習モデルを保存するためのベストプラクティス
機械学習モデルを保存、保存、共有するためのベストプラクティスは何ですか? Pythonでは、通常、pickleまたはjoblibを使用して、モデルのバイナリ表現を保存します。私の場合、モデルのサイズは最大100Moになります。また、設定しない限り、joblibは1つのモデルを複数のファイルに保存できますcompress=1(/programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the-コレ)。 しかし、モデルへのアクセス権を制御し、異なるマシンのモデルを使用できるようにしたい場合、それらを保存する最良の方法は何ですか? いくつかの選択肢があります。 それらをファイルとして保存し、Git LFSを使用してリポジトリに配置します それらをバイナリファイルとしてSQLデータベースに保存します。 たとえば、Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB これは、SQL Serverチームが推奨する方法でもあります。 https://docs.microsoft.com/en-us/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system HDFS

5
バイナリ分類アルゴリズムを選択
バイナリ分類の問題があります: トレーニングセットの約1000サンプル バイナリ、数値、カテゴリを含む10の属性 このタイプの問題に最適なアルゴリズムはどれですか? デフォルトでは、比較的クリーンでノイズのないデータに最適であると考えられているため、SVM(名目上の属性値がバイナリフィーチャに変換された予備)から開始します。

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
いくつかのタイプのモデルがほとんど同じ結果をもたらすのはなぜですか?
約40万件のレコードと9つの変数のデータセットを分析しています。従属変数はバイナリです。私はロジスティック回帰、回帰木、ランダムフォレスト、および勾配ブースト木を取り付けました。別のデータセットで検証すると、それらすべてがほぼ同じ適合度の数値を与えます。 これはなぜですか?変数比に対する私の観察が非常に高いためだと思います。これが正しい場合、どのモデルの変数比に対して、異なるモデルが異なる結果を出し始めますか?


2
精度とNPVではなく、精度と再現率がF1スコアで使用されるのはなぜですか?
バイナリ分類の問題では、F1スコアがパフォーマンスの指標としてよく使用されるようです。私が理解している限り、アイデアは精度と再現率の間の最良のトレードオフを見つけることです。F1スコアの式は、精度と再現率が対称的です。しかし、(そして、それが私を悩ませていることですが)精度と再現率の間には非対称性があります。再現率は事前確率に依存しない分類子のプロパティですが、精度は事前確率に依存する量です。 精度と再現率の組み合わせの何がそんなに特別なのか誰にも教えてもらえますか?精度(ポジティブ予測値)とネガティブ予測値を使用しないのはなぜですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.