タグ付けされた質問 「scikit-learn」

Scikit-learnは、機械学習、データマイニング、データ分析のためのシンプルで効率的なツールで構成されるPythonモジュールです。NumPy、SciPy、およびmatplotlibに基づいて構築されています。3-Clause BSDライセンスの下で配布されています。

1
scikit-learnを使用したランダムフォレストでの機能重要度を使用した機能選択
scikit-learnを使用して、ランダムフォレストの機能の重要性をプロットしました。ランダムフォレストを使用して予測を改善するには、プロット情報を使用してフィーチャを削除するにはどうすればよいですか?つまり、プロット情報に基づいて、フィーチャが無用であるか、ランダムフォレストのパフォーマンスの低下をさらに悪化させるかを特定する方法を教えてください。プロットは属性に基づいておりfeature_importances_、分類子を使用していsklearn.ensemble.RandomForestClassifierます。 機能選択には他にも手法があることは承知していますが、この質問では機能の使い方に焦点を当てたいと思いますfeature_importances_。 そのような特徴重要度プロットの例:

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
大規模なデータセットの効率的な次元削減
約100万行と約500Kのスパースフィーチャのデータセットがあります。次元を1K〜5Kの密集したフィーチャのオーダーのどこかに減らしたい。 sklearn.decomposition.PCAスパースデータでは機能しませんsklearn.decomposition.TruncatedSVD。使用しようとしましたが、メモリエラーがすぐに発生します。このスケールで効率的に次元を削減するための私のオプションは何ですか?

2
標準スケーラーを使用する場合とノーマライザを使用する場合
私は、標準的なスカラーが何をするのかとノーマはscikitドキュメントごとに、何をするかを理解する:ノーマ、標準スケーラーを。 標準スケーラーがいつ適用されるか知っています。しかし、どのシナリオでノーマライザが適用されますか?一方が他方よりも優先されるシナリオはありますか?

2
scikit-learnはデフォルトで正則化を使用しますか?
いくつかの偽のデータにロジスティック曲線を当てはめたところです。データは基本的にステップ関数にしました。 data = -------------++++++++++++++ しかし、当てはめた曲線を見ると、勾配は非常に小さいです。クロスエントロピーを仮定して、コスト関数を最小化する関数がステップ関数です。なぜステップ関数のように見えないのですか?デフォルトで行われるL1またはL2の正規化はありますか?


3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
グラフ構造化データでScikit-Learnラベル伝播を使用する方法
私の研究の一環として、グラフ上でラベル伝播を実行することに興味があります。私はこれらの2つの方法に特に興味があります。 Xiaojin ZhuとZoubin Ghahramani。ラベル伝播を使用して、ラベル付きデータとラベルなしデータから学習します。テクニカルレポートCMU-CALD-02-107、カーネギーメロン大学、2002年http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou、Olivier Bousquet、Thomas Navin Lal、Jason Weston、Bernhard Schoelkopf。ローカルおよびグローバルな一貫性を備えた学習(2004)http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.115.3219 scikit-learnがそのためのモデルを提供しているのを見ました。しかしながら、このモデルは、ベクター構造化データ(に適用されることになっている、すなわちデータ点)。 モデルは、カーネルを使用してデータポイントからアフィニティマトリックスを作成し、作成されたマトリックスに対してアルゴリズムを実行します。類似度行列の代わりにグラフの隣接行列を直接入力できるようにしたいと思います。 それを達成する方法について何か考えはありますか?または、前述の2つのメソッドのグラフ構造化データでラベル伝播を直接実行できるPythonライブラリを知っていますか? よろしくお願いします!

2
ハッシュベクトライザーとtfidfベクトライザーの違いは何ですか
テキストドキュメントのコーパスを各ドキュメントの単語ベクトルに変換しています。私が使用してこれを試してみたTfidfVectorizerとHashingVectorizerを a HashingVectorizerはIDFaのようにスコアを考慮しないことを理解してTfidfVectorizerいます。こことここでHashingVectorizer説明されているように、私がまだaを使用している理由は、巨大なデータセットを処理する際の柔軟性です。(私の元のデータセットには3000万のドキュメントがあります) 現在、私は45339のドキュメントのサンプルを使用しているので、aを使用することTfidfVectorizerもできます。同じ45339ドキュメントでこれら2つのベクトライザーを使用すると、取得する行列が異なります。 hashing = HashingVectorizer() with LSM('corpus.db')) as corpus: hashing_matrix = hashing.fit_transform(corpus) print(hashing_matrix.shape) ハッシュマトリックスの形状(45339、1048576) tfidf = TfidfVectorizer() with LSM('corpus.db')) as corpus: tfidf_matrix = tfidf.fit_transform(corpus) print(tfidf_matrix.shape) tfidfマトリックス形状(45339、663307) a HashingVectorizerとaの違いTfidfVectorizer、およびこれらの行列のサイズが異なる理由、特に語句/用語の数がよくわかります。

1
CPU使用率とメモリに関するscikit-learn n_jobsパラメータ
scikit-learnのほとんどの推定器には、/を使用して並列ジョブを作成するためのn_jobsパラメーターがあります。これを設定すると、Pythonプロセスが1つだけ作成され、コアが最大になるため、CPU使用率が2500%を上回っていることに気付きました。これは、正の整数> 1に設定するのとはかなり異なります。これにより、使用率が100%を超える複数のPythonプロセスが作成されます。fitpredictjoblib-1 これを設定すると、マルチCPU LinuxサーバーのCPUとコアの使用にどのように影響しますか?(たとえば、n_jobs=88つのCPUが完全にロックされている場合、またはCPUが他のタスク/プロセス用にいくつかのコアをまだ予約しているかどうか) さらに、大規模なデータセットをMemoryError設定n_jobs=-1するときに、たまに表示されます。ただし、メモリ使用量は通常、単一のPythonプロセスで約30〜40%です。の値に応じて、データとメモリはどのように管理/コピーされn_jobsますか?

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
24,000カテゴリのクラスをエンコードする方法は?
私は現在、ゲノミクスのロジスティック回帰モデルに取り組んでいます。共変量として含めたい入力フィールドの1つはgenesです。既知の遺伝子は約24,000あります。計算生物学にはこのレベルの変動性を持つ多くの機能があり、数十万のサンプルが必要です。 もしLabelEncoder()24K遺伝子なら そしてOneHotEncoder()それら... 24,000列は、2.2 GHzクアッドコアi7 CPUに対してケラスのトレーニング時間を無理にするのでしょうか? もしそうなら、私がこれで取ることができるエンコーディングへの異なるアプローチはありますか? どういうわけか、モデルのレイヤーをこの機能専用にする必要がありますか? これは、24Kの入力ノードが必要であることを意味しますか?

3
最適な通話時間を予測する
カリフォルニア州のさまざまな都市にいる顧客のセット、各顧客の呼び出し時間、および呼び出しのステータス(顧客が呼び出しに応答する場合はTrue、応答しない場合はFalse)を含むデータセットがあります。 電話に出る確率が高くなるように、将来の顧客を呼び込む適切な時期を見つけなければなりません。それで、この問題の最良の戦略は何ですか?時間(0、1、2、... 23)がクラスである分類問題と見なす必要がありますか?それとも、時間が連続変数である回帰タスクと見なす必要がありますか?電話に出る確率が高いことを確認するにはどうすればよいですか? 任意の助けいただければ幸いです。同様の問題を紹介していただければ幸いです。 以下はデータのスナップショットです。

3
環境データに基づいて作物収量を予測する機械学習モデルを構築する
私は、10年間(2005〜2014年)の農場の気温、降水量、大豆収量に関するデータを含むデータセットを持っています。このデータに基づいて、2015年の利回りを予測したいと思います。 作物の収穫は作物の生育シーズンの終わりに行われるため、データセットには気温と降水量のDAILY値がありますが、収量は1年に1つしかありません。 回帰または他のいくつかの機械学習ベースのモデルを構築して、2015年の収穫を予測します。これは、前年の収穫と温度および降水量との関係を研究することによって導出された回帰/その他のモデルに基づいています。 scikit-learnを使用した機械学習の実行に精通しています。ただし、この問題をどのように表すかはわかりません。ここで注意が必要なのは、気温と降水量は毎日ですが、収量は1年に1つの値に過ぎないということです。 これにどのように取り組みますか?

2
scikit分類器が分類にかかる時間はどれくらいですか?
100万のラベル付きドキュメントで構成されるコーパスのテキスト分類にscikit線形サポートベクターマシン(SVM)分類器を使用することを計画しています。私がやろうとしていることは、ユーザーがキーワードを入力すると、分類子はまずそれをカテゴリーに分類し、次にそのカテゴリーのカテゴリーのドキュメント内で後続の情報検索クエリが発生することです。少し質問があります: 分類にそれほど時間がかからないことを確認するにはどうすればよいですか?より良い結果を得るために、ユーザーが分類が完了するのを待つ時間を費やす必要はありません。 ウェブサイト/ウェブアプリケーションにPythonのscikitライブラリを使用することはこれに適していますか? アマゾンまたはフリップカートがユーザークエリで分類を実行する方法を知っている人はいますか?それとも完全に異なるロジックを使用していますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.