タグ付けされた質問 「random-forest」

ランダムフォレストは、各ツリーの変数のランダムサブセットを選択し、最も頻度の高いツリー出力を全体的な分類として使用することに基づく機械学習分類器です。

1
単一の決定木を追加することによるオンラインランダムフォレスト
ランダムフォレスト(RF)は、ディシジョンツリー(DT)のアンサンブルによって作成されます。バギングを使用することにより、各DTは異なるデータサブセットでトレーニングされます。したがって、新しいデータにさらに決定的な要素を追加して、オンラインランダムフォレストを実装する方法はありますか? たとえば、10,000個のサンプルがあり、10個のDTをトレーニングします。その後、1Kサンプルを取得し、完全なRFを再度トレーニングする代わりに、新しいDTを追加します。予測は、10 + 1 DTのベイジアン平均によって行われます。 さらに、以前のデータをすべて保持する場合、新しいDTは主に新しいデータでトレーニングできます。この場合、サンプルが選択される確率は、既に選択された回数に応じて重み付けされます。

1
回帰のための高カーディナリティのカテゴリカル機能を備えた機能の重要性(数値依存変数)
私はランダムフォレストの機能の重要度を使用して、すべての機能がカテゴリカルであり、それらの多くに多くのレベル(100〜1000のオーダー)がある回帰問題の経験的な機能選択を実行しようとしました。ワンホットエンコーディングでは、各レベルにダミー変数が作成されるため、機能の重要性は各機能(列)ではなく、各レベルにあります。これらの機能の重要性を集計する良い方法は何ですか? 機能のすべてのレベルの平均の重要度を合計または取得することを考えました(おそらく、前者はより多くのレベルの機能に偏っています)。この問題に関する参考資料はありますか? 機能の数を減らすために他に何ができますか?私はグループなげなわを知っています、scikit-learnに使いやすいものを見つけることができませんでした。

1
scikit-learnを使用したランダムフォレストでの機能重要度を使用した機能選択
scikit-learnを使用して、ランダムフォレストの機能の重要性をプロットしました。ランダムフォレストを使用して予測を改善するには、プロット情報を使用してフィーチャを削除するにはどうすればよいですか?つまり、プロット情報に基づいて、フィーチャが無用であるか、ランダムフォレストのパフォーマンスの低下をさらに悪化させるかを特定する方法を教えてください。プロットは属性に基づいておりfeature_importances_、分類子を使用していsklearn.ensemble.RandomForestClassifierます。 機能選択には他にも手法があることは承知していますが、この質問では機能の使い方に焦点を当てたいと思いますfeature_importances_。 そのような特徴重要度プロットの例:

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
標本外データのモデルの精度は100%オーバーフィットですか?
私はcognitiveclass.aiのRコースの機械学習を完了し、ランダムフォレストの実験を開始しました。 Rの「randomForest」ライブラリを使用してモデルを作成しました。モデルは、goodとbadの2つのクラスに分類されます。 モデルがオーバーフィットである場合、モデル自体のトレーニングセットからのデータに対してはうまく機能しますが、サンプル外のデータに対してはうまく機能しないことを知っています。 モデルをトレーニングしてテストするために、データセット全体をシャッフルして、トレーニング用に70%とテスト用に30%に分割しました。 私の質問:テストセットで行われた予測から100%の精度を得ています。これは悪いですか?それは本当であるには余りにも良いようです。 目的は、4つの波形を相互に依存する波形認識です。データセットの機能は、ターゲット波形を含む波形のダイナミックタイムワーピング分析のコスト結果です。

2
P(Y | X)でトレーニングしたときに優れたパフォーマンスを持つモデルがある場合、最適なP(X | Y)を見つける
入力データ: バツバツX > Tシャツの特徴(色、ロゴなど) YYY >利益率 上記のとランダムフォレストをトレーニングし、テストデータで妥当な精度を達成しました。ので、私は持っていますYバツバツXYYY P(Y| バツ)P(Y|バツ)P(Y|X)。 ここで、つまりフィーチャの確率分布を見つけたいと思います。これだけの利益率を期待しているからです。XP(X| Y)P(バツ|Y)P(X|Y)バツバツX ランダムフォレスト(またはその他の識別モデル)でそれを行うにはどうすればよいですか? 私に対する提案の1つは、差別モデルではなく生成モデルから始めることです。しかし、私の理解では、生成モデルは、ナイーブベイズの場合のの条件付き独立性などの非常に限定的な仮定を行わない限り、一般にトレーニングに多くのデータを必要とします。バツバツX その他の提案としては、とを入れ替えて、判別モデルをトレーニングすることもできます。今、利益率となり、シャツでの機能となります。は、目標利益率が与えられている場合、Tシャツの特徴の確率分布を直接示します。しかし、このアプローチは私には適切ではないようです。私はいつもを偶然の変数として考え、が効果的だからです。Y X Y P (Y | X )X YバツバツXYYYバツバツXYYYP(Y| バツ)P(Y|バツ)P(Y|X)バツバツXYYY また、私が聞いたところから、同様の質問が創薬のために提起されており、アルゴリズムは高度な成功を収める新薬候補を生み出すように設計されています。誰かがこのドメインの文献を研究するように私に指摘できますか? 更新: 私はこれに遭遇し、これは創薬に使用されているGANについて語っています。生成的な敵対的なネットワークは、私の問題の発言に適しているように思えるので、私はそれらについて読んでいます。しかし、私が理解したことの1つは、GANが監視なしの方法でサンプルを生成することです。彼らは最初にXの基になる分布をキャプチャし、次にその分布からサンプリングするようなサンプルを生成しようとします。しかし、私はX | Yに興味があります。XとYは上記で定義されています。GAN以外のものを探索する必要がありますか?ポインタはありますか? フォローアップ質問: Tシャツ(出力サンプルX)の作成方法を学習したGANのトレーニングを受けたとします。特定のYの上位5枚のシャツを入手するにはどうすればよいですか?

3
不均衡なクラス—偽陰性を最小限に抑える方法は?
バイナリクラス属性を持つデータセットがあります。クラス+1(癌陽性)のインスタンスは623個、クラス-1(癌陰性)のインスタンスは101,671個あります。 私はさまざまなアルゴリズム(ナイーブベイズ、ランダムフォレスト、AODE、C4.5)を試してみましたが、それらはすべて許容できない偽陰性率を持っています。ランダムフォレストは、全体の予測精度が最も高く(99.5%)、偽陰性率が最も低くなりますが、陽性クラスの79%は見落とします(つまり、悪性腫瘍の79%を検出できません)。 この状況を改善するにはどうすればよいですか? ありがとう!

4
ランダムフォレストでの過剰適合を回避する方法は?
無作為の森での過剰適合を避けたいです。この点で、mtry、nodesize、maxnodesなどを使用するつもりです。これらのパラメーターの値を選択するのを手伝っていただけませんか?私はRを使用しています。 また、可能であれば、ランダムフォレスト(R)に対してk分割交差検証を使用する方法を教えてください。

2
ランダムフォレスト分類にカテゴリデータタイプを適合させるにはどうすればよいですか?
ランダムフォレストアルゴリズムを適用して、トレーニングデータセットの精度を見つける必要があります。しかし、私のデータセットのタイプは、カテゴリーと数値の両方です。これらのデータをフィッティングしようとすると、エラーが発生します。 '入力にNaN、無限大、またはdtype(' float32 ')には大きすぎる値が含まれています。 問題はオブジェクトのデータ型です。RFを適用するために変換せずにカテゴリデータを適合させるにはどうすればよいですか? これが私のコードです。

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
機能の選択は必要ですか?
データセットでランダムフォレスト、勾配ブースティング、SVMなどの機械学習モデルを実行したいと思います。データセットには200を超える予測変数があり、ターゲットクラスはバイナリ変数です。 モデルフィッティングの前に特徴選択を実行する必要がありますか?すべての予測子変数を使用してモデルを直接当てはめると、モデルのパフォーマンスに大きな影響を与えますか、それとも大きな違いはありませんか?

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

1
ランダムフォレストと線形回帰による機能の重要性が異なります
ラッソを適用して機能をランク付けし、次の結果を得ました。 rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 データセットには3つのラベルがあることに注意してください。異なるラベルの機能のランキングは同じです。 次に、同じデータセットにランダムフォレストを適用しました。 rank feature score =================================== 1 b 0.17504808300002753 6 a 0.05132699243632827 8 c 0.041690685195283385 ラッソが作成したものとは非常に異なるランキングであることに注意してください。 違いをどのように解釈しますか?基礎となるモデルが本質的に非線形であることを意味しますか?

3
Scikit-LearnのRandom Forest Regressorから重み(式)をエクスポートする
Scikit Learn in Python(ランダムフォレストリグレッサー)を使用して予測モデルをトレーニングし、手動で予測するためのExcelツールを作成するために、各機能の重みを何らかの方法で抽出したいと考えています。 私が見つけた唯一のものはですがmodel.feature_importances_、それは助けにはなりません。 それを達成する方法はありますか? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest Regression''' from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit( X_train , y_train ) #make predictions expected = y_test predicted = model.predict( X_test ) #summarize the fit of the model mse = np.mean(( predicted - expected )** …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.