タグ付けされた質問 「random-forest」

ランダムフォレストは、各ツリーの変数のランダムサブセットを選択し、最も頻度の高いツリー出力を全体的な分類として使用することに基づく機械学習分類器です。

3
Amazon ec2エラーのRランダムフォレスト:サイズ5.4 Gbのベクターを割り当てることができません
私はRでランダムフォレストモデルをトレーニングrandomForest()し、約20の予測子と600K行の1000個の木とデータフレームを使用しています。私のラップトップではすべてが正常に動作しますが、amazon ec2に移動して同じことを実行すると、エラーが発生します。 Error: cannot allocate vector of size 5.4 Gb Execution halted 私はc3.4xlargeインスタンスタイプを使用しているので、かなり頑丈です。誰かがこれをこのインスタンスで実行するための回避策を知っていますか?この問題の原因となるメモリの微妙な違いについて、ラップトップではなくec2インスタンスでのみ知りたい(OS X 10.9.5プロセッサ2.7 GHz Intel Core i7、メモリ16 GB 1600 MHz DDR3) ありがとう。

2
ディスクに保存されたときのランダムフォレストの禁止サイズ
cPickleを使用してディスクに保存した場合:https ://stackoverflow.com/questions/20662023/save-python-random-forest-model-to-file 、私のランダムフォレストは6.57 GBです。 with open('rforest.cpickle', 'wb') as f: cPickle.dump(rforest, f) Herokuでホストされているpython APIを介して予測を行うためにフォレスト自体を使用したいと思います。もちろん、そのファイルサイズは許容できません。 ファイルサイズが非常に大きいのはなぜですか?アンサンブルには500本のツリーがあります。保存したいのは、予測として使用されるため、完成したツリー自体だけです。ディスク上に約7 GBのスペースを必要とする500のツリーのそれぞれを構成するのは、実際のノードとエッジですか? scikitlearnのrandomforestregressorを使用しました: def buildForest(self, X_train, y_train): rf = RandomForestRegressor(n_estimators=500, verbose=1) rf.fit_transform(X_train, y_train) return rf また、APIを介してモデルにアクセスできるようにするより良い方法がある場合は、それも知っておくとよいでしょう。 更新:予測能力をほとんど失うことなく100ツリーに減らしたため、保存サイズは1.3 GBになりました。

1
ランダムフォレスト分類器の最小ツリー数
ランダムフォレスト分類器のツリー数の下限の理論的または実験的推定を探しています。 私は通常、さまざまな組み合わせをテストし、(交差検証を使用して)中央値の最良の結果を提供する組み合わせを選択します。 ただし、観測値とn個の特徴がある場合、エラーへの分散の寄与を減らすために、使用する木の数には下限があると思います。分類子を正しく調整するために確認できるテストまたは参照はありますか?メートルメートルmんんn

1
ランダムフォレストでのtf-idfとtfの違い
私は、分類子としてランダムフォレストを使用したテキスト分類問題と、バッグオブワードアプローチに取り組んでいます。私は、ランダムフォレスト(scikitに存在するもの)の基本的な実装を使用しています。これは、分割ごとに1つの変数にバイナリ条件を作成します。これを考えると、単純なtf(項頻度)機能の使用に違いがありますか?各単語には、ドキュメント内の出現回数を表す関連する重み、またはtf-idf(用語の頻度*逆のドキュメントの頻度)があり、用語の頻度には、ドキュメントの総数間の比率を表す値も乗算されます。および単語を含むドキュメントの数)? 私の意見では、これらの2つのアプローチの間に違いはないはずです。違いは各機能のスケーリング係数だけなのでですが、分割は単一の機能のレベルで行われるため、違いはないはずです。 私の推論は正しいですか?

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.