データサイエンス random-forest

3

Amazon ec2エラーのRランダムフォレスト：サイズ5.4 Gbのベクターを割り当てることができません

私はRでランダムフォレストモデルをトレーニングrandomForest()し、約20の予測子と600K行の1000個の木とデータフレームを使用しています。私のラップトップではすべてが正常に動作しますが、amazon ec2に移動して同じことを実行すると、エラーが発生します。 Error: cannot allocate vector of size 5.4 Gb Execution halted 私はc3.4xlargeインスタンスタイプを使用しているので、かなり頑丈です。誰かがこれをこのインスタンスで実行するための回避策を知っていますか？この問題の原因となるメモリの微妙な違いについて、ラップトップではなくec2インスタンスでのみ知りたい（OS X 10.9.5プロセッサ2.7 GHz Intel Core i7、メモリ16 GB 1600 MHz DDR3）ありがとう。

9 r random-forest

2

ディスクに保存されたときのランダムフォレストの禁止サイズ

cPickleを使用してディスクに保存した場合：https ://stackoverflow.com/questions/20662023/save-python-random-forest-model-to-file 、私のランダムフォレストは6.57 GBです。 with open('rforest.cpickle', 'wb') as f: cPickle.dump(rforest, f) Herokuでホストされているpython APIを介して予測を行うためにフォレスト自体を使用したいと思います。もちろん、そのファイルサイズは許容できません。ファイルサイズが非常に大きいのはなぜですか？アンサンブルには500本のツリーがあります。保存したいのは、予測として使用されるため、完成したツリー自体だけです。ディスク上に約7 GBのスペースを必要とする500のツリーのそれぞれを構成するのは、実際のノードとエッジですか？ scikitlearnのrandomforestregressorを使用しました： def buildForest(self, X_train, y_train): rf = RandomForestRegressor(n_estimators=500, verbose=1) rf.fit_transform(X_train, y_train) return rf また、APIを介してモデルにアクセスできるようにするより良い方法がある場合は、それも知っておくとよいでしょう。更新：予測能力をほとんど失うことなく100ツリーに減らしたため、保存サイズは1.3 GBになりました。

9 python random-forest

1

ランダムフォレスト分類器の最小ツリー数

ランダムフォレスト分類器のツリー数の下限の理論的または実験的推定を探しています。私は通常、さまざまな組み合わせをテストし、（交差検証を使用して）中央値の最良の結果を提供する組み合わせを選択します。ただし、観測値とn個の特徴がある場合、エラーへの分散の寄与を減らすために、使用する木の数には下限があると思います。分類子を正しく調整するために確認できるテストまたは参照はありますか？メートルメートルmんんn

8 random-forest decision-trees

1

ランダムフォレストでのtf-idfとtfの違い

私は、分類子としてランダムフォレストを使用したテキスト分類問題と、バッグオブワードアプローチに取り組んでいます。私は、ランダムフォレスト（scikitに存在するもの）の基本的な実装を使用しています。これは、分割ごとに1つの変数にバイナリ条件を作成します。これを考えると、単純なtf（項頻度）機能の使用に違いがありますか？各単語には、ドキュメント内の出現回数を表す関連する重み、またはtf-idf（用語の頻度*逆のドキュメントの頻度）があり、用語の頻度には、ドキュメントの総数間の比率を表す値も乗算されます。および単語を含むドキュメントの数）？私の意見では、これらの2つのアプローチの間に違いはないはずです。違いは各機能のスケーリング係数だけなのでですが、分割は単一の機能のレベルで行われるため、違いはないはずです。私の推論は正しいですか？

8 classification text-mining random-forest

1

指定された変数に直交する（相関しない）予測を生成する

私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。このコード： import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

タグ付けされた質問 「random-forest」

タグ付けされた質問「random-forest」