タグ付けされた質問 「random-forest」

ランダムフォレストは、多くの決定木の出力の組み合わせに基づく機械学習手法です。

1
時系列予測のためのランダムフォレスト回帰
私は、製紙工場のパフォーマンスを予測するためにRF回帰を利用しようとしています。 私は、入力(木材パルプの速度と量など)と、マシンのパフォーマンス(生成された紙、マシンによって消費された電力)に関する分単位のデータを持ち、10分間の予測を求めています。パフォーマンス変数の先に。 12か月分のデータがあるので、トレーニングセット用に11か月、テスト用に最終月に分けました。 これまでに、パフォーマンス変数ごとに値が1〜10分遅れている10個の新しい機能を作成し、これらの機能と入力を使用して予測を行いました。テストセットのパフォーマンスは非常に良好です(システムはかなり予測可能です)が、アプローチに何か不足しているのではないかと心配しています。 たとえば、このペーパーでは、ランダムフォレストモデルの予測能力をテストする際のアプローチを次のように述べています。 シミュレーションは、新しい週のデータを繰り返し追加し、更新されたデータに基づいて新しいモデルをトレーニングし、翌週の大規模感染の数を予測することで続行されます。 これは、時系列の「後の」データをテストとして利用することとどう違うのですか?このアプローチとテストデータセットでRF回帰モデルを検証する必要がありますか?さらに、ランダムフォレスト回帰に対するこの種の「自己回帰」アプローチは時系列に有効ですか?将来10分の予測に興味がある場合、これだけ多くの遅延変数を作成する必要がありますか?

3
RBF SVMの使用例(対ロジスティック回帰とランダムフォレスト)
放射状ベース関数カーネルを備えたサポートベクターマシンは、汎用の教師付き分類器です。 私はこれらのSVMの理論的な基盤とその長所を知っていますが、それらが推奨される方法である場合については知りません。では、RBF SVMが他のML技術よりも優れているクラスの問題はありますか?(スコア、またはその他-堅牢性、開始の容易さ、解釈可能性など) 私のデフォルトのアプローチはロジスティック回帰(おそらくいくつかの相互作用による)、ランダムフォレスト、および少しのニューラルネットワークに集中しているので、私は尋ねています。私のMLをしている友達(Kaggleの勝者もいます)はSVMユーザーではありません(ただし、私のコミュニティのアーティファクトであるか、彼らが対処する問題である可能性があります)。

1
ランダムフォレストvs Adaboost
紙のセクション7でランダムフォレスト(Breiman、1999)、著者は以下の推測を述べている:「アダブーストはランダムフォレストです」。 誰かがこれを証明または反証しましたか?この1999年のポストを証明または反証するために何が行われましたか?

1
ランダムフォレストの確率的予測と多数決
Scikitの学習では、モデル集約手法に多数決投票ではなく確率的予測を使用しているようですが、その理由は説明されていません(1.9.2.1。ランダムフォレスト)。 理由は明確に説明されていますか?さらに、ランダムフォレストのバギングに使用できるさまざまなモデル集約手法に関する優れた論文またはレビュー記事はありますか? ありがとう!


2
R randomForestsの分類のしきい値を変更するにはどうすればよいですか?
すべての種分布モデリングの文献では、確率を出力するモデル(RandomForestsなど)を使用して種の存在/不在を予測するときに、実際に種を存在または不在として分類するためのしきい値確率の選択が重要であり、常にデフォルトの0.5に依存するわけではありません。これについて少し助けが必要です!これが私のコードです: library(randomForest) library(PresenceAbsence) #build model RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500) #eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted RFpred <- predict(RFfit, …

1
randomForestモデルのキャレットvarImp
パッケージvarImpを含むrandomForestモデルで関数がどのように機能するかを理解できませんcaret。以下の例では、キャレットvarImp関数を使用してフィーチャーvar3の重要度がゼロになっていますが、基になるrandomForest最終モデルのフィーチャーvar3の重要度はゼロではありません。これはなぜですか? require(randomForest) require(caret) rf <- train(x, y, method = "rf", trControl = trainControl(method = "oob"), importance = TRUE, verbose = TRUE, tuneGrid = data.frame(mtry = num.predictors) ) fm <- rf$finalModel > varImp(f) rf variable importance Overall var1 100.00 var2 80.14 var3 0.00 > importance(fm) %IncMSE IncNodePurity var2 872.7935 40505276 var1 …
10 r  caret  random-forest 

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
小さなn、大きなpの問題におけるツリーベースのアンサンブル法の制限?
ランダムフォレストなどのツリーベースのアンサンブルメソッド、およびその後の派生物(条件付きフォレストなど)はすべて、相対的な変数の重要度を特定するために、いわゆる「小さなn、大きなp」の問題で役立つとされています。実際、これは事実であるように見えますが、私の質問は、この能力をどこまでとることができるかということです。たとえば、30の観測値と100の変数を持つことができますか?そのようなアプローチの限界は何ですか?存在する適切な経験則はありますか?シミュレートされたデータセットまたは実際のデータセットのいずれかを使用して、実際の証拠(推測ではない)へのリンクに裏付けられた回答を希望し、受け入れます。後者についてはあまり知りませんでした(こことここ)、それであなたの考え/アドバイス/(トピックに関する)参照提案は大歓迎です!

1
randomForestと変数の重要性のバグ?
MeanDecreaseAccuracy列のrfobject$importanceとの違いがimportance(rfobject)わかりません。 例: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 46.323415 > importance(fit) setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 1.277324 …

4
Rで変数/機能の選択を行うために相互検証を使用する方法はありますか?
削減したい約70の変数を含むデータセットがあります。私が探しているのは、次の方法でCVを使用して最も有用な変数を見つけることです。 1)ランダムに言う20変数を選択します。 2)stepwise/ LASSO/ lars/ etcを使用して、最も重要な変数を選択します。 3)〜50xを繰り返し、どの変数が最も頻繁に選択されている(削除されていない)かを確認します。 これはa randomForestが何をするかという線に沿っていrfVarSelますが、パッケージは因子/分類に対してのみ機能するようであり、連続従属変数を予測する必要があります。 私はRを使用しているので、あらゆる提案が理想的にそこで実装されます。

6
2つの異なるランダムフォレストモデルのR-2乗を比較する
RのrandomForestパッケージを使用してランダムフォレストモデルを開発し、サンプルよりも多くの予測子を持つ「広い」データセットで継続的な結果を説明しようとしています。 具体的には、1つのRFモデルをフィッティングして、重要と思われる75個までの予測変数のセットから手順を選択できるようにしています。 以前にここに投稿したアプローチを使用して、予約済みテストセットの実際の結果をモデルがどの程度予測できるかをテストしています。 ...またはR: 1 - sum((y-predicted)^2)/sum((y-mean(y))^2) しかし、これで追加できる〜25の予測変数が追加されました。〜100の予測子のセットを使用すると、R²が高くなります。これを統計的にテストしたいのですが、言い換えると、〜100の予測子のセットを使用した場合、モデルのテストは、〜75の予測子を使用したモデルの近似よりもデータのテストで大幅に優れています。つまり、RFモデルのテストから得られたR²は、完全なデータセットに適合し、削減されたデータセットでのRFモデルのテストから得られたR²よりも大幅に高くなります。 これはパイロットデータであり、追加の25の予測子を取得するのは高価であり、大規模な追跡調査でこれらの予測子を測定するために支払う必要があるかどうかを知る必要があるため、これは私にとってテストにとって重要です。 なんらかのリサンプリング/順列アプローチを考えているのですが、何も思い浮かびません。

1
ランダムフォレストでのモデリングには交差検証が必要ですか?
私が見た限りでは、これについては意見が異なる傾向があります。ベストプラクティスは、クロス検証の使用を確実に指示します(特に、同じデータセットでRFを他のアルゴリズムと比較する場合)。一方、元のソースでは、OOBエラーがモデルトレーニング中に計算されるという事実は、テストセットのパフォーマンスの指標として十分であると述べています。Trevor Hastieでさえ、比較的最近の講演で、「ランダムフォレストは無料の相互検証を提供する」と述べています。直感的に、これは、1つのデータセットでRFベースのモデルをトレーニングおよび改善しようとする場合、私には理にかなっています。 これについてどう思いますか?



弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.