タグ付けされた質問 「random-forest」

ランダムフォレストは、多くの決定木の出力の組み合わせに基づく機械学習手法です。

4
非線形モデルを使用する場合、多重共線性について心配する必要がありますか?
ほとんどがカテゴリカルな特徴を持つバイナリ分類問題があるとします。学習には非線形モデル(XGBoostやランダムフォレストなど)を使用します。 それでも多重共線性を心配する必要がありますか?どうして? 上記の答えが正しい場合、これらのタイプの非線形モデルを使用していることを考慮して、どのように戦うべきですか?

3
縦断的ビッグデータをモデル化するには?
伝統的に、私たちは混合モデルを使用して、縦断的なデータ、つまり次のようなデータをモデル化します。 id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 異なる人に対してランダムなインターセプトまたはスロープを想定できます。しかし、私が解決しようとしている質問には、膨大なデータセット(数百万人、1か月の毎日の観測、つまり各人が30の観測を含む)が含まれます。 spark / mahoutにアクセスできますが、混合モデルを提供していません。私のデータは、RandomForestまたはSVMを使用してこのデータセットをモデル化できるようにデータを変更できるのでしょうか。 RF / SVMが自動相関を考慮できるようにするために利用できる機能エンジニアリング手法はありますか? どうもありがとう! いくつかの潜在的な方法がありますが、私はそれらをスパークに書き込む時間を費やすことができませんでした randomForestにランダム効果を含めるにはどうすればよいですか 縦断データを使用したSVM回帰

1
ランダムフォレストの評価:OOB vs CV
たとえば、AUCを使用してランダムフォレストの品質を評価する場合、Out of Bag Samplesまたはホールドアウトクロス検証セットでこれらの数量を計算する方が適切ですか? OOBサンプルで計算すると、より悲観的な評価が得られると聞いていますが、その理由はわかりません。

3
ランダムフォレストとブースティングはパラメトリックですか、ノンパラメトリックですか?
優れた統計モデリング:2つの文化(Breiman 2001)を読むことにより、従来の統計モデル(線形回帰など)と機械学習アルゴリズム(バギング、ランダムフォレスト、ブーストツリーなど)のすべての違いを把握できます。 ブライマンはデータモデル(パラメトリック)を批判します。これは、統計が統計学者によって規定された既知の正式なモデルによって観測が生成されるという仮定に基づいているためです。一方、MLアルゴは正式なモデルを想定せず、データから入力変数と出力変数の間の関連付けを直接学習します。 Bagging / RFとBoostingもパラメータの一種であることに気付きました。たとえば、ntree、RFのmtry、学習率、bag fraction、Stochastic Gradient Boosted ツリーのツリー複雑度はすべてチューニングパラメーターです。また、データを使用してこれらのパラメーターの最適な値を見つけるため、データからこれらのパラメーターを推定することもできます。 それで、違いは何ですか?RFおよびブーストツリーはパラメトリックモデルですか?

3
マルチレベル/階層構造データのランダムフォレスト
私は機械学習やCART技術などは初めてであり、私の素朴さがあまり明白ではないことを願っています。 ランダムフォレストは、マルチレベル/階層データ構造をどのように処理しますか(たとえば、クロスレベルの相互作用が重要な場合)。 つまり、いくつかの階層レベルでの分析の単位を含むデータセット(たとえば、学生と学校の両方に関するデータを含む、学校内にネストされた学生)。 単なる例として、第1レベルの個人(たとえば、投票行動、人口統計などのデータ)が第2レベル(国レベルのデータ、たとえば人口)の国にネストされたマルチレベルデータセットを考えます。 ID voted age female country population 1 1 19 1 1 53.01 2 1 23 0 1 53.01 3 0 43 1 1 53.01 4 1 27 1 1 53.01 5 0 67 0 1 53.01 6 1 34 1 2 47.54 7 0 54 1 …

1
ランダムフォレストと予測
ランダムフォレストの仕組みを理解しようとしています。木がどのように構築されるかについては把握していますが、ランダムフォレストがバッグのサンプルから予測を行う方法を理解できません。誰でも簡単な説明をお願いできますか?:)

2
ランダムフォレストモデルを使用するときに変数をログ/検証するタイミング
複数の属性に基づいて価格を予測するために、ランダムフォレストを使用して回帰を行っています。コードは、Scikit-learnを使用してPythonで記述されています。 exp/ logを使用して変数を変換してから回帰モデルに適合させる必要があるかどうかをどのように決定しますか?ランダムフォレストなどのアンサンブルアプローチを使用する場合、必要ですか?

3
ランダムな森林分類の前の高次元テキストデータのPCA?
ランダムフォレスト分類を実行する前にPCAを行うことは理にかなっていますか? 高次元のテキストデータを扱っており、次元の呪いを回避するために機能の削減を行いたいのですが、ランダムフォレストは既に何らかの次元の削減を行っていませんか?

6
ランダムフォレスト:テストセットで新しい因子レベルを処理する方法
Rのランダムフォレストモデルを使用して予測しようとしています。 ただし、テストセットとトレーニングセットでは値が異なる要因があるため、エラーが発生します。たとえば、因子にCat_2は34, 68, 76、トレーニングセットに表示されないテストセットの値などがあります。残念ながら、テストセットを制御することはできません...そのまま使用する必要があります。 私の唯一の回避策は、問題のある要素を数値に変換して戻すことas.numeric()でした。それは機能しますが、これらの値は数値的な意味を持たないコードであるため、私はあまり満足していません... テストセットから新しい値を削除する別の解決策があると思いますか?ただし1, 2, 14, 32、トレーニングとテストの両方にあり、予測に役立つ可能性のある情報を含む他のすべての因子値(たとえば、値など)を削除することはありません。

3
randomForestの正しいsampSizeを決定するための式またはルールはありますか?
randomForestで遊んでいますが、一般にsampSizeを増やすとパフォーマンスが向上することがわかりました。最適なsampSizeがどうあるべきか、それとも試行錯誤なのかを示唆するルール/公式/などはありますか?別の言い方をすると思います。sampSizeが小さすぎる、または大きすぎる(オーバーフィット)リスクは何ですか? この質問は、randomForestパッケージ内のランダムフォレストのR実装に関するものです。この関数randomForestにはパラメーターがsampSizeあり、ドキュメントで次のように説明されています。 描画するサンプルのサイズ。分類のために、sampsizeが層数の長さのベクトルである場合、サンプリングは層ごとに層化され、sampsizeの要素は層から描画される数を示します。
13 r  random-forest 


2
ランダムフォレストは非常に小さなデータセットに適していますか?
24行の月次データで構成されるデータセットがあります。機能は、GDP、空港到着、月、およびその他いくつかです。従属変数は、人気のある観光地への訪問者の数です。ランダムフォレストはそのような問題に適していますか? データは非公開なので、サンプルを投稿できません。

2
ディシジョンツリーのカテゴリ機能をコーディングするためのベストプラクティスは?
線形回帰のカテゴリカル特徴をコーディングする場合、ルールがあります。ダミーの数は、レベルの総数よりも1少なくする必要があります(共線性を回避するため)。 ディシジョンツリーにも同様のルールがありますか(バグ、ブースト)?Pythonの標準的な方法はnレベルをnダミー(sklearns OneHotEncoderまたはPandas pd.get_dummies)に拡張するように思われるため、これを私は質問します。 ディシジョンツリーのカテゴリ機能をコーディングするためのベストプラクティスとして何を提案しますか?

1
ランダムフォレストでは、ツリーレベルではなくノードレベルでフィーチャのランダムサブセットが選択されるのはなぜですか?
私の質問:ランダムフォレストは、ツリーレベルではなく各ツリー内のノードレベルで分割するために、フィーチャのランダムサブセットを考慮するのはなぜですか? 背景:これは歴史の質問です。ティン・カム・ホーが公開され、この論文をランダムにそれぞれ成長させるために使用する機能のサブセットを選択することにより、「意思決定の森」を構築する上で木を 2001年に、後に1998数年で、レオ・ブレイマンは彼の独創性に富んランダムフォレストの公表論文特徴サブセットがランダムであるが、各ツリーではなく、各ツリー内の各ノードで選択されます。ブライマンはHoを引用しましたが、ツリーレベルからノードレベルのランダムな特徴選択への移行については特に説明しませんでした。 この開発の具体的な動機は何だと思います。ツリーレベルでフィーチャサブセットを選択すると、ツリーの目的の非相関化が依然として達成されるようです。 私の理論:これは他の場所で明確に表現されていませんが、ランダムなサブスペース法は、特徴の重要性の推定値を取得するという点では効率が低いようです。変数の重要度の推定値を取得するために、各ツリーについて、特徴が1つずつランダムに並べ替えられ、誤判別の増加またはアウトオブバッグ観測のエラーの増加が記録されます。このランダムな順列から生じる誤分類またはエラーの増加が大きい変数は、最も重要です。 ランダム部分空間法を使用する場合、ツリーごとに、特徴のうちだけを考慮します。すべての予測子を一度でも考慮するには、いくつかの木が必要になる場合があります。我々は異なるサブセット考える一方、の特徴各ノードで、私たちは私たちにフィーチャー重要性のより堅牢な見積もりを与え、少数の木の後に、各機能に多くの時間を考慮します。mmmppppppm私m私m_ippp これまで見てきたこと:これまでのところ、私はブライマンの論文とホーの論文を読み、決定的な答えを見つけることなく方法の比較のために広範なオンライン検索を行いました。同様の質問が以前に聞かれたことに注意してください。この質問は、考えられる解決策に向けた私の推測/作業を含めることで、さらに先へと進みます。答え、関連する引用、または2つのアプローチを比較するシミュレーション研究に興味があります。予定されていない場合は、2つの方法を比較して独自のシミュレーションを実行する予定です。

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.