ランダムフォレストでは、%IncMSEが大きいほど良いですか、悪いですか?


17

私はRに(回帰)ランダムフォレストモデルを構築した後、コールはrf$importance各予測変数のための2つの対策を提供してくれる、%IncMSEIncNodePurity%IncMSE値が小さい予測変数の解釈は、%IncMSE値が大きい予測変数よりも重要ですか?

どうIncNodePurityですか?

回答:


29

%IncMSEは、最も堅牢で有益な指標です。これは、変数jが置換された結果(値がランダムにシャッフルされた)の予測のmseの増加(out-of-bag-CVで推定)です。

  1. 回帰フォレストを成長させます。OOB-mseを計算し、このmse0という名前を付けます。
  2. 1からj varの場合:列jの値を置換し、OOB-mse(j)を予測および計算します
  3. j番目の%IncMSEは(mse(j)-mse0)/ mse0 * 100%です

数字が大きいほど重要です

IncNodePurityは、最適な分割によって選択される損失関数に関連しています。損失関数は、回帰の場合はmse、分類の場合はジニ不純物です。より有用な変数は、ノード純度のより高い増加を達成します。つまり、高いノード間「分散」と小さなノード内「分散」を持つ分割を見つけます。IncNodePurityはバイアスされているため、%IncMSEを計算するための余分な計算時間が許容できない場合にのみ使用してください。%IncMSEを計算するのに〜5-25%余分な時間がかかるだけなので、これはほとんど起こりません。

同様の質問と回答

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.