私はRに(回帰)ランダムフォレストモデルを構築した後、コールはrf$importance
各予測変数のための2つの対策を提供してくれる、%IncMSE
とIncNodePurity
。%IncMSE
値が小さい予測変数の解釈は、%IncMSE
値が大きい予測変数よりも重要ですか?
どうIncNodePurity
ですか?
私はRに(回帰)ランダムフォレストモデルを構築した後、コールはrf$importance
各予測変数のための2つの対策を提供してくれる、%IncMSE
とIncNodePurity
。%IncMSE
値が小さい予測変数の解釈は、%IncMSE
値が大きい予測変数よりも重要ですか?
どうIncNodePurity
ですか?
回答:
%IncMSEは、最も堅牢で有益な指標です。これは、変数jが置換された結果(値がランダムにシャッフルされた)の予測のmseの増加(out-of-bag-CVで推定)です。
数字が大きいほど重要です
IncNodePurityは、最適な分割によって選択される損失関数に関連しています。損失関数は、回帰の場合はmse、分類の場合はジニ不純物です。より有用な変数は、ノード純度のより高い増加を達成します。つまり、高いノード間「分散」と小さなノード内「分散」を持つ分割を見つけます。IncNodePurityはバイアスされているため、%IncMSEを計算するための余分な計算時間が許容できない場合にのみ使用してください。%IncMSEを計算するのに〜5-25%余分な時間がかかるだけなので、これはほとんど起こりません。