回答:
最初のものは次のように「解釈」できます:現在のモデルで予測変数が重要な場合、その予測変数にランダムに「現実的に」他の値を割り当てる(つまり、データセット上でこの予測変数の値を並べ替える)には、マイナスの影響があります予測時、つまり、同じモデルを使用して、1つの変数を除いて同じデータから予測すると、予測が悪化します。
そのため、元のデータセットを使用して予測的測定(MSE)を実行し、次に「並べ替えられた」データセットを使用して、何らかの方法でそれらを比較します。1つの方法、特に元のMSEは常に小さくなると予想されるため、この差をとることができます。最後に、変数に対して値を比較可能にするために、これらはスケーリングされます。
2つ目:各分割で、この分割がノードの不純度をどれだけ減らすかを計算できます(実際、回帰ツリーの場合、分割前後のRSSの差)。これは、その変数のすべての分割、すべてのツリーで合計されます。
注:良い読み物は、Hastie、Tibshirani、Friedmanによる統計学習の要素です...
RのrandomForestパッケージに実装されているランダムフォレストの重要度メトリックには、相関関係のある予測子が低い重要度値を取得するという癖があります。
http://bioinformatics.oxfordjournals.org/content/early/2010/04/12/bioinformatics.btq134.full.pdf
私は、CRANにランダムフォレストの実装を修正しました。これは、経験的なp値と偽発見率を推定するアプローチを実装しています。
caret::train(method="rf", importance = TRUE, ...)
か??
?importance
ますか?説明は、両方の対策が何を意味するかにありあります...