ランダムフォレストの変数重要度の測定


40

私は回帰のためにランダムフォレストをいじくり回しており、2つの重要度の測定値が何を意味し、どのように解釈すべきかを正確に判断するのに苦労しています。

このimportance()関数は、変数ごとに2つの値を提供します:%IncMSEIncNodePurity。これらの2つの値の簡単な解釈はありますか?

以下のためにIncNodePurity、特に、これは単にその変数を除去した後の金額RSS増加のですか?


1
見たことがあり?importanceますか?説明は、両方の対策が何を意味するかにありあります...
ニックSabbe

2
@Nick Sabbe、私は持っていて、頭を包み込もうとしています。私は彼らのために素晴らしい直感的な解釈があるかどうか疑問に思っていました。
dcl

回答:


42

最初のものは次のように「解釈」できます:現在のモデルで予測変数が重要な場合、その予測変数にランダムに「現実的に」他の値を割り当てる(つまり、データセット上でこの予測変数の値を並べ替える)には、マイナスの影響があります予測時、つまり、同じモデルを使用して、1つの変数を除いて同じデータから予測すると、予測が悪化します。

そのため、元のデータセットを使用して予測的測定(MSE)を実行し、次に「並べ替えられた」データセットを使用して、何らかの方法でそれらを比較します。1つの方法、特に元のMSEは常に小さくなると予想されるため、この差をとることができます。最後に、変数に対して値を比較可能にするために、これらはスケーリングされます。

2つ目:各分割で、この分割がノードの不純度をどれだけ減らすかを計算できます(実際、回帰ツリーの場合、分割前後のRSSの差)。これは、その変数のすべての分割、すべてのツリーで合計されます。

注:良い読み物は、Hastie、Tibshirani、Friedmanによる統計学習の要素です...


3
乾杯、私は実際にその本を今開いています:)
dcl

RSSはどういう意味ですか?
-DavideChicco.it


10

RのrandomForestパッケージに実装されているランダムフォレストの重要度メトリックには、相関関係のある予測子が低い重要度値を取得するという癖があります。

http://bioinformatics.oxfordjournals.org/content/early/2010/04/12/bioinformatics.btq134.full.pdf

私は、CRANにランダムフォレストの実装を修正しました。これは、経験的なp値と偽発見率を推定するアプローチを実装しています。

http://cran.r-project.org/web/packages/pRF/index.html


1
これは、キャレットパッケージでrandomForestを使用する場合の変数重要度の異なる出力を説明しますcaret::train(method="rf", importance = TRUE, ...)か??
アジャイルBean
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.