変数の重要度randomForestの負の値


回答:


5

ランダムフォレストの変数の重要度は、次のように計算されます。

  1. 最初に、モデルのMSEは元の変数で計算されます
  2. 次に、単一の列の値が並べ替えられ、MSEが再計算されます。たとえば、列(Col1)が値1、2、3、4を取り、値のランダムな置換が4、3、1、2になる場合。これにより、MSE1になります。次に、MSEの増加、つまりMSE1-MSEは、変数の重要性を示します。

  3. 差は正であると予想されますが、負の数の場合は、ランダム置換がより効果的に機能したことを示しています。変数は予測に役割を持たない、つまり重要ではないと推測できます。

お役に立てれば!

詳細な説明については、次のリンクを参照してください!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean


3

これは単なるランダムな変動である可能性があります(たとえば、ntreeが小さい場合)。

そうでない場合は、データにかなりの量のパラドックス、つまり、ほぼ同じ予測子と非常に異なる結果を持つオブジェクトのペアがあることを示している可能性があります。この場合、モデルが実際に意味があるかどうかを2回確認し、それらを解決するためにさらに多くの属性を取得する方法を考え始めます。


2
「データのパラドックス」についてもう少し詳しく説明してもらえますか?私は完全に従わなかったので、あなたが説明していることを理解したいと思います。
JEquihua 2013年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.