ランダムフォレストと線形回帰による機能の重要性が異なります


9

ラッソを適用して機能をランク付けし、次の結果を得ました。

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

データセットには3つのラベルがあることに注意してください。異なるラベルの機能のランキングは同じです。

次に、同じデータセットにランダムフォレストを適用しました。

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

ラッソが作成したものとは非常に異なるランキングであることに注意してください。

違いをどのように解釈しますか?基礎となるモデルが本質的に非線形であることを意味しますか?


機能のランクは、実際には異なる分類子間で変換されません。モデルが非線形かどうかをテストするには、例をここに示します。stats.stackexchange.com
Alex R.

1
機能の重要性は、「ヒューリスティック」に基づく提案にすぎません。それらは時々信頼できない場合があります。私は通常、ラッソよりランダムフォレストを信頼します。
Gerenuk 2016年

回答:


6

したがって、クエリは、線形回帰とランダムフォレストのモデルから派生した変数の重要性の比較です。

R2

もう1つの一般的なアプローチは、順序付けによる平均化です(LMG、1980)。LMGは次のように機能します。

  • SSa/SStotalR2a
  • abcbacbca
  • これらの次数のそれぞれの半部分相関の平均を求めます。これは、注文の平均です。

ランダムフォレストアルゴリズムは複数のツリーに適合します。フォレスト内の各ツリーは、データセットからさまざまな機能をランダムに選択することによって構築されます。各ツリーのノードは、分散を最大化するために選択および分割することによって構築されます。テストデータセットを予測している間、個々のツリー出力は平均化されて最終出力が取得されます。各変数は、すべてのツリー間で置換され、置換の前後のサンプル外誤差の差が計算されます。差が最も大きい変数が最も重要であると見なされ、値が小さい変数ほど重要ではありません。

モデルをトレーニングデータに適合させる方法は、ランダムフォレストモデルと比較して、線形回帰モデルでは大きく異なります。ただし、どちらのモデルにも変数間の構造的関係は含まれていません。

従属変数の非線形性に関するクエリについて:投げ縄は本質的に線形モデルであり、ツリーベースのモデルと比較して、基になる非線形プロセスを適切に予測できません。これは、セットアサイドテストセットでモデルのパフォーマンスを確認することで確認できます。ランダムフォレストのパフォーマンスが向上すると、基になるプロセスが非線形になる可能性があります。または、変数の相互作用効果と、ラッソモデルにa、b、cを使用して作成した高次の変数を含め、このモデルのパフォーマンスが、a、b、cの線形結合のみのラッソーと比較して優れているかどうかを確認できます。存在する場合、基礎となるプロセスは非線形である可能性があります。

参照:

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.